Open Source GPT Chat dio otro paso adelante con el lanzamiento de Dolly Large Language Model (DLL) creado por la empresa de software empresarial Databricks.
El nuevo clon de ChatGPT se llama Dolly, en honor a la famosa oveja del mismo nombre, el primer mamífero clonado.
Modelos de lenguaje grande de código abierto
Dolly LLM es la última manifestación del creciente movimiento de IA de código abierto que busca ofrecer un mayor acceso a la tecnología para que no sea monopolizada y controlada por grandes corporaciones.
Una de las preocupaciones que impulsan el movimiento de IA de código abierto es que las empresas pueden ser reacias a entregar datos confidenciales a un tercero que controla la tecnología de IA.
Basado en código abierto
Dolly se creó a partir de un modelo de código abierto creado por el instituto de investigación sin fines de lucro EleutherAI y el modelo Alpaca de la Universidad de Stanford, que a su vez se creó a partir del modelo LLaMA de código abierto de 65 mil millones de parámetros creado por Meta.
LLaMA, que significa Large Language Model Meta AI, es un modelo de lenguaje que se entrena con datos disponibles públicamente.
Según un artículo de Weights & Biases, LLaMA puede superar a muchos de los mejores modelos de lenguaje (OpenAI GPT-3, Gopher de Deep Mind y Chinchilla de DeepMind) a pesar de ser más pequeño.
Crear un mejor conjunto de datos
Otra inspiración provino de un trabajo de investigación académica (AUTO-INSTRUCCIÓN: alineación del modelo de lenguaje con PDF de instrucciones autogeneradas) que describió una forma de crear datos de entrenamiento de preguntas y respuestas autogenerados de alta calidad que son mejores que los datos públicos limitados.
El trabajo de investigación de Self-Instruct explica:
“…seleccionamos un conjunto de instrucciones escritas por expertos para tareas novedosas, y mostramos a través de la evaluación humana que ajustar GPT3 con AUTO-INSTRUCCIÓN supera el uso de conjuntos de datos de instrucción pública existentes por un amplio margen, dejando solo una brecha absoluta del 5% detrás de InstructGPT…
…Al aplicar nuestro método a Vanilla GPT3, demostramos una mejora absoluta del 33 % sobre el modelo original en SUPERNATURALINSTRUCTIONS, a la par con el rendimiento de InstructGPT… que se entrena con datos de usuarios privados y anotaciones humanas”.
La importancia de Dolly es que demuestra que se puede crear un modelo de lenguaje grande útil con un conjunto de datos más pequeño pero de alta calidad.
Databricks observa:
“Dolly funciona tomando un modelo de código abierto existente de 6 mil millones de parámetros de EleutherAI y modificándolo muy levemente para obtener capacidades de seguimiento de instrucciones, como la lluvia de ideas y la generación de texto que no están presentes en el modelo original, utilizando datos de Alpaca.
… Demostramos que cualquiera puede tomar un modelo de lenguaje grande (LLM) de código abierto listo para usar y darle una capacidad mágica de seguimiento de instrucciones similar a ChatGPT entrenándolo en 30 minutos en una máquina, usando datos de entrenamiento de alta calidad.
Sorprendentemente, el seguimiento de instrucciones no parece requerir los modelos más grandes o más recientes: nuestro modelo tiene solo 6 000 millones de parámetros, en comparación con los 175 000 millones de GPT-3″.
Ladrillos de datos IA de código abierto
Se dice que Dolly democratiza la IA. Es parte de un movimiento de vestimenta al que se unió recientemente la organización sin fines de lucro Mozilla con la fundación de Mozilla.ai. Mozilla es el editor del navegador Firefox y otro software de código abierto.
Lea el anuncio completo de Databricks:
Hello Dolly: democratizando la magia de ChatGPT con modelos abiertos