Databricks anunció el lanzamiento del primer modelo de lenguaje ajustado a las instrucciones de código abierto, llamado Dolly 2.0. Fue entrenado utilizando una metodología similar a InstructGPT pero con un conjunto de datos de mayor calidad que es 100% de código abierto.
Este modelo es de uso gratuito, incluso con fines comerciales, porque cada parte del modelo es 100 % de código abierto.
Capacitación en instrucción de código abierto
Lo que hace que ChatGPT pueda seguir instrucciones es la capacitación que recibe utilizando las técnicas descritas en el artículo de investigación de InstructGPT.
El avance descubierto con InstructGPT es que los modelos de lenguaje no necesitan conjuntos de entrenamiento cada vez más grandes.
Al usar el entrenamiento de preguntas y respuestas evaluado por humanos, OpenAI pudo entrenar un mejor modelo de lenguaje usando cien veces menos parámetros que el modelo anterior, GPT-3.
Databricks usó un enfoque similar para crear un conjunto de datos de solicitud y respuesta llamado ellos llaman databricks-dolly-15k.
Su conjunto de datos de solicitud/respuesta se creó sin raspar foros web o Reddit.
databricks-dolly-15k es un conjunto de datos creado por empleados de Databricks, 15 000 pares de mensajes y respuestas 100 % originales y generados por humanos, diseñados para entrenar el modelo de lenguaje Dolly 2.0 de la misma manera que el modelo ChatGPT se creó con InstructGPT.
La página de GitHub para el conjunto de datos explica cómo lo hicieron:
“databricks-dolly-15k es un conjunto de datos de código abierto de registros de seguimiento de instrucciones que se usa para capacitar a databricks/dolly-v2-12b que fue generado por miles de empleados de Databricks en varias de las categorías de comportamiento descritas en el documento de InstructGPT, incluida la lluvia de ideas, la clasificación , QA cerrado, generación, extracción de información, QA abierto y resumen.
…Se invitó a los empleados de Databricks a crear pares de mensaje/respuesta en cada una de las ocho categorías de instrucción diferentes, incluidas las siete descritas en el documento InstructGPT, así como una categoría de forma libre abierta.
Se instruyó a los colaboradores para que evitaran el uso de información de cualquier fuente en la web, con la excepción de Wikipedia (para subconjuntos particulares de categorías de instrucciones), y se les instruyó explícitamente para que evitaran el uso de IA generativa en la formulación de instrucciones o respuestas. Se proporcionaron ejemplos de cada comportamiento para motivar los tipos de preguntas e instrucciones apropiadas para cada categoría.
A la mitad del proceso de generación de datos, a los colaboradores se les dio la opción de responder a las preguntas planteadas por otros colaboradores. Se les pidió que reformularan la pregunta original y solo seleccionaran las preguntas que razonablemente se podía esperar que respondieran correctamente”.
Databricks afirma que este puede ser el primer conjunto de datos de instrucciones generado por humanos creado para entrenar un modelo de lenguaje para seguir instrucciones, tal como lo hace ChatGPT.
El desafío era crear un conjunto de datos 100% original que no tuviera ningún vínculo con ChatGPT o cualquier otra fuente con una licencia restrictiva.
Los empleados fueron incentivados por un concurso para contribuir a generar las 15 000 sugerencias/respuestas en siete categorías de tareas, como lluvia de ideas, clasificación y escritura creativa.
Databricks afirma que el conjunto de entrenamiento databricks-dolly-15k puede ser superior al conjunto de datos utilizado para entrenar ChatGPT.
Señalan que aunque su conjunto de datos es más pequeño que el utilizado para entrenar el modelo Stanford Alpaca, su modelo funcionó mejor porque sus datos son de mayor calidad.
Escriben:
“El modelo Dolly 2.0, basado en pythia-12b de EleutherAI, exhibió un comportamiento de seguimiento de instrucción de alta calidad. En retrospectiva, esto no es sorprendente.
Muchos de los conjuntos de datos de ajuste de instrucciones publicados en los últimos meses contienen datos sintetizados, que a menudo contienen alucinaciones y errores fácticos.
databricks-dolly-15k, por otro lado, es generado por profesionales, es de alta calidad y contiene respuestas largas para la mayoría de las tareas.
…no esperamos que Dolly sea lo último en términos de efectividad.
Sin embargo, esperamos que Dolly y el conjunto de datos de código abierto actúen como la semilla para una multitud de trabajos de seguimiento, que pueden servir para impulsar modelos de lenguaje aún más poderosos”.
Limitaciones del conjunto de datos
La página de GitHub para el conjunto de datos reconoce que puede haber algunas deficiencias en el conjunto de datos.
Los datos de Wikipedia se utilizaron para parte de la capacitación en el contexto de la creación de indicaciones y respuestas. Por lo tanto, es posible que cualquier sesgo contenido en Wikipedia termine reflejado en el conjunto de datos resultante.
Algunos de los empleados que trabajaron para crear el conjunto de datos no eran hablantes nativos de inglés, lo que podría introducir algunas anomalías en el conjunto de datos.
La composición demográfica de los empleados que crearon el conjunto de datos puede influir en el conjunto de datos para que contenga sesgos que son peculiares de esos empleados.
A pesar de esas posibles deficiencias en el conjunto de datos, Databricks expresó que el suyo es de mayor calidad.
Además, Dolly 2.0 está destinado a servir como punto de partida para que otros creen e innoven versiones aún mejores.
Databricks insiste en que la IA de código abierto es mejor
Una de las motivaciones detrás de la creación de Dolly 2.0 es que los usuarios de los datos pueden poseer los modelos que crearon y pueden proteger mejor sus datos al no tener que compartirlos con un tercero.
También creen que la seguridad de la IA no debe concentrarse en manos de tres grandes corporaciones, sino repartirse entre todas las partes interesadas.
El código abierto está cobrando impulso y será interesante ver dónde se encuentra esta industria en los próximos dos años.
Puede encontrar más información sobre dónde descargar el modelo Dolly 2.0 y cómo usarlo en su anuncio.
Free Dolly: Presentamos el primer LLM del mundo verdaderamente abierto y sintonizado con instrucciones
Imagen destacada de Shutterstock/Kamil Macniak