Los modelos de lenguaje grande (LLM) como ChatGPT, Bard e incluso las versiones de código abierto se entrenan en contenido público de Internet. Pero también hay indicios de que las IA populares también podrían entrenarse en conjuntos de datos creados a partir de libros pirateados.
¿Dolly 2.0 está entrenada en contenido pirateado?
Dolly 2.0 es una IA de código abierto que se lanzó recientemente. La intención detrás de Dolly es democratizar la IA al ponerla a disposición de todos los que quieran crear algo con ella, incluso productos comerciales.
Pero también hay un problema de privacidad al concentrar la tecnología de inteligencia artificial en manos de tres grandes corporaciones y confiarles datos privados.
Dadas las opciones, muchas empresas preferirían no entregar datos privados a terceros como Google, OpenAI y Meta.
Incluso Mozilla, la empresa de aplicaciones y navegadores de código abierto, está invirtiendo en hacer crecer el ecosistema de IA de código abierto.
La intención detrás de la IA de código abierto es, sin duda, buena.
Pero hay un problema con los datos que se usan para entrenar estos grandes modelos de lenguaje porque algunos de ellos consisten en contenido pirateado.
El clon de ChatGPT de código abierto, Dolly 2.0, fue creado por una empresa llamada DataBricks (obtenga más información sobre Dolly 2.0)
Dolly 2.0 se basa en un modelo de lenguaje grande (LLM) de código abierto llamado pitia (que fue creado por un grupo de código abierto llamado, EleutherAI).
EleutherAI creó ocho versiones de LLM de diferentes tamaños dentro de la familia Pythia de LLM.
Una versión de Pythia, una versión de 12 mil millones de parámetros, es la que usa DataBricks para crear Dolly 2.0, así como con un conjunto de datos que DataBricks creó ellos mismos (un conjunto de datos de preguntas y respuestas que se usó para entrenar a Dolly 2.0 AI para tomar instrucciones)
Lo que pasa con EleutherAI Pythia LLM es que fue entrenado usando un conjunto de datos llamado Pile.
El conjunto de datos de Pile se compone de múltiples conjuntos de textos en inglés, uno de los cuales es un conjunto de datos llamado Books3. El conjunto de datos Books3 contiene el texto de los libros que fueron pirateados y alojados en un sitio pirata llamado bibliotik.
Esto es lo que dice el anuncio de DataBricks:
«Dolly 2.0 es un modelo de lenguaje de parámetros 12B basado en la familia de modelos EleutherAI pythia y ajustado exclusivamente en un nuevo conjunto de datos de seguimiento de instrucciones generado por humanos de alta calidad, obtenido entre los empleados de Databricks».
Pythia LLM se creó con el conjunto de datos de pilotes
El artículo de investigación de Pythia de EleutherAI que menciona que Pythia fue entrenada usando el conjunto de datos de Pile.
Esta es una cita del trabajo de investigación Pythia:
“Entrenamos 8 tamaños de modelo cada uno en Pile… y en Pile después de la deduplicación, proporcionando 2 copias de la suite que se pueden comparar”.
La deduplicación significa que eliminaron datos redundantes, es un proceso para crear un conjunto de datos más limpio.
Entonces, ¿qué hay en Pile? Hay un trabajo de investigación de Pile que explica qué hay en ese conjunto de datos.
Aquí hay una cita del trabajo de investigación de Pile donde dice que usan el conjunto de datos Books3:
“Además, incorporamos varios conjuntos de datos existentes de alta calidad: Books3 (Prensador2020)…”
El documento de investigación del conjunto de datos de Pile se vincula a un tuit por Shawn Presser, que dice lo que está en el conjunto de datos Books3:
“Suponga que desea entrenar un modelo GPT de clase mundial, como OpenAI. ¿Cómo? No tienes datos.
Ahora hazlo tú. Ahora todo el mundo lo hace.
Presentando “books3”, también conocido como “all of bibliotik”
– 196.640 libros
– en formato .txt simple
– Descarga directa y fiable, desde hace años:
Entonces… la cita anterior establece claramente que el conjunto de datos de Pile se usó para entrenar Pythia LLM, que a su vez sirvió como base para la IA de código abierto Dolly 2.0.
¿Google Bard está capacitado en contenido pirateado?
The Washington Post publicó recientemente una revisión del conjunto de datos Colossal Clean Crawled Corpus de Google (también conocido como C4 – Documento de investigación en PDF aquí) en el que descubrieron que el conjunto de datos de Google también contiene contenido pirateado.
El conjunto de datos C4 es importante porque es uno de los conjuntos de datos utilizados para entrenar LaMDA LLM de Google, una versión en la que se basa Bard.
El conjunto de datos real se llama Infiniset y el conjunto de datos C4 constituye aproximadamente el 12,5 % del texto total utilizado para entrenar a LaMDA. Las citas de esos hechos sobre Bard se pueden encontrar aquí.
El artículo de noticias del Washington Post publicó:
“Los tres sitios más grandes fueron patents.google.com No. 1, que contiene texto de patentes emitidas en todo el mundo; wikipedia.org No. 2, la enciclopedia gratuita en línea; y scribd.com No. 3, una biblioteca digital solo por suscripción.
También ocupa un lugar destacado en la lista: b-ok.org No. 190, un notorio mercado de libros electrónicos pirateados que desde entonces ha sido incautado por el Departamento de Justicia de EE. UU.
Al menos otros 27 sitios identificados por el gobierno de EE. UU. como mercados para la piratería y las falsificaciones estaban presentes en el conjunto de datos”.
La falla en el análisis del Washington Post es que están buscando una versión del C4, pero no necesariamente en la que se entrenó a LaMDA.
El trabajo de investigación para el conjunto de datos C4 se publicó en julio de 2020. Un año después de la publicación, se publicó otro trabajo de investigación que descubrió que el conjunto de datos C4 estaba sesgado contra las personas de color y la comunidad LGBT.
El trabajo de investigación se titula, Documentación de grandes corpus de texto web: un estudio de caso sobre el colosal corpus limpio rastreado (Documento de investigación en PDF aquí).
Los investigadores descubrieron que el conjunto de datos contenía sentimientos negativos contra las personas de identidad árabe y excluía documentos asociados con negros, hispanos y documentos que mencionan la orientación sexual.
Los investigadores escribieron:
“Nuestro examen de los datos excluidos sugiere que los documentos asociados con autores negros e hispanos y los documentos que mencionan orientaciones sexuales tienen muchas más probabilidades de ser excluidos por el filtrado de la lista de bloqueo de C4.EN, y que muchos documentos excluidos contenían contenido no ofensivo o no sexual ( ej., debates legislativos sobre el matrimonio entre personas del mismo sexo, contenido científico y médico).
Esta exclusión es una forma de daños por asignación… y exacerba la desigualdad racial existente (basada en el idioma), así como la estigmatización de las identidades LGBTQ+…
Además, una consecuencia directa de eliminar dicho texto de los conjuntos de datos utilizados para entrenar modelos de lenguaje es que los modelos tendrán un rendimiento deficiente cuando se apliquen a texto de y sobre personas con identidades minoritarias, excluyéndolos efectivamente de los beneficios de la tecnología como la traducción automática o la búsqueda. ”
Se concluyó que el filtrado de «malas palabras» y otros intentos de «limpiar» el conjunto de datos era demasiado simplista y justificaba un enfoque más matizado.
Esas conclusiones son importantes porque muestran que era bien sabido que el conjunto de datos C4 tenía fallas.
LaMDA se desarrolló en 2022 (dos años después del conjunto de datos C4) y el artículo de investigación asociado de LaMDA dice que se entrenó con C4.
Pero eso es solo un trabajo de investigación. Lo que sucede en la vida real en un modelo de producción puede ser muy diferente de lo que se encuentra en el trabajo de investigación.
Cuando se habla de un trabajo de investigación, es importante recordar que Google dice constantemente que lo que está en una patente o trabajo de investigación no es necesariamente lo que está en uso en el algoritmo de Google.
Es muy probable que Google esté al tanto de esas conclusiones y no es descabellado suponer que Google desarrolló una nueva versión de C4 para el modelo de producción, no solo para abordar las desigualdades en el conjunto de datos, sino también para actualizarlo.
Google no dice qué hay en su algoritmo, es una caja negra. Por lo tanto, no podemos decir con certeza que la tecnología subyacente de Google Bard haya sido entrenada en contenido pirateado.
Para que quede aún más claro, Bard se lanzó en 2023, utilizando una versión ligera de LaMDA. Google no ha definido qué es una versión ligera de LaMDA.
Por lo tanto, no hay forma de saber qué contenido contenían los conjuntos de datos utilizados para entrenar la versión liviana de LaMDA que impulsa a Bard.
Uno solo puede especular sobre qué contenido se usó para entrenar a Bard.
¿GPT-4 usa contenido pirateado?
OpenAI es extremadamente privado sobre los conjuntos de datos utilizados para entrenar GPT-4. La última vez que OpenAI mencionó conjuntos de datos fue en el documento de investigación en PDF para GPT-3 publicado en 2020 e incluso allí es algo vago e impreciso sobre lo que hay en los conjuntos de datos.
El sitio web TowardsDataScience en 2021 publicó una interesante revisión de la información disponible en la que concluyen que, efectivamente, se utilizó contenido pirateado para entrenar las primeras versiones de GPT.
Escriben:
“… encontramos evidencia de que BookCorpus violó directamente las restricciones de derechos de autor de cientos de libros que no deberían haber sido redistribuidos a través de un conjunto de datos gratuito.
Por ejemplo, más de 200 libros en BookCorpus declaran explícitamente que «no se pueden reproducir, copiar ni distribuir con fines comerciales o no comerciales».
Es difícil concluir si GPT-4 usó algún contenido pirateado.
¿Hay algún problema con el uso de contenido pirateado?
Uno pensaría que puede ser poco ético usar contenido pirateado para entrenar un modelo de lenguaje grande y beneficiarse del uso de ese contenido.
Pero las leyes pueden permitir este tipo de uso.
Le pregunté a Kenton J. Hutcherson, abogado de Internet de Hutcherson Law, qué pensaba sobre el uso de contenido pirateado en el contexto de la capacitación de modelos de lenguaje grandes.
Específicamente, pregunté si alguien usa Dolly 2.0, que puede haber sido creado parcialmente con libros pirateados, ¿las entidades comerciales que crean aplicaciones con Dolly 2.0 estarían expuestas a reclamos por infracción de derechos de autor?
Kenton respondió:
“Un reclamo por infracción de derechos de autor de los titulares de derechos de autor de los libros pirateados probablemente fracasaría debido al uso justo.
El uso justo protege los usos transformadores de las obras protegidas por derechos de autor.
Aquí, los libros pirateados no se utilizan como libros para que la gente los lea, sino como entradas para un conjunto de datos de entrenamiento de inteligencia artificial.
Un ejemplo similar entró en juego con el uso de miniaturas en las páginas de resultados de búsqueda. Las miniaturas no están allí para reemplazar las páginas web que muestran. Cumplen una función completamente diferente: ofrecen una vista previa de la página.
Ese es un uso transformador”.
Karen J. Bernstein de Bernstein IP ofreció una opinión similar.
“¿Es el uso del contenido pirateado un uso justo? El uso justo es una defensa comúnmente utilizada en estos casos.
El concepto de defensa de uso justo solo existe bajo la ley de derechos de autor de EE. UU.
El uso justo se analiza bajo un análisis multifactorial que la Corte Suprema estableció en un caso histórico de 1994.
Bajo este escenario, habrá preguntas sobre cuánto del contenido pirateado se tomó de los libros y qué se hizo con el contenido (si fue «transformador»), y si dicho contenido está quitándole el mercado al creador de los derechos de autor».
La tecnología de IA está avanzando a un ritmo sin precedentes, aparentemente evolucionando semana a semana. Tal vez como un reflejo de la competencia y la ganancia financiera inesperada que se obtiene del éxito, Google y OpenAI se están volviendo cada vez más privados sobre cómo se entrenan sus modelos de IA.
¿Deberían ser más abiertos acerca de tal información? ¿Se puede confiar en que sus conjuntos de datos son justos e imparciales?
El uso de contenido pirateado para crear estos modelos de IA puede estar legalmente protegido como uso legítimo, pero el hecho de que uno pueda significa que debería hacerlo.
Imagen destacada de Shutterstock/Roman Samborskyi