Cerebras, la empresa de inteligencia artificial de Silicon Valley, lanzó siete modelos GPT de código abierto para proporcionar una alternativa a los sistemas patentados y estrechamente controlados disponibles en la actualidad.
Los modelos GPT de código abierto libres de regalías, incluidos los pesos y la receta de entrenamiento, se han lanzado bajo la licencia Apache 2.0 altamente permisiva de Cerebras, una empresa de infraestructura de IA para aplicaciones de IA con sede en Silicon Valley.
Hasta cierto punto, los siete modelos GPT son una prueba de concepto para la supercomputadora Cerebras Andromeda AI.
La infraestructura de Cerebras permite a sus clientes, como Jasper AI Copywriter, entrenar rápidamente sus propios modelos de lenguaje personalizados.
Una publicación de blog de Cerebras sobre la tecnología de hardware señaló:
“Entrenamos todos los modelos Cerebras-GPT en un clúster de escala de oblea Cerebras CS-2 16x llamado Andromeda.
El clúster permitió que todos los experimentos se completaran rápidamente, sin la ingeniería de sistemas distribuidos tradicional y el ajuste paralelo de modelos necesarios en los clústeres de GPU.
Lo que es más importante, permitió a nuestros investigadores centrarse en el diseño del ML en lugar del sistema distribuido. Creemos que la capacidad de entrenar fácilmente modelos grandes es un habilitador clave para la comunidad en general, por lo que hemos hecho que Cerebras Wafer-Scale Cluster esté disponible en la nube a través de Cerebras AI Model Studio”.
Cerebras GPT Modelos y Transparencia
Cerebras cita la concentración de la propiedad de la tecnología de IA en unas pocas empresas como una razón para crear siete modelos GPT de código abierto.
OpenAI, Meta y Deepmind mantienen una gran cantidad de información sobre sus sistemas privada y estrictamente controlada, lo que limita la innovación a lo que las tres corporaciones decidan que otros pueden hacer con sus datos.
¿Es un sistema de código cerrado lo mejor para la innovación en IA? ¿O es el código abierto el futuro?
Cerebrás escribe:
“Para que los LLM sean una tecnología abierta y accesible, creemos que es importante tener acceso a modelos de vanguardia que sean abiertos, reproducibles y libres de regalías tanto para investigación como para aplicaciones comerciales.
Con ese fin, hemos entrenado una familia de modelos de transformadores utilizando las últimas técnicas y conjuntos de datos abiertos que llamamos Cerebras-GPT.
Estos modelos son la primera familia de modelos GPT entrenados con la fórmula Chinchilla y lanzados a través de la licencia Apache 2.0”.
Por lo tanto, estos siete modelos se publican en Hugging Face y GitHub para fomentar una mayor investigación a través del acceso abierto a la tecnología de IA.
Estos modelos fueron entrenados con la supercomputadora Andromeda AI de Cerebras, un proceso que solo llevó semanas completar.
Cerebras-GPT es totalmente abierto y transparente, a diferencia de los últimos modelos GPT de OpenAI (GPT-4), Deepmind y Meta OPT.
OpenAI y Deepmind Chinchilla no ofrecen licencias para usar los modelos. Meta OPT solo ofrece una licencia no comercial.
El GPT-4 de OpenAI no tiene absolutamente ninguna transparencia sobre sus datos de entrenamiento. ¿Usaron datos de Common Crawl? ¿Rebuscaron en Internet y crearon su propio conjunto de datos?
OpenAI mantiene esta información (y más) en secreto, lo que contrasta con el enfoque Cerebras-GPT que es totalmente transparente.
Lo siguiente es todo abierto y transparente:
- arquitectura modelo
- Datos de entrenamiento
- Pesos modelo
- puntos de control
- Estado de entrenamiento de cálculo óptimo (sí)
- Licencia de uso: Licencia Apache 2.0
Las siete versiones vienen en modelos 111M, 256M, 590M, 1.3B, 2.7B, 6.7B y 13B.
Se anunció:
“Por primera vez entre las empresas de hardware de IA, los investigadores de Cerebras entrenaron, en la supercomputadora Andromeda AI, una serie de siete modelos GPT con parámetros 111M, 256M, 590M, 1.3B, 2.7B, 6.7B y 13B.
Por lo general, una tarea de varios meses, este trabajo se completó en unas pocas semanas gracias a la increíble velocidad de los sistemas Cerebras CS-2 que componen Andromeda y la capacidad de la arquitectura de flujo de peso de Cerebras para eliminar el dolor de la computación distribuida.
Estos resultados demuestran que los sistemas de Cerebras pueden entrenar las cargas de trabajo de IA más grandes y complejas de la actualidad.
Esta es la primera vez que se hace público un conjunto de modelos GPT, entrenados con técnicas de eficiencia de entrenamiento de última generación.
Estos modelos se entrenan con la mayor precisión para un presupuesto de cómputo dado (es decir, entrenamiento eficiente usando la receta de Chinchilla), por lo que tienen menos tiempo de entrenamiento, menor costo de entrenamiento y usan menos energía que cualquier modelo público existente”.
IA de código abierto
La fundación Mozilla, creadores del software de código abierto Firefox, ha iniciado una empresa llamada Mozilla.ai para crear sistemas de recomendación y GPT de código abierto que sean confiables y respeten la privacidad.
Databricks también lanzó recientemente un GPT Clone de código abierto llamado Dolly que tiene como objetivo democratizar «la magia de ChatGPT».
Además de esos siete modelos Cerebras GPT, otra empresa, llamada Nomic AI, lanzó GPT4All, un GPT de código abierto que puede ejecutarse en una computadora portátil.
Hoy lanzamos GPT4All, un bot conversacional de estilo asistente extraído de 430 000 salidas GPT-3.5-Turbo que puede ejecutar en su computadora portátil. pic.twitter.com/VzvRYPLfoY
— IA nómica (@nomic_ai) 28 de marzo de 2023
El movimiento de IA de código abierto se encuentra en una etapa incipiente, pero está cobrando impulso.
La tecnología GPT está dando lugar a cambios masivos en todas las industrias y es posible, tal vez inevitable, que las contribuciones de código abierto puedan cambiar la cara de las industrias que impulsan ese cambio.
Si el movimiento de código abierto sigue avanzando a este ritmo, es posible que estemos a punto de presenciar un cambio en la innovación de la IA que evita que se concentre en manos de unas pocas corporaciones.
Lea el anuncio oficial:
Cerebras Systems lanza siete nuevos modelos GPT entrenados en sistemas a escala de obleas CS-2
Imagen destacada de Shutterstock/Merkushev Vasiliy