Hugging Face, la comunidad de aprendizaje automático y la plataforma de herramientas de inteligencia artificial, anunció el lanzamiento de HuggingChat, un clon de ChatGPT de código abierto que cualquiera puede usar o descargar por sí mismo.
cara de abrazo
Hugging Face es una empresa y una comunidad de IA. Brinda acceso a herramientas gratuitas de código abierto para desarrollar aplicaciones de inteligencia artificial y aprendizaje automático.
Uno de los proyectos recientemente completados de Hugging Face es un modelo de lenguaje grande de 176 mil millones de parámetros llamado Bloom, que está disponible para cualquier persona que acepte cumplir con su licencia de IA responsable.
Hay acceso a modelos de código abierto en varias categorías, como multimodal, visión, audio, procesamiento de lenguaje natural y aprendizaje por refuerzo.
Hugging Face también aloja conjuntos de datos y bibliotecas de código abierto y sirve como una forma para que los equipos colaboren, incluido un repositorio, similar a GitHub.
Muchos de los servicios están disponibles para niveles gratuitos, profesionales y empresariales.
AbrazosChat
El clon de HuggingChat ChatGPT se basa en el modelo de IA conversacional de Open Assistant.
Open Assistant en sí es un proyecto de la Red Abierta de Inteligencia Artificial a Gran Escala (LAION, por sus siglas en inglés) sin fines de lucro.
LAION es una organización global sin fines de lucro dedicada a brindar acceso a tecnología de punta como fuente abierta.
Escriben:
«NUESTRA CREENCIA
Creemos que la investigación del aprendizaje automático y sus aplicaciones tienen el potencial de tener un enorme impacto positivo en nuestro mundo y, por lo tanto, deben democratizarse.NUESTROS OBJETIVOS PRINCIPALES
Lanzamiento de conjuntos de datos abiertos, código y modelos de aprendizaje automático.Queremos enseñar los conceptos básicos de la investigación de ML a gran escala y la gestión de datos.
Al hacer que los modelos, los conjuntos de datos y el código sean reutilizables sin la necesidad de entrenar desde cero todo el tiempo, queremos promover un uso eficiente de la energía y los recursos informáticos para enfrentar los desafíos del cambio climático”.
La página de GitHub para el modelo de chat Open Assistant dice:
“Open Assistant es un proyecto destinado a brindar a todos acceso a un excelente modelo de lenguaje grande basado en chat.
Creemos que al hacer esto crearemos una revolución en la innovación en el lenguaje.
De la misma manera que la difusión estable ayudó al mundo a crear arte e imágenes de nuevas formas, esperamos que Open Assistant pueda ayudar a mejorar el mundo al mejorar el lenguaje mismo”.
Conjunto de datos de entrenamiento de HuggingChat
HuggingChat se entrenó con el conjunto de datos de conversaciones de OpenAssistant (OASST1), que es muy nuevo y contiene datos que se recopilaron hasta el 12 de abril de 2023.
El trabajo de investigación para el conjunto de datos data de abril de 2023 (Conversaciones de OpenAssistant: democratización de la alineación de modelos de idiomas grandes – PDF).
Este modelo utiliza la misma metodología de entrenamiento creada por OpenAI que se llama aprendizaje reforzado a partir de la retroalimentación humana (RLHF).
RLHF es una técnica para crear un conjunto de datos de preguntas y respuestas anotadas y calificadas por humanos de alta calidad que se pueden usar para entrenar a una IA para que siga instrucciones.
Con este lanzamiento lograron su objetivo de poner la técnica RLHF al alcance de cualquiera que quiera entrenar una IA.
El trabajo de investigación decía:
“En un esfuerzo por democratizar la investigación sobre la alineación a gran escala, lanzamos OpenAssistant Conversations, un corpus de conversación de estilo asistente generado por humanos y anotado por humanos que consta de 161 443 mensajes distribuidos en 66 497 árboles de conversación, en 35 idiomas diferentes, anotados con 461 292 de calidad. calificaciones.”
El conjunto de datos es el producto de un esfuerzo mundial de crowdsourcing de más de 13,000 voluntarios.
El crowdsourcing fue una buena manera de generar datos de capacitación multilingües que contribuyeron a un conjunto de datos de alta calidad.
Sin embargo, según los investigadores, el enfoque de crowdsourcing también introdujo limitaciones en la calidad del conjunto de datos en forma de sesgos culturales y subjetivos de las personas que crearon y calificaron los datos de capacitación.
También advirtieron que los participantes que estaban más comprometidos tendían a contribuir más, creando así una distribución desigual de sus valores y sesgos.
Los investigadores concluyen que es posible que el conjunto de datos no represente la diversidad de puntos de vista de todos los contribuyentes.
Por ejemplo, enviaron una encuesta a su canal de Discord (solo en inglés) haciendo preguntas a sus colaboradores de código abierto relacionadas con su demografía (pero no con su origen étnico).
Dejando a un lado el sesgo del idioma, los resultados de la encuesta revelaron que de los 226 encuestados, 201 eran hombres, 10 eran mujeres, cinco se identificaron como no binarios/otros y 10 se negaron a responder.
Sin embargo, aunque no garantizan al 100% que el conjunto de datos esté libre de contenido dañino, aún lo respaldan porque fue creado con estrictas pautas de calidad.
Los investigadores escriben:
“Para garantizar la calidad de nuestro conjunto de datos, hemos establecido pautas estrictas para los colaboradores que todos los usuarios deben seguir.
Estas pautas están diseñadas para evitar que se agregue contenido dañino a nuestro conjunto de datos y para alentar a los contribuyentes a generar respuestas de alta calidad”.
HuggingChat está disponible
HuggingChat está abierto para los usuarios en este momento. No es necesario registrarse para crear una cuenta de inicio de sesión para usarla.
No espere el nivel de salida de ChatGPT, el servicio aún no está en ese nivel. La página de la aplicación lo enumera como versión 0.0, lo que debería dar una idea de qué tan maduro es en este momento.
Sin embargo, es un logro notable y los primeros pasos para la comunidad de código abierto y su uso es absolutamente gratuito.
Visite la página web de HuggingChat aquí:
Página web e interfaz de usuario de HuggingChat