Investigación de Google: ¿Se utiliza este conjunto de datos para la búsqueda de IA de Google?

Google publicó un artículo de investigación sobre un nuevo tipo de conjunto de datos para entrenar un modelo de lenguaje para recuperar oraciones que respondan exactamente a una pregunta dentro de un diálogo abierto.

No sabemos si Google está utilizando este conjunto de datos. Pero los investigadores afirman que supera a los modelos entrenados en otros conjuntos de datos.

Muchos trabajos de investigación, como el publicado por LaMDA, no mencionan contextos específicos de cómo podría usarse.

Por ejemplo, el artículo de investigación de LaMDA (PDF) concluye vagamente:

“LaMDA está un paso más cerca de sistemas de diálogo abiertos prácticos y seguros, que a su vez pueden desbloquear una amplia gama de aplicaciones útiles”.

Este trabajo de investigación establece que el problema que están resolviendo es cómo crear un conjunto de datos para entrenar una máquina para un diálogo abierto seleccionando una oración de una página web.

Por qué este conjunto de datos es importante

Lo que hace que este trabajo de investigación sea de interés es que los investigadores concluyen que podría usarse para fundamentar de manera objetiva la salida generativa de IA, como lo que se ve en la nueva experiencia generativa de búsqueda de Google.

Dado que el trabajo de investigación se presentó en una conferencia de recuperación de información (Proceedings of the 45th International ACM SIGIR Conference on Research and Development), es bastante seguro suponer que este algoritmo está relacionado con la recuperación de información, lo que significa búsqueda.

Una última cosa a tener en cuenta es que la investigación sobre este nuevo tipo de conjunto de datos se presentó el año pasado en 2022, pero aparentemente pasó desapercibida… Hasta ahora.

Lo que Google se propuso lograr con el nuevo conjunto de datos

Los investigadores explican en qué se centran:

“En este documento nos enfocamos en diálogos abiertos: dos partes conversan por turnos sobre cualquier número de temas sin restricciones en los cambios de tema y el tipo de discusión sobre cada tema.

Además, el diálogo no se basa en un documento específico, a diferencia del escenario utilizado en algunos trabajos anteriores…

La tarea que abordamos es recuperar oraciones de algún corpus de documentos que contengan información útil para generar (ya sea automáticamente o por humanos) el siguiente turno en el diálogo.

Hacemos notar que los turnos de diálogo pueden ser preguntas, consultas, argumentos, declaraciones, etc.”

Un nuevo tipo de conjunto de datos para el entrenamiento del modelo de lenguaje

El problema que los investigadores están resolviendo es cómo recuperar una oración de una página web como respuesta a una pregunta abierta, un tipo de pregunta que necesita más que un sí o un no como respuesta.

El trabajo de investigación explica que lo que falta para que esa capacidad suceda en una máquina es un conjunto de datos de conversación apropiado.

Explican que los conjuntos de datos existentes se utilizan por dos razones:

Para evaluar las respuestas de diálogo de una IA generativa, pero no para entrenarla para recuperar la información relevante para esa respuesta.
Conjuntos de datos para uso de un motor de búsqueda o respuesta a preguntas, enfocados en un solo pasaje de una pregunta y respuesta.

Explican las deficiencias de los conjuntos de datos existentes:

“…en la mayoría de estos conjuntos de datos, los resultados de búsqueda devueltos no se ven como parte del diálogo.

…tanto en la recuperación de pasajes conversacionales como en los conjuntos de datos de control de calidad conversacional, hay un usuario que hace preguntas o consultas que reflejan intenciones explícitas con necesidades de información, a diferencia de los diálogos naturales donde las intenciones solo pueden representarse implícitamente, por ejemplo, en declaraciones afirmativas.

En resumen, los conjuntos de datos conversacionales existentes no combinan conversaciones naturales entre humanos con anotaciones de relevancia para oraciones recuperadas de un gran corpus de documentos.

Por lo tanto, construimos tal conjunto de datos…”

Cómo se creó el nuevo conjunto de datos

Los investigadores crearon un conjunto de datos que se puede usar para entrenar un algoritmo que puede recuperar una oración que es la respuesta correcta en un diálogo abierto.

El conjunto de datos consta de conversaciones de Reddit que se compararon con respuestas de Wikipedia, además de anotaciones humanas (clasificaciones de relevancia), de esos pares de preguntas y respuestas.

Los datos de Reddit se descargaron de Pushshift.io, un archivo de conversaciones de Reddit (preguntas frecuentes de Pushshift).

El trabajo de investigación explica:

“Para abordar un alcance más amplio de esta tarea donde se puede usar cualquier tipo de diálogo, construimos un conjunto de datos que incluye diálogos abiertos de Reddit, oraciones candidatas de Wikipedia para cada diálogo y anotaciones humanas para las oraciones.

El conjunto de datos incluye 846 diálogos creados a partir de hilos de Reddit.

Para cada diálogo, se recuperaron 50 oraciones de Wikipedia utilizando un método de recuperación inicial no supervisado.

Estas oraciones fueron juzgadas por trabajadores de la multitud según su relevancia, es decir, si contenían información útil para generar el siguiente giro en el diálogo”.

El conjunto de datos que crearon está disponible en GitHub.

Ejemplo de una pregunta de diálogo:

«¿Que fue primero, la gallina o el huevo?»

Un ejemplo de una respuesta irrelevante:

“Los pollos domesticados existen desde hace unos 10.000 años. Los huevos han existido durante cientos de millones de años”.

Un ejemplo de una oración de página web correcta que se puede usar como respuesta es:

“Expuesto más simplemente por Neil deGrasse Tyson:
‘¿Que fue primero, la gallina o el huevo? El huevo puesto por un ave que no era gallina’”.

Metodología de recuperación

Para la parte de recuperación, citan investigaciones previas en modelos de lenguaje y otros métodos y se conforman con un enfoque de supervisión débil.

Ellos explican:

“El ajuste fino de los modelos de recuperación requiere etiquetas de relevancia para ejemplos de entrenamiento en una tarea de destino.

Estos a veces son escasos o no están disponibles.

Un enfoque para eludir esto es generar etiquetas automáticamente y entrenar un modelo poco supervisado en estas anotaciones.

…Seguimos el paradigma de supervisión débil en nuestro modelo de entrenamiento, con un novedoso anotador débil de Reddit para la recuperación en un contexto de diálogo”.

¿Es exitoso el conjunto de datos?

Google y otras organizaciones publican muchos trabajos de investigación que demuestran diferentes niveles de éxito.

Algunas investigaciones concluyen con un éxito limitado, moviendo el estado del arte solo un poco, si es que lo hacen.

Los trabajos de investigación que son de interés (para mí) son los que son claramente exitosos y superan el estado actual del arte.

Ese es el caso con el desarrollo de este conjunto de datos para entrenar un modelo de lenguaje para recuperar oraciones que sirvan con precisión como un giro en un diálogo abierto.

Afirman cómo un modelo BERT entrenado con este conjunto de datos se vuelve aún más poderoso.

Escriben:

“De hecho, mientras que RANKBERTMS supera a todos los modelos sin ajuste fino, el modelo RANKBERTMS→R, que se ajustó aún más utilizando nuestro conjunto de entrenamiento supervisado débilmente, mejora el rendimiento.

Este método alcanza el rendimiento más alto y todas las ganancias de rendimiento sobre otros métodos son estadísticamente significativas.

Este hallazgo también demuestra la eficacia de nuestro anotador débil y nuestro conjunto de entrenamiento supervisado débilmente, lo que demuestra que el rendimiento se puede mejorar sin la anotación manual para el entrenamiento”.

En otro lugar, los investigadores informan:

«Mostramos que un clasificador neuronal que se ajustó utilizando nuestro conjunto de entrenamiento supervisado débilmente supera a todos los demás modelos probados, incluido un clasificador neuronal ajustado en el conjunto de datos de recuperación de pasajes de MS Marco».

También escriben que, por muy exitoso que sea este enfoque, están interesados en promover el estado del arte incluso más de lo que ya lo han hecho.

El trabajo de investigación concluye:

“En el trabajo futuro, nos gustaría diseñar modelos de recuperación basados en BERT que se entrenen solo con una supervisión débil, utilizando un BERT preentrenado, sin la necesidad de grandes conjuntos de entrenamiento anotados como MS Marco.

También nos gustaría poner a tierra los modelos de lenguaje generativo con nuestros modelos de recuperación y estudiar las conversaciones que surgen de esa puesta a tierra”.

¿Podría este enfoque estar en uso?

Google rara vez confirma cuándo se utiliza una investigación específica. Hay algunos casos, como con BERT, donde Google confirma que lo está usando.

Pero en general la respuesta estándar es que el hecho de que Google publique un trabajo de investigación o una patente no significa que lo esté utilizando en su algoritmo de búsqueda.

Dicho esto, el trabajo de investigación, que data de mediados de 2022, indicó que una dirección futura era estudiar cómo los modelos de lenguaje generativo (que es como Bard y la experiencia generativa de búsqueda de Google) pueden basarse en él.

Una experiencia de chat generativo de IA puede hacer que la salida de la IA invente cosas, lo que técnicamente se conoce como alucinaciones.

Conexión a tierra significa anclar la salida del chat de IA con hechos, generalmente de fuentes en línea, para ayudar a prevenir alucinaciones.

Bing usa un sistema llamado Bing Orchestrator que verifica las páginas web para fundamentar la salida de GPT en hechos.

Poner a tierra la salida de la IA ayuda a mantenerla en los hechos, que es algo que este conjunto de datos puede hacer, además de seleccionar oraciones de páginas web como parte de una respuesta.