El nuevo modelo de Fundación Graph de Google mejora la precisión por hasta 40x

El nuevo modelo de Fundación Graph de Google mejora la precisión por hasta 40x


Google publicó detalles de un nuevo tipo de IA basado en gráficos llamado Modelo de base de gráficos (GFM) que se generaliza a gráficos previamente invisibles y ofrece un aumento de tres a cuarenta veces en precisión sobre métodos anteriores, con pruebas exitosas en aplicaciones escaladas como detección de spam en ADS.

El anuncio de esta nueva tecnología se conoce como expandir los límites de lo que ha sido posible hasta hoy:

«Hoy, exploramos la posibilidad de diseñar un modelo único que pueda sobresalir en tablas relacionales interconectadas y, al mismo tiempo, generalizar a cualquier conjunto arbitrario de tablas, características y tareas sin capacitación adicional. Estamos entusiasmados de compartir nuestro progreso reciente en el desarrollo de tales modelos de cimientos gráficos (GFM) que empuje las fronteras del aprendizaje gráfico y la Tabular ML mucho más allá de los básculos estándar».

Redes neuronales gráficas vs. Modelos de base de gráficos

Los gráficos son representaciones de datos relacionados entre sí. Las conexiones entre los objetos se llaman bordes y los objetos mismos se llaman nodos. En SEO, se podría decir que el tipo de gráfico más familiar es el gráfico de enlaces, que es un mapa de toda la web por los enlaces que conectan una página web a otra.

La tecnología actual utiliza Graph Neural Networks (GNNS) para representar datos como el contenido de la página web y puede usarse para identificar el tema de una página web.

Una publicación de blog de Google Research sobre GNN explica su importancia:

“Las redes neuronales gráficas, o GNNS para abreviar, han surgido como una técnica poderosa para aprovechar tanto la conectividad del gráfico (como en los algoritmos más antiguos, profundos y nodo2vec) y las características de entrada sobre los diversos nodos y bordes. GNNS puede hacer predicciones para los gráficos como un total (¿esta molécula reactiva de una manera?

Además de hacer predicciones sobre gráficos, los GNN son una herramienta poderosa utilizada para cerrar el abismo a casos de uso de redes neuronales más típicos. Encontran la información discreta y relacional de un gráfico de manera continua para que pueda incluirse naturalmente en otro sistema de aprendizaje profundo «.

La desventaja de GNN es que están atados al gráfico en el que fueron entrenados y no pueden usarse en un tipo diferente de gráfico. Para usarlo en un gráfico diferente, Google tiene que entrenar otro modelo específicamente para ese otro gráfico.

Para hacer una analogía, es como tener que entrenar un nuevo modelo de IA generativo en documentos de idioma francés solo para que funcione en otro idioma, pero ese no es el caso porque los LLM pueden generalizar a otros idiomas, lo cual no es el caso de los modelos que funcionan con gráficos. Este es el problema que resuelve la invención, para crear un modelo que se generalice a otros gráficos sin tener que ser entrenados primero.

El avance que Google anunció es que con los nuevos modelos de Graph Foundation, Google ahora puede capacitar un modelo que puede generalizar a través de nuevos gráficos en los que no ha sido entrenado y comprender patrones y conexiones dentro de esos gráficos. Y puede hacerlo de tres a cuarenta veces más precisamente.

Anuncio pero sin trabajo de investigación

El anuncio de Google no se vincula a un trabajo de investigación. Se ha informado de diversas maneras que Google ha decidido publicar menos trabajos de investigación y este es un gran ejemplo de ese cambio de política. ¿Es porque esta innovación es tan grande que quieren mantener esto como una ventaja competitiva?

Cómo funcionan los modelos de Fundación Graph

En un gráfico convencional, digamos un gráfico de Internet, las páginas web son los nodos. Los enlaces entre los nodos (páginas web) se llaman bordes. En ese tipo de gráfico, puede ver similitudes entre páginas porque las páginas sobre un tema específico tienden a vincularse a otras páginas sobre el mismo tema específico.

En términos muy simples, un modelo de base Graph convierte cada fila en cada tabla en un nodo y conecta nodos relacionados en función de las relaciones en las tablas. El resultado es un solo gráfico grande que el modelo utiliza para aprender de los datos existentes y hacer predicciones (como identificar spam) en nuevos datos.

Captura de pantalla de cinco tablas

Imagen de Google

Transformar tablas en un solo gráfico

El trabajo de investigación dice esto sobre las siguientes imágenes que ilustran el proceso:

«La preparación de datos consiste en transformar tablas en un solo gráfico, donde cada fila de una tabla se convierte en un nodo del tipo de nodo respectivo, y las columnas de clave extranjera se convierten en bordes entre los nodos. Las conexiones entre cinco tablas que se muestran se convierten en bordes en el gráfico resultante».

Captura de pantalla de tablas convertidas en bordes

Imagen de Google

Lo que hace que este nuevo modelo sea excepcional es que el proceso de crearlo es «sencillo» y se escala. La parte sobre la escala es importante porque significa que la invención puede funcionar en la infraestructura masiva de Google.

“Argumentamos que aprovechar la estructura de conectividad entre las tablas es clave para los algoritmos ML efectivos y un mejor rendimiento posterior, incluso cuando los datos de características tabulares (p. Ej.

El proceso es bastante sencillo y se puede ejecutar a escala: cada tabla se convierte en un tipo de nodo único y cada fila en una tabla se convierte en un nodo. Para cada fila en una tabla, sus relaciones de clave externa se escriben bordes a los nodos respectivos de otras tablas, mientras que el resto de las columnas se tratan como características de nodo (típicamente, con valores numéricos o categóricos). Opcionalmente, también podemos mantener información temporal como características de nodo o borde «.

Las pruebas tienen éxito

El anuncio de Google dice que lo probaron para identificar el spam en los anuncios de Google, lo cual fue difícil porque es un sistema que utiliza docenas de gráficos grandes. Los sistemas actuales no pueden hacer conexiones entre gráficos no relacionados y perder el contexto importante.

El nuevo modelo de Fundación de Gráficos de Google pudo hacer las conexiones entre todos los gráficos y un rendimiento mejorado.

El anuncio describió el logro:

«Observamos un refuerzo de rendimiento significativo en comparación con las líneas de base de una mesa única sintonizada. Dependiendo de la tarea aguas abajo, GFM trae ganancias 3x-40x en precisión promedio, lo que indica que la estructura de gráficos en las tablas relacionales proporciona una señal crucial para aprovechar los modelos ML».

¿Google está usando este sistema?

Es notable que Google probara con éxito el sistema con los anuncios de Google para la detección de spam e informara ascendentes y sin inconvenientes. Esto significa que se puede usar en un entorno en vivo para una variedad de tareas del mundo real. Lo usaron para la detección de spam de Google Ads y porque es un modelo flexible que significa que se puede usar para otras tareas para las cuales se usan múltiples gráficos, desde la identificación de temas de contenido hasta identificar el spam de enlace.

Normalmente, cuando algo se queda corto, los trabajos de investigación y el anuncio dicen que señala el camino para el futuro, pero no es así como se presenta esta nueva invención. Se presenta como un éxito y termina con una declaración que dice que estos resultados pueden mejorarse aún más, lo que significa que puede mejorar aún mejor que estos resultados ya espectaculares.

«Estos resultados pueden mejorarse aún más mediante una escala adicional y una diversa recopilación de datos de capacitación junto con una comprensión teórica más profunda de la generalización».

Lea el anuncio de Google:

Modelos de Fundación Graph para datos relacionales

Imagen destacada de Shutterstock/SiorArt

Related Posts
Leave a Reply

Your email address will not be published.Required fields are marked *