Gary Illyes de Google respondió preguntas durante la reciente Search Central Live Deep Dive en Asia sobre si usan o no la nueva recuperación de vectores múltiples a través del método de recuperación de codificaciones de dimensión fija (MUVERA) y también si están utilizando modelos de cimientos gráficos.
Mover
Google anunció recientemente a MUVERA en una publicación de blog y un trabajo de investigación: un método que mejora la recuperación al convertir la búsqueda compleja de vectores múltiples en una búsqueda rápida de un solo vector. Comprime conjuntos de incrustaciones de token en vectores de dimensión fija que se aproximan estrechamente a su similitud original. Esto le permite usar métodos de búsqueda de vectores únicos optimizados para encontrar rápidamente buenos candidatos, luego volver a clasificarlos utilizando la similitud exacta de vectores múltiples. En comparación con los sistemas más antiguos como el cuadrado, Muvera es más rápido, recupera menos candidatos y aún mejora el recuerdo, lo que lo convierte en una solución práctica para la recuperación a gran escala.
Los puntos clave sobre Muvera son:
- Muvera convierte conjuntos de vectores múltiples en vectores fijos utilizando codificaciones dimensionales fijas (FDE), que son representaciones de un solo vector de conjuntos de vectores múltiples.
- Estas FDE (codificaciones dimensionales fijas) coinciden con las comparaciones originales de vectores múltiples lo suficientemente cerca como para respaldar la recuperación precisa.
- La recuperación de Muvera utiliza MIPS (búsqueda máxima de productos internos), una técnica de búsqueda establecida utilizada en la recuperación, lo que facilita la implementación a escala.
- Reranking: después de usar una búsqueda rápida de un solo vector (MIPS) para reducir rápidamente las coincidencias más probables, Muvera los vuelve a clasificar utilizando la similitud de chaflán, un método de comparación de vectores múltiples más detallado. Este paso final restaura la precisión total de la recuperación de vectores múltiples, por lo que obtienes velocidad y precisión.
- Muvera puede encontrar más documentos precisamente relevantes con un tiempo de procesamiento más bajo que la línea de base de recuperación de última generación (a cuadros) con los que se comparó.
Google confirma que usan muvera
José Manuel Morgal (perfil de LinkedIn) relató su pregunta con Gary Illyes de Google y su respuesta fue preguntar en broma qué era Muvera y luego confirmó que usaban una versión:
Así es como José describió la pregunta y la respuesta:
“Se ha publicado un artículo en Google Research sobre Muvera y hay un artículo asociado. ¿Está actualmente en producción en búsqueda?
Su respuesta fue preguntarme qué era Múvera jaja y luego comentó que usan algo similar a Muvera, pero no lo nombran así «.
¿Google usa Modelos de Fundación Graph (GFMS)?
Google publicó recientemente un anuncio de blog sobre un avance de IA llamado Modelo de Fundación Graph.
El Modelo de Fundación Graph de Google (GFM) es un tipo de IA que aprende de bases de datos relacionales al convertirlas en gráficos, donde las filas se convierten en nodos y las conexiones entre las tablas se convierten en bordes.
A diferencia de los modelos más antiguos (modelos de aprendizaje automático y las redes neuronales gráficas (GNN)) que solo funcionan en un conjunto de datos, GFMS puede manejar nuevas bases de datos con diferentes estructuras y características sin reentrenarse en los nuevos datos. GFMS usa un modelo de IA grande para aprender cómo los puntos de datos se relacionan entre las tablas. Esto permite a GFMS encontrar patrones que se pierden los modelos regulares, y funcionan mucho mejor en tareas como detectar spam en los sistemas escalados de Google. Los GFM son un gran paso adelante porque aportan flexibilidad del modelo de base a datos estructurados complejos.
Los modelos de Foundation Graph representan un logro notable porque sus mejoras no son incrementales. Son una mejora de orden de magnitud, con ganancias de rendimiento de 3x a 40x en precisión promedio.
A continuación, José le preguntó a Illyes si Google usa modelos de Foundation Graph y Gary nuevamente fingió en broma sin saber de qué estaba hablando José.
Relacionó la pregunta y la respuesta:
“Se ha publicado un artículo en Google Research sobre Modelos de Fundación Graph para datos, esta vez no hay papel asociado con él. ¿Está actualmente en producción en búsqueda?
Su respuesta fue la misma que antes, preguntándome qué modelos de Fundación Graph para los datos, y pensó que no estaba en producción. No lo sabía porque no hay documento asociado y, por otro lado, me comentó que no controlaba lo que se publica en Google Research Blog «.
Gary expresó su opinión de que el Modelo de Fundación Graph no se usaba actualmente en la búsqueda. En este punto, esa es la mejor información que tenemos.
Ver también: El nuevo modelo de Fundación Graph de Google mejora la precisión por hasta 40x
¿GFM está listo para la implementación escalada?
El anuncio oficial del Modelo de la Fundación Graph Graph dice que se probó en una tarea interna, detección de spam en anuncios, lo que sugiere fuertemente que se utilizaron sistemas y datos internos reales, no solo puntos de referencia o simulaciones académicas.
Esto es lo que relata el anuncio de Google:
“Operating at Google scale means processing graphs of billions of nodes and edges where our JAX environment and scalable TPU infrastructure particularly shines. Such data volumes are amenable for training generalist models, so we probed our GFM on several internal classification tasks like spam detection in ads, which involves dozens of large and connected relational tables. Typical tabular baselines, albeit scalable, do not consider connections between rows of different Tablas y, por lo tanto, se pierden el contexto que podría ser útil para predicciones precisas.
Comida para llevar
Gary Illyes de Google confirmó que una forma de muvera está en uso en Google. Su respuesta sobre GFM parecía expresarse como una opinión, por lo que es algo menos clara, ya que está relacionado como Gary dice que cree que no está en producción.
Imagen destacada de Shutterstock/Krakenimages.com