Caso antimonopolio de Google: las descripciones de IA usan FastSearch, no enlaces

Caso antimonopolio de Google: las descripciones de IA usan FastSearch, no enlaces


Un vendedor de búsqueda de ojos agudos descubrió la razón por la cual las descripciones de AI de Google mostraron páginas web spam. La reciente opinión del memorándum en el caso antimonopolio de Google presentó un pasaje que ofrece una pista de por qué sucedió y especula cómo refleja el alejamiento de Google de los enlaces como un factor de clasificación destacado.

Ryan Jones, fundador de Serprecon (perfil de LinkedIn), llamó la atención sobre un pasaje en la reciente opinión del memorándum que muestra cómo Google basa en sus modelos Gemini.

Respuestas generativas de IA generativas

El pasaje ocurre en una sección sobre respuestas a base con datos de búsqueda. Por lo general, es justo suponer que los enlaces juegan un papel en el clasificación de las páginas web que un modelo de IA recupera de una consulta de búsqueda a un motor de búsqueda interno. Entonces, cuando alguien le pregunta a la IA de Google que resume una pregunta, el sistema consulta la búsqueda de Google y luego crea un resumen de esos resultados de búsqueda.

Pero aparentemente, no es así como funciona en Google. Google tiene un algoritmo separado que recupera menos documentos web y lo hace a un ritmo más rápido.

El pasaje dice:

«Para fundamentar sus modelos Gemini, Google usa una tecnología patentada llamada FastSearch. Rem. Tr. En 3509: 23–3511: 4 (Reid). FastSearch se basa en las señales de rango, un conjunto de señales de clasificación de búsqueda, y genera resultados web abreviados y clasificados que un modelo puede usar para producir una respuesta basada. Los resultados web totalmente clasificados de la búsqueda «.

Ryan Jones compartió estas ideas:

«Esto es interesante y confirma tanto lo que muchos de nosotros pensamos y lo que estábamos viendo en las primeras pruebas. ¿Qué significa? Significa que para conectar a Google no usa el mismo algoritmo de búsqueda. Necesitan que sea más rápido, pero tampoco les importan tantas señales. Solo necesitan texto que respalde lo que dicen.

… Probablemente haya un montón de Spam y señales de calidad que tampoco se calculan para FastSearch. Eso explicaría cómo/por qué en las primeras versiones vimos algunos sitios de spam e incluso sitios penalizados que aparecen en las descripciones de IA «.

Continúa compartiendo su opinión de que los enlaces no están jugando un papel aquí porque la base usa relevancia semántica.

¿Qué es FastSearch?

En otros lugares, el memorando comparte que FastSearch genera resultados de búsqueda limitados:

«FastSearch es una tecnología que genera rápidamente resultados de búsqueda orgánicos limitados para ciertos casos de uso, como la base de LLM, y se deriva principalmente del modelo de rango».

Ahora la pregunta es, ¿cuál es el modelo de rango?

El memorándum explica que Rankembed es un modelo de aprendizaje profundo. En términos simples, un modelo de aprendizaje profundo identifica patrones en conjuntos de datos masivos y puede, por ejemplo, identificar significados y relaciones semánticas. No entiende nada de la misma manera que lo hace un humano; Es esencialmente identificar patrones y correlaciones.

El memorándum tiene un pasaje que explica:

«En el otro extremo del espectro hay modelos innovadores de aprendizaje profundo, que son modelos de aprendizaje automático que discernen patrones complejos en grandes conjuntos de datos … (Allan)

… Google ha desarrollado varias señales de «nivel superior» que son entradas para producir el puntaje final para una página web. Identificación. en 2793: 5–2794: 9 (Allan) (discutiendo RDXD-20.018). Entre las señales de nivel superior de Google se encuentran aquellas que miden la calidad y popularidad de una página web. Identificación.; RDX0041 a -001.

Las señales desarrolladas a través de modelos de aprendizaje profundo, como Rankembed, también se encuentran entre las señales de nivel superior de Google «.

Datos del lado del usuario

Rankembed utiliza datos «del lado del usuario». El memorando, en una sección sobre el tipo de datos que Google debería proporcionar a los competidores, describe Rankembed (en el que se basa FastSearch) de esta manera:

«Datos del lado del usuario utilizados para entrenar, construir o operar los modelos de rango (s);»; «

En otro lugar comparte:

«Rankembed y su posterior iteración Rankembedbert están clasificando modelos que dependen de dos fuentes principales de datos: _____% de 70 días de registros de búsqueda más puntajes generados por los evaluadores humanos y utilizados por Google para medir la calidad de los resultados de búsqueda orgánicos».

Entonces:

«El modelo de rango en sí es un sistema de aprendizaje profundo basado en IA que tiene una fuerte comprensión del lenguaje natural. Esto permite al modelo identificar de manera más eficiente los mejores documentos para recuperar, incluso si una consulta carece de ciertos términos. PXR0171 en -086 (» La recuperación basada en la incrustación es efectiva en la coincidencia semántica de los documentos y las preguntas «);;;

… Rankembed está capacitado en 1/100 de los datos utilizados para entrenar modelos de clasificación anteriores, pero proporciona resultados de búsqueda de mayor calidad.

… Rankembed ayudó particularmente a Google a mejorar sus respuestas a las consultas de cola larga.

… Entre los datos de capacitación subyacentes se encuentra información sobre la consulta, incluidos los términos sobresalientes que Google ha derivado de la consulta y las páginas web resultantes.

… Los datos subyacentes a los modelos con embedes son una combinación de datos de clics y cuidias de las páginas web por evaluadores humanos.

… Rankembedbert necesita ser reentrenado para reflejar datos nuevos … «

Una nueva perspectiva sobre la búsqueda de IA

¿Es cierto que los enlaces no juegan un papel en la selección de páginas web para descripciones de IA? FastSearch de Google prioriza la velocidad. Ryan Jones teoriza que podría significar que Google usa múltiples índices, con uno específico de FastSearch compuesto por sitios que tienden a obtener visitas. Esa puede ser un reflejo de la parte de rango de FastSearch, que se dice que es una combinación de «datos de clic y querer» y datos de evaluadores humanos.

Con respecto a los datos del evaluador humano, con miles de millones o billones de páginas en un índice, sería imposible para los evaluadores calificar manualmente más que una pequeña fracción. Por lo tanto, se deduce que los datos del evaluador humano se utilizan para proporcionar ejemplos marcados con calidad para la capacitación. Los datos etiquetados son ejemplos en los que se capacita un modelo para que los patrones inherentes a la identificación de una página de alta calidad o una página de baja calidad puedan ser más evidentes.

Imagen destacada de Shutterstock/Cookie Studio

Related Posts
Leave a Reply

Your email address will not be published.Required fields are marked *