Encontré algunas cosas interesantes en el último documento del juicio entre el DOJ y Google. Google ha apelado el fallo que dice que deben dar información de propiedad exclusiva a sus competidores.
Conclusiones clave:
- Se ha ordenado a Google que proporcione información a sus competidores para no convertirse en un monopolio ilegal. Google no quiere revelar su gran cantidad de datos sobre el usuario.
- Los datos de Google sobre la calidad y actualización de las páginas son propietarios. No quieren regalarlo.
- Las páginas indexadas están marcadas con anotaciones.incluidas señales que identifican páginas de spam.
- Si los spammers se apoderaran de esas señales de spam, sería difícil detener el spam.
- Los datos del usuario son importantes para el sistema Glue de Google que almacena información sobre cada consulta buscada, lo que vio el usuario y cómo interactuó con los resultados de la búsqueda.
- Los datos del usuario son importantes para entrenar RankEmbed BERT – uno de los sistemas de aprendizaje profundo detrás de la Búsqueda.
Bien, ¡entremos en las cosas interesantes!
Google tiene señales de frescura y calidad de página patentadas
Esto realmente no es una sorpresa. Me pareció interesante que las señales de frescura estén en el centro de los secretos de propiedad de Google.

Nuevamente, aquí hay más información sobre la importancia de las señales de actualización patentadas de Google:

Las páginas que se rastrean están marcadas con ‘Anotaciones de comprensión de página patentada’
Cada página del índice de Google está marcada con anotaciones para ayudarle a comprender la página. Estos incluyen señales para identificar spam y páginas duplicadas. He escrito antes sobre cómo cada página del índice tiene una puntuación de spam.

Las puntuaciones de spam podrían utilizarse para realizar ingeniería inversa en los sistemas de clasificación
Google no quiere compartir información con sus competidores sobre estos resultados.

Si las puntuaciones de spam salen a la luz, podría generar más spam y más dificultades para Google en la lucha contra el spam.

Google crea el índice utilizando estas páginas marcadas
Las páginas en las que Google ha agregado anotaciones de comprensión de páginas están organizadas en función de la frecuencia con la que Google espera que sea necesario acceder al contenido y de la actualización que debe tener.

Sólo una fracción de las páginas llegan al índice de Google
Google sostiene que dar a los competidores una lista de URL indexadas les permitirá «renunciar a rastrear y analizar la web en general y, en cambio, centrar sus esfuerzos en rastrear sólo la fracción de páginas que Google ha incluido en su índice». La creación de este índice le cuesta a Google mucho tiempo y dinero. No quieren regalar eso.

El papel de los datos del usuario en los sistemas de clasificación de Google
Esta es la parte más interesante. Siento que no prestamos suficiente atención al uso que hace Google de los datos de los usuarios. (Estén atentos a mi canal de youtube ya que pronto publicaré un video muy interesante con mis pensamientos sobre la importancia de los datos del lado del usuario (probablemente el factor MÁS importante en los sistemas de clasificación de Google).
Los datos del usuario se utilizan para crear modelos GLUE y RankEmbed
Google Glue es una enorme tabla de actividad de los usuarios. Recopila el texto de las consultas buscadas, el idioma del usuario, la ubicación y el tipo de dispositivo, e información sobre lo que apareció en el SERP, en qué hizo clic el usuario o sobre qué pasó, cuánto tiempo permaneció en un SERP y más.
RankEmbed BERT es aún más interesante. RankEmbed BERT es uno de los sistemas de aprendizaje profundo que sustenta la búsqueda. En el Pandu Nayak Testimonio, aprendimos que RankEmbed BERT se utiliza para reclasificar los resultados arrojados por los sistemas de clasificación tradicionales. RankEmbed BERT está capacitado para hacer clic y consultar datos de usuarios reales.
Los sistemas de inteligencia artificial detrás de la búsqueda aprenden continuamente a mejorar para presentar a los buscadores resultados satisfactorios. Google analiza en qué hacen clic y si regresan a las SERP o no. Google también realiza experimentos en vivo que analizan en qué los buscadores eligen hacer clic y permanecer. Esas acciones ayudan a entrenar a RankEmbed BERT. Se perfecciona aún más mediante las calificaciones de los evaluadores de calidad. Pronto publicaré más sobre esto. La conclusión que quiero destacar es que la satisfacción del usuario es, con diferencia, lo más importante que debemos optimizar.
En el documento de Liz Reid que estamos analizando hoy, podemos ver que los datos del usuario se utilizan para entrenar, construir y operar modelos RankEmbed.

Una vez más, aprendemos que los datos del usuario que se utilizan para entrenar estos modelos incluyen la consulta, la ubicación, el tiempo de búsqueda y cómo el usuario interactuó con lo que se le mostró.

Se trata de las acciones que realizan los usuarios desde los resultados de la Búsqueda de Google. Lo que realmente quiero saber es qué papel utilizan los datos de Chrome. ¿Google analiza si las personas interactúan con sus páginas, completan sus formularios, preparan sus recetas y más? Creo que sí. El resumen de la sentencia de este juicio insinúa que los datos de Chrome se utilizan en los sistemas de clasificación, pero no se comparten muchos detalles.

Google dice que si alguien tuviera los datos de usuario de Glue y RankEmbed, podría formar un LLM con ellos
Estos datos de usuario son la clave del éxito de Google.

Vale la pena leerlo completo declaración de Liz Reid.
Más recursos:
Esta publicación se publicó originalmente en Marie Haynes Consulting.
Imagen de portada: N Universe/Shutterstock



