¿Cuáles son los principales sistemas de actualidad de Google?

La actualidad en relación con los algoritmos de clasificación de búsqueda se ha vuelto de interés para el SEO después de que un podcast reciente de Google Search Off The Record mencionara la existencia de Core Topicality Systems como parte de los algoritmos de clasificación, por lo que puede ser útil pensar en cuáles podrían ser esos sistemas. y lo que significa para el SEO.

No se sabe mucho sobre lo que podría ser parte de esos sistemas centrales de actualidad, pero es posible inferir cuáles son esos sistemas. La documentación de Google para su búsqueda comercial en la nube ofrece una definición de actualidad que, si bien no está en el contexto de su propio motor de búsqueda, proporciona una idea útil de lo que Google podría querer decir cuando se refiere a los sistemas básicos de actualidad.

Así es como la documentación de la nube define la actualidad:

«La actualidad se refiere a la relevancia de un resultado de búsqueda con respecto a los términos de consulta originales».

Esa es una buena explicación de la relación de las páginas web con las consultas de búsqueda en el contexto de los resultados de búsqueda. No hay razón para hacerlo más complicado que eso.

¿Cómo lograr relevancia?

Un punto de partida para comprender lo que podría ser un componente de los sistemas de actualidad de Google es comenzar con cómo los motores de búsqueda entienden las consultas de búsqueda y representan temas en los documentos de las páginas web.

Comprender las consultas de búsqueda
Comprender los temas

Comprender las consultas de búsqueda

Se puede decir que comprender lo que quieren decir los usuarios consiste en comprender el tema que le interesa. Hay una cualidad taxonómica en la forma en que las personas realizan búsquedas en el sentido de que un usuario de un motor de búsqueda puede utilizar una consulta ambigua cuando en realidad quiere decir algo más específico.

El primer sistema de inteligencia artificial que implementó Google fue RankBrain, que se implementó para comprender mejor los conceptos inherentes a las consultas de búsqueda. La palabra concepto es más amplia que la palabra tema porque los conceptos son representaciones abstractas. Un sistema que comprenda los conceptos de las consultas de búsqueda puede ayudar al motor de búsqueda a obtener resultados relevantes sobre el tema correcto.

Google explicó el trabajo de RankBrain así:

“RankBrain nos ayuda a encontrar información que antes no podíamos encontrar al comprender de manera más amplia cómo las palabras en una búsqueda se relacionan con conceptos del mundo real. Por ejemplo, si busca «cuál es el título del consumidor en el nivel más alto de una cadena alimentaria», nuestros sistemas aprenden al ver esas palabras en varias páginas que el concepto de cadena alimentaria puede tener que ver con animales, y no consumidores humanos. Al comprender y relacionar estas palabras con sus conceptos relacionados, RankBrain comprende que está buscando lo que comúnmente se conoce como un «depredador superior».

BERT es un modelo de aprendizaje profundo que ayuda a Google a comprender el contexto de las palabras en las consultas para comprender mejor el tema general del texto.

Comprender los temas

No creo que los motores de búsqueda modernos ya utilicen Topic Modeling debido al aprendizaje profundo y la IA. Sin embargo, en el pasado los motores de búsqueda utilizaban una técnica de modelado estadístico llamada Topic Modeling para comprender de qué se trata una página web y relacionarla con las consultas de búsqueda. La asignación latente de Dirichlet (LDA) fue una tecnología innovadora a mediados de la década de 2000 que ayudó a los motores de búsqueda a comprender los temas.

Alrededor de 2015, los investigadores publicaron artículos sobre el Modelo de Documento Variacional Neural (NVDM), que era una forma aún más poderosa de representar los temas subyacentes de los documentos.

Uno de los artículos de investigación más recientes se llama Más allá del sí y del no: mejora de los clasificadores de LLM de tiro cero mediante la puntuación de etiquetas de relevancia detalladas. Ese trabajo de investigación trata sobre mejorar el uso de modelos de lenguaje grandes para clasificar páginas web, un proceso de puntuación de relevancia. Implica ir más allá de una clasificación binaria de sí o no a una forma más precisa utilizando etiquetas como «Muy relevante», «Algo relevante» y «No relevante».

Este trabajo de investigación establece:

«Proponemos incorporar etiquetas de relevancia detalladas en el mensaje para los clasificadores de LLM, permitiéndoles diferenciar mejor entre documentos con diferentes niveles de relevancia para la consulta y así obtener una clasificación más precisa».

Evite el pensamiento reduccionista

Los motores de búsqueda están yendo más allá de la recuperación de información y han avanzado (desde hace mucho tiempo) hacia la respuesta a preguntas, una situación que se ha acelerado en los últimos años y meses. Esto se predijo en un artículo de 2001 titulado Repensar la búsqueda: convertir a los diletantes en expertos en el dominio, donde propusieron la necesidad de participar plenamente en la devolución de respuestas a nivel humano.

El artículo comienza:

“Cuando experimentan una necesidad de información, los usuarios quieren interactuar con un experto en el dominio, pero a menudo recurren a un sistema de recuperación de información, como un motor de búsqueda. Los sistemas clásicos de recuperación de información no responden directamente a las necesidades de información, sino que proporcionan referencias a respuestas (con suerte, autorizadas). Los sistemas de respuesta a preguntas exitosos ofrecen un corpus limitado creado bajo demanda por expertos humanos, que no es oportuno ni escalable. Los modelos de lenguaje previamente entrenados, por el contrario, son capaces de generar directamente prosa que puede responder a una necesidad de información, pero en la actualidad son diletantes más que expertos en el campo: no tienen una verdadera comprensión del mundo…”

La principal conclusión es que es contraproducente aplicar un pensamiento reduccionista a la forma en que Google clasifica las páginas web haciendo algo como poner un énfasis exagerado en las palabras clave, en los elementos del título y en los encabezados. Las tecnologías subyacentes se están moviendo rápidamente hacia la comprensión del mundo, por lo que si uno piensa en los sistemas centrales de actualidad, entonces es útil ponerlos en un contexto que vaya más allá de los sistemas tradicionales de recuperación de información «clásicos».

Los métodos que utiliza Google para comprender temas en páginas web que coinciden con consultas de búsqueda son cada vez más sofisticados y es una buena idea familiarizarse con las formas en que Google lo ha hecho en el pasado y cómo puede estar haciéndolo en el presente.

Imagen destacada de Shutterstock/Cookie Studio