Validez de la investigación de Pew en los resultados de búsqueda de Google AI desafiados

Validez de la investigación de Pew en los resultados de búsqueda de Google AI desafiados


Las preguntas sobre la metodología utilizada por el Centro de Investigación Pew sugieren que sus conclusiones sobre los resúmenes de IA de Google pueden ser defectuosos. Los hechos sobre cómo se crean los resúmenes de IA, el tamaño de la muestra y la confiabilidad estadística desafían la validez de los resultados.

Declaración oficial de Google

Un portavoz de Google contactó con una declaración oficial y una discusión sobre por qué los resultados de la investigación de Pew no reflejan los patrones reales de interacción del usuario relacionados con los resúmenes de IA y la búsqueda estándar.

Los puntos principales de la refutación de Google son:

  • Los usuarios buscan cada vez más funciones de IA
  • Están haciendo más preguntas
  • Las tendencias de uso de la IA están aumentando la visibilidad para los creadores de contenido.
  • La investigación de Pew utilizó una metodología defectuosa.

Google compartió:

“Las personas están gravitando con las experiencias de IA, y las características de IA en la búsqueda permiten a las personas hacer aún más preguntas, creando nuevas oportunidades para que las personas se conecten con los sitios web.

Este estudio utiliza una metodología defectuosa y Queryset sesgado que no es representativo del tráfico de búsqueda. Constantemente dirigimos miles de millones de clics a los sitios web diariamente y no hemos observado caídas significativas en el tráfico web agregado como se sugiere ”.

El tamaño de la muestra es demasiado bajo

Discutí la investigación de Pew con Duane Forrester (anteriormente de Bing, perfil de LinkedIn) y sugirió que el tamaño de muestreo de la investigación era demasiado bajo para ser significativo (más de 900 adultos y 66,000 consultas de búsqueda). Duane compartió la siguiente opinión:

“De casi 500 mil millones de consultas por mes en Google y están extrayendo ideas basadas en el tamaño de la muestra del 0.0000134% (más de 66,000 consultas), es una muestra muy pequeña.

Sin sugerir que 66,000 de algo es intrascendente, pero tomado en el contexto del volumen de consultas que ocurren en cualquier mes, día, hora o minuto, técnicamente no es un error de redondeo y si fuera mi estudio, tendría que llamar cuán extremadamente bajo es el tamaño de la muestra y que no puede representar realistas en el mundo real «.

¿Qué tan confiables son las estadísticas del Centro Pew?

La página de metodología para las estadísticas utilizadas enumera cuán confiables son las estadísticas para los siguientes grupos de edad:

  • Las edades de entre 18 y 29 años se clasificaron en más/menos 13.7 puntos porcentuales. Eso se ubica como un bajo nivel de confiabilidad.
  • Las edades de 30 a 49 años se clasificaron en más/menos 7.9 puntos porcentuales. Eso se ubica en el rango moderado, algo confiable, pero sigue siendo un rango bastante amplio.
  • Las edades de 50 a 64 años se clasificaron en más/menos 8.9 puntos porcentuales. Eso se ubica como un nivel de confiabilidad moderado a bajo.
  • La edad más de 65 años se clasificó en más/menos 10.2 puntos porcentuales, lo que está firmemente en el bajo rango de confiabilidad.

Los puntajes de confiabilidad anteriores son de la página de metodología de Pew Research. En general, todos estos resultados tienen un alto margen de error, lo que los hace estadísticamente poco confiables. En el mejor de los casos, deben verse como estimaciones aproximadas, aunque como dice Duane, el tamaño de la muestra es tan bajo que es difícil justificarlo como reflejando los resultados del mundo real.

Los resultados de la investigación de Pew comparan los resultados en diferentes meses

Después de pensar en ello de la noche a la mañana y revisar la metodología, un aspecto de la metodología de investigación de Pew que se destacó es que compararon las consultas de búsqueda reales de los usuarios durante el mes de marzo con las mismas consultas que los investigadores realizaron en una semana de abril.

Eso es problemático porque los resúmenes de IA de Google cambian de mes a mes. Por ejemplo, los tipos de consultas que desencadenan una descripción general de AI cambian, con AIOS cada vez más prominentes para ciertos nichos y menos para otros temas. Además, las tendencias del usuario pueden afectar lo que se busca en la que en sí mismo podría desencadenar una actualización temporal de frescura a los algoritmos de búsqueda que priorizan videos y noticias.

La conclusión es que comparar los resultados de búsqueda de diferentes meses es problemático para los resúmenes de búsqueda estándar y de IA.

Pew Research ignora que los resultados de búsqueda de IA son dinámicos

Con respecto a las descripciones y resúmenes de la IA, estos son aún más dinámicos, sujetos a cambios no solo para cada usuario sino para el mismo usuario.

La búsqueda de una consulta en las descripciones de IA y luego repetir la consulta en un navegador completamente diferente dará como resultado un resumen de IA diferente y un conjunto de enlaces completamente diferente.

El punto es que la metodología del Centro de Investigación Pew, donde comparan las consultas de los usuarios con consultas raspadas un mes después, son defectuosas porque los dos conjuntos de consultas y resultados no se pueden comparar, cada una es inherentemente diferente debido al tiempo, las actualizaciones y la naturaleza dinámica de los sumarios de IA.

Las siguientes capturas de pantalla son los enlaces que se muestran para la consulta, ¿Cuál es el entrenamiento RLHF en OpenAi?

Google AIO a través del navegador Vivaldi

Google AIO a través del navegador Chrome Canary

La captura de pantalla muestra enlaces a OpenAi, Arize Ai y Hugging Face

Los enlaces en el lado derecho no solo son diferentes, contenido de resumen de IA y los enlaces incrustados dentro de ese contenido también son diferentes.

¿Podría ser por eso que los editores ven un tráfico inconsistente?

Los editores y los SEO se utilizan para posiciones de clasificación estática en los resultados de búsqueda para una consulta de búsqueda dada. Pero las descripción general de la IA de Google y el modo AI muestran resultados de búsqueda dinámicos. El contenido en los resultados de búsqueda y los enlaces que se muestran son dinámicos, que muestran una amplia gama de sitios en las tres posiciones superiores para las mismas consultas. SEOS y editores han pedido a Google que muestre una gama más amplia de sitios web y eso, aparentemente, es lo que están haciendo las características de IA de Google. ¿Es este un caso de tener cuidado con lo que desea?

Imagen destacada de Shutterstock/Stokkete

Related Posts
Leave a Reply

Your email address will not be published.Required fields are marked *