Google confirma que el contenido generado por IA debe ser revisado por humanos

Gary Illyes de Google confirmó que el contenido de IA está bien siempre que la calidad sea alta. Dijo que «humano creado» no es precisamente la forma correcta de describir su política de contenido de IA, y que una descripción más precisa sería «comisariada humana».

Kenichi Suzuki hizo las preguntas en el contexto de una entrevista exclusiva con Illyes.

Descripción general de la IA y modelos de modo AI

Kenichi preguntó sobre los modelos AI utilizados para las descripciones de IA y el modo AI, y respondió que son modelos Gemini personalizados.

Illyes respondió:

«Entonces, como señaló, el modelo que usamos para AIO (para las descripciones de IA) y para el modo AI es un modelo de Géminis personalizado y eso podría significar que estaba entrenado de manera diferente. No sé los detalles exactos, cómo fue entrenado, pero definitivamente es un modelo personalizado».

Kenichi luego preguntó si las descripciones de IA (AIO) y el modo AI utilizan índices separados para la conexión a tierra.

La conexión a tierra es donde un LLM conectará las respuestas a una base de datos o un índice de búsqueda para que las respuestas sean más confiables, veraces y basadas en hechos verificables, lo que ayuda a reducir las alucinaciones. En el contexto del modo AIO y AI, la conexión a tierra generalmente ocurre con los datos basados en la web del índice de Google.

Suzuki preguntó:

«Entonces, ¿eso significa que las descripciones de IA y el modo AI usan índices separados para la conexión a tierra?»

Los Illyes de Google respondieron:

«Hasta donde yo sé, Gemini, la descripción general de la IA y el modo AI usan Google Search para la conexión a tierra. Por lo tanto, básicamente emiten múltiples consultas en Google Search y luego la búsqueda de Google devuelve resultados para esas consultas particulares».

Kenichi estaba tratando de obtener una respuesta sobre el rastreador extendido de Google, y la respuesta de Illyes fue explicar cuándo entra en juego el rastreador extendido de Google.

«Entonces, ¿eso significa que los datos de entrenamiento son utilizados por el modo AIO y AI recopilados por Google regular y no Google extendido?»

Y Illyes respondió:

«Debe recordar que cuando ocurre la conexión a tierra, no hay IA involucrada. Por lo tanto, básicamente es la generación la que se ve afectada por Google.

Contenido de IA en LLM e índice de búsqueda

La siguiente pregunta que respondió Illyes fue sobre si el contenido de IA publicado en línea está contaminando LLMS. Illyes dijo que esto no es un problema con el índice de búsqueda, pero puede ser un problema para LLMS.

Pregunta de Kenichi:

«A medida que AI crea más contenido, y los LLM aprenden de ese contenido. ¿Qué piensas sobre esta tendencia y cuáles son sus inconvenientes potenciales?»

Illyes respondió:

«No estoy preocupado por el índice de búsqueda, pero la capacitación de modelos definitivamente necesita descubrir cómo excluir el contenido generado por la IA. De lo contrario, terminas en un bucle de entrenamiento que realmente no es excelente para la capacitación. No estoy seguro de cuánto problema es este momento, o tal vez porque cómo seleccionamos los documentos en los que entrenamos».

Calidad de contenido y contenido generado por IA

Suzuki siguió con una pregunta sobre la calidad del contenido y la IA.

Preguntó:

«Entonces no te importa cómo se crea el contenido … ¿siempre que la calidad sea alta?»

Illyes confirmó que una consideración líder para los datos de entrenamiento de LLM es la calidad del contenido, independientemente de cómo se generara. Él citó específicamente la precisión objetiva del contenido como un factor importante. Otro factor que mencionó es que la similitud de contenido es problemática, y dice que el contenido similar «extremadamente» no debería estar en el índice de búsqueda.

También dijo que a Google esencialmente no le importa cómo se crea el contenido, pero con algunas advertencias:

«Claro, pero si puede mantener la calidad del contenido y la precisión del contenido y asegurarse de que sea de alta calidad, entonces técnicamente no importa.

El problema comienza a surgir cuando el contenido es extremadamente similar a algo que ya se creó, que con suerte no vamos a tener en nuestro índice para entrenar de todos modos.

Y luego, el segundo problema es cuando está entrenando en datos inexactos y ese es probablemente el más riesgoso porque luego comienza a introducir sesgos y comienzan a introducir datos contrafactuales en sus modelos.

Mientras la calidad del contenido sea alta, lo que generalmente hoy en día requiere que el humano revisa el contenido generado, está bien para el entrenamiento de modelos «.

Contenido generado por la IA revisado por humanos

Illyes continuó su respuesta, esta vez centrándose en el contenido generado por IA que es revisado por un humano. Hace hincapié en la revisión humana, no como algo que los editores necesitan señalar en su contenido, sino como algo que los editores deben hacer antes de publicar el contenido.

Una vez más, «Human Revisado» no significa agregar redacción en una página web de que el contenido es revisado por humanos; Esa no es una señal confiable, y no es lo que sugirió.

Esto es lo que dijo Illyes:

“No creo que vamos a cambiar nuestra orientación en el corto plazo sobre si necesita revisarla o no.

Entonces, básicamente, cuando decimos que es humano, creo que la palabra humana creada está mal. Básicamente, debe ser curado humano. Entonces, básicamente, alguien tenía una supervisión editorial sobre su contenido y validó que en realidad es correcto y preciso «.

Comida para llevar

La política de Google, como lo resume libremente por Gary Illyes, es que el contenido generado por IA está bien para la búsqueda y la capacitación de modelos si es de hecho preciso, original y revisado por los humanos. Esto significa que los editores deben aplicar la supervisión editorial para validar la precisión objetiva del contenido y garantizar que no sea «extremadamente» similar al contenido existente.

Mira la entrevista:

https://www.youtube.com/watch?v=pstff6tcqxk

Imagen destacada de Shutterstock/Supatman