Nuevas reglas de Internet bloquearán los robots de entrenamiento de IA

Se están desarrollando nuevos estándares para ampliar el Protocolo de exclusión de robots y las etiquetas Meta Robots, permitiéndoles bloquear a todos los rastreadores de IA para que no utilicen contenido web disponible públicamente con fines de capacitación. La propuesta, redactada por Krishna Madhavan, director principal de productos de Microsoft AI, y Fabrice Canel, director principal de productos de Microsoft Bing, facilitará el bloqueo de todos los rastreadores principales de AI Training con una regla simple que se puede aplicar a cada rastreador individual.

Prácticamente todos los rastreadores legítimos obedecen las etiquetas Robots.txt y Meta Robots, lo que hace que esta propuesta sea un sueño hecho realidad para los editores que no quieren que su contenido se utilice con fines de capacitación en IA.

Grupo de Trabajo de Ingeniería de Internet (IETF)

El Internet Engineering Task Force (IETF) es un grupo internacional de elaboración de estándares de Internet fundado en 1986 que coordina el desarrollo y codificación de estándares que todos pueden acordar voluntariamente. Por ejemplo, el Protocolo de exclusión de robots se creó de forma independiente en 1994 y en 2019 Google propuso que el IETF lo adoptara como estándar oficial con definiciones acordadas. En 2022, el IETF publicó un Protocolo de exclusión de robots oficial que define qué es y amplía el protocolo original.

Tres formas de bloquear los robots de entrenamiento de IA

El borrador de la propuesta para bloquear los robots de entrenamiento de IA sugiere tres formas de bloquearlos:

Protocolos robots.txt
Elementos HTML de metarobots
Encabezado de respuesta de la capa de aplicación

1. Robots.Txt para bloquear robots AI

El borrador de la propuesta busca crear reglas adicionales que extenderán el Protocolo de exclusión de robots (Robots.txt) a los robots de entrenamiento de IA. Esto generará cierto orden y permitirá a los editores elegir qué robots pueden rastrear sus sitios web.

La adhesión al protocolo Robots.txt es voluntaria, pero todos los rastreadores legítimos tienden a obedecerlo.

El borrador explica el propósito de las nuevas reglas de Robots.txt:

“Si bien el Protocolo de exclusión de robots permite a los propietarios de servicios controlar cómo, si es que lo hacen, los clientes automatizados conocidos como rastreadores pueden acceder a los URI de sus servicios según lo definido por [RFC8288]el protocolo no proporciona controles sobre cómo los datos devueltos por su servicio pueden usarse en el entrenamiento de modelos básicos de IA generativa.

Se solicita a los desarrolladores de aplicaciones que respeten estas etiquetas. Sin embargo, las etiquetas no son una forma de autorización de acceso”.

Una cualidad importante de las nuevas reglas de robots.txt y los elementos HTML de meta robots es que los rastreadores legítimos de entrenamiento de IA tienden a aceptar voluntariamente seguir estos protocolos, que es algo que hacen todos los bots legítimos. Esto simplificará el bloqueo de bots para los editores.

Las siguientes son las reglas propuestas de Robots.txt:

DisallowAITraining: indica al analizador que no utilice los datos para el modelo de lenguaje de entrenamiento de IA.

AllowAITraining: indica al analizador que los datos se pueden utilizar para el modelo de lenguaje de entrenamiento de IA.

2. Elemento HTML (metaetiqueta Robots)

Las siguientes son las directivas de meta robots propuestas:

3. Encabezado de respuesta de la capa de aplicación

Los encabezados de respuesta de la capa de aplicación son enviados por un servidor en respuesta a la solicitud de una página web por parte de un navegador. La propuesta sugiere agregar nuevas reglas a los encabezados de respuesta de la capa de aplicación para robots:

“DisallowAITraining: indica al analizador que no utilice los datos para el modelo de lenguaje de entrenamiento de IA.

AllowAITraining: indica al analizador que los datos se pueden utilizar para el modelo de lenguaje de entrenamiento de IA”.

Proporciona un mayor control

Las empresas de inteligencia artificial han sido demandadas sin éxito ante los tribunales por utilizar datos disponibles públicamente. Las empresas de inteligencia artificial han afirmado que es un uso legítimo rastrear sitios web disponibles públicamente, tal como lo han hecho los motores de búsqueda durante décadas.

Estos nuevos protocolos brindan a los editores web control sobre los rastreadores cuyo propósito es consumir datos de entrenamiento, alineando esos rastreadores con los rastreadores de búsqueda.

Lea la propuesta en el IETF:

Extensión del protocolo de exclusión de robots para gestionar el uso de contenido de IA

Imagen destacada de Shutterstock/ViDI Studio