Perplexity responde a la demanda de Reddit por el acceso a datos

Reddit demandó a Perplexity y a tres empresas de extracción de datos en un tribunal federal de Nueva York, alegando que las empresas eludieron los controles de acceso para obtener contenido de Reddit a escala, incluso mediante la extracción de resultados de búsqueda de Google.

Perplexity publicó una respuesta pública, diciendo que resume las discusiones de Reddit con citas y no entrena modelos de IA en el contenido de Reddit.

La posición es consistente con las declaraciones pasadas de la compañía. Sigue siendo una cuestión abierta si aborda las acusaciones específicas en la presentación de Reddit.

La denuncia nombra a Oxylabs UAB, AWMProxy y SerpApi como intermediarios. Alega que Perplexity es cliente de SerpApi y compró y/o utilizó servicios de SerpApi para eludir los controles y copiar datos de Reddit.

Pruebas en la denuncia

El argumento de Perplexity se basa en una distinción técnica. La compañía dice que resume y cita discusiones en lugar de modelos de capacitación en publicaciones de Reddit.

Perplexity escribió en su respuesta de Reddit:

«Resumimos las discusiones de Reddit y citamos los hilos de Reddit en las respuestas, al igual que la gente comparte enlaces a publicaciones aquí todo el tiempo».

La denuncia, sin embargo, presenta afirmaciones técnicas que ponen en duda ese marco.

Según la presentación, Reddit creó una publicación de prueba que solo podía rastrear el motor de búsqueda de Google y no era accesible en ningún otro lugar de Internet. En cuestión de horas, ese contenido oculto apareció en los resultados de Perplexity.

La presentación también dice que después de que Reddit envió una carta de cese y desistimiento, las citaciones de Perplexity a Reddit se multiplicaron aproximadamente por cuarenta.

Acusaciones similares de los editores

Forbes acusó anteriormente a Perplexity de volver a publicar una acción legal exclusiva y amenazó.

Wired informó que Perplexity utilizó direcciones IP no reveladas y cadenas de agente de usuario falsificadas para eludir robots.txt. cableado

Cloudflare dijo más tarde que Perplexity utilizó “rastreadores sigilosos no declarados” que ignoraban las directivas de no rastreo, según las pruebas que realizó en agosto.

Cómo ha respondido la perplejidad

En disputas anteriores, Perplexity dijo que los problemas surgían de asperezas en nuevos productos y prometió una atribución más clara.

La compañía también ha argumentado que algunos medios de comunicación están tratando de controlar los “hechos informados públicamente”.

En esta última respuesta, Perplexity enmarca la demanda de Reddit como una influencia en negociaciones más amplias sobre datos de entrenamiento y escribe:

«Resumimos las discusiones de Reddit… No seremos extorsionados y no ayudaremos a Reddit a extorsionar a Google».

Por qué esto importa

Esta cuestión es importante porque se refiere a cómo los asistentes de IA utilizan el contenido del foro que lee su público y que los editores citan con frecuencia.

Las cuestiones jurídicas van más allá de la mera formación.

Los tribunales pueden examinar si se han eludido los controles técnicos, si el resumen infringe expresiones protegidas y si el uso de raspadores de terceros podría dar lugar a responsabilidad legal por productos derivados.

Si los tribunales aceptan el argumento antielusión de Reddit, podría dar lugar a cambios en la forma en que los asistentes citan o vinculan los hilos de Reddit.

Por otro lado, si los tribunales están de acuerdo con el punto de vista de Perplexity, los asistentes podrían comenzar a confiar más en foros de discusión que estén menos restringidos por las licencias.

Lo que aún no sabemos

La presentación alega que Perplexity obtuvo datos a través de al menos una empresa de scraping, pero la queja pública no especifica qué proveedor proporcionó qué datos ni incluye detalles de la transacción.