Reddit ha anunciado planes para restringir significativamente la máquina Wayback de Internet Archive de indexar su plataforma, citando las preocupaciones de que las compañías de IA han estado explotando el servicio de archivo para eludir las políticas de protección de datos de Reddit.
El movimiento representa otra escalada en la batalla continua de Reddit para controlar el acceso a su contenido generado por el usuario en medio del auge de los datos de entrenamiento de IA.
Control de llave
1. La máquina Wayback solo podrá archivar la página de inicio de Reddit, no en publicaciones o comentarios individuales.
2. Las empresas estaban utilizando datos archivados para evitar las restricciones de acceso directo de Reddit
3. Reddit prefiere ofertas de licencias pagas sobre el acceso a datos gratuitos.
Bloquear acceso a la máquina Wayback
A partir de hoy, Reddit implementará lo que llama restricciones de “aumentar” que bloquearán la máquina Wayback para acceder a páginas de detalles, hilos de comentarios y perfiles de usuario.
El archivo de Internet solo conservará la capacidad de indexar la página de inicio de Reddit, limitando efectivamente los registros históricos a instantáneas de titulares de tendencias y publicaciones populares en fechas dadas.
“El archivo de Internet proporciona un servicio a la web abierta, pero nos han dado cuenta de los casos en que las compañías de IA violan las políticas de la plataforma, incluidos los nuestros, y raspan datos de la máquina Wayback”, el portavoz de Reddit, Tim Rathschmidt, explicado.
La compañía ha identificado casos específicos en los que las compañías de capacitación de IA han utilizado los robots. Capacidades de omisión de txt inherentes al contenido archivado para acceder a los datos de Reddit que de otro modo estarían restringidos por los mecanismos actuales de limitación de tasa de API de la plataforma y bloqueo de rastreadores.
La implementación técnica de Reddit probablemente implicará actualizar su archivo robots.txt con cadenas específicas de agentes de usuario dirigidos a los rastreadores de archivos de Internet, mientras que potencialmente implementan el bloqueo del lado del servidor en función de los rangos de IP asociados con la infraestructura de la máquina Wayback.
Este enfoque refleja la estrategia reciente de la plataforma de bloquear los rastreadores de motores de búsqueda a menos que las empresas ingresen acuerdos de licencia pagados.
Esta restricción forma parte del enfoque integral de Reddit para monetizar sus activos de datos en la era de la IA.
La plataforma ha firmado acuerdos significativos con Google y OpenAI para el acceso oficial a los datos, al tiempo que realiza acciones legales contra compañías como Anthrope por supuestamente continuar raspando contenido después de afirmar que se ha detenido.
Los cambios de fijación de precios de API de Reddit en 2023, que cerraron efectivamente las aplicaciones populares de terceros, se justificaron utilizando un razonamiento similar sobre la prevención de la capacitación de IA no autorizada.
La Compañía ha implementado la limitación de tarifas, los requisitos de autenticación y el monitoreo de uso en su infraestructura técnica para mantener el control sobre el acceso a los datos.
Mark Graham, director de The Wayback Machine, reconoció las discusiones continuas con Reddit sobre el asunto, lo que sugiere que se pueden explorar posibles soluciones técnicas.
Sin embargo, la posición de Reddit parece firme: hasta que el archivo de Internet pueda garantizar el cumplimiento de las políticas de la plataforma con respecto a la privacidad del usuario y la eliminación de contenido, el acceso seguirá siendo severamente limitado.
Este desarrollo destaca la creciente tensión entre los principios de archivo web abiertos y el control de datos comerciales en el panorama de capacitación de IA.
Aumente su SOC y ayude a su equipo a proteger su negocio con inteligencia gratuita de amenazas de primer nivel: Solicitar prueba de prueba premium de búsqueda TI.