Crédito: imagen generada por IA
Los artistas visuales quieren proteger su trabajo del uso no consensuado mediante herramientas generativas de IA como ChatGPT. Pero la mayoría de ellos no tienen el conocimiento técnico o el control sobre las herramientas necesarias para hacerlo.
Una de las mejores maneras de proteger el trabajo creativo de los artistas es evitar que los “rastreadores de IA” lo vean, los programas que cosechan datos en Internet para capacitar modelos generativos. Pero la mayoría de los artistas no tienen acceso a las herramientas que les permitirían tomar tales acciones. Y cuando tienen acceso, no saben cómo usarlos.
Estas son algunas de las conclusiones de un estudio realizado por un grupo de investigadores de la Universidad de California en San Diego y la Universidad de Chicago, que se presentará en el Conferencia de medición de Internet 2025 en octubre en Madison, Wis.
El estudio es publicado en el servidor de preimpresión ARXIV.
“En el centro del conflicto en este documento está la noción de que los creadores de contenido ahora desean controlar cómo se usa su contenido, no simplemente si es accesible. Si bien dichos derechos son típicamente explícitos en la ley de derechos de autor, no son fácilmente expresables, y mucho menos ejecutables en Internet actual.
“En cambio, han surgido una serie de controles ad hoc en función de la reutilización de las normas web existentes y las capacidades de firewall, ninguno de los cuales coincide con la especificidad, la usabilidad o el nivel de aplicación que, de hecho, desean los creadores de contenido”, escriben los investigadores.
El equipo de investigación encuestó a más de 200 artistas visuales sobre la demanda de herramientas para bloquear los rastreadores de IA, así como la experiencia técnica de los artistas. Los investigadores también revisaron más de 1,100 sitios web de artistas profesionales para ver cuánto tenían los artistas de control sobre las herramientas de bloqueo de AI. Finalmente, el equipo evaluó qué procesos fueron los más efectivos para bloquear los rastreadores de IA.
Resumen de agentes de usuarios de IA estudiados y las empresas asociadas con ellos. Los investigadores señalan si las empresas publican las direcciones IP que usan cuando se arrastran con un agente de usuarios en particular, si su documentación afirma respetar robots.txt y si respetan robots.txt en la práctica. Crédito: Universidad de California San Diego
Actualmente, los artistas pueden usar con bastante facilidad algunas herramientas que enmascaran las obras de arte originales de los rastreadores de IA al convertir el arte en algo diferente. Los coautores del estudio en la Universidad de Chicago desarrollaron una de estas herramientas, conocida como Glaze.
Pero idealmente, los artistas podrían evitar que los rastreadores de IA cosechen sus datos por completo. Para hacerlo, los artistas visuales deben defenderse de tres categorías de rastreadores de IA. Un tipo cosecha datos para entrenar los modelos de idiomas grandes que impulsan los chatbots, otro para aumentar el conocimiento de los asistentes respaldados por IA y otro para apoyar los motores de búsqueda respaldados por IA.
Encuesta
Ha habido una amplia cobertura mediática de cómo la IA generativa ha interrumpido severamente los medios de vida de muchos artistas. Como resultado, cerca del 80% de los 203 artistas visuales que los investigadores encuestados dijeron que han tratado de tomar medidas proactivas para evitar que sus obras de arte se incluyan en los datos de capacitación para herramientas de generación de IA. Dos tercios informaron usando esmalte. Además, el 60% de los artistas han reducido la cantidad de trabajo que comparten en línea, y el 51% de ellos comparten solo imágenes de baja resolución de su trabajo.
Además, el 96% de los artistas dijeron que les gustaría tener acceso a una herramienta que pueda disuadir a los rastreadores de IA de la cosecha de sus datos. Pero más del 60% de ellos no estaban familiarizados con una de las herramientas más simples que pueden hacer esto: robots.txt.
Herramientas para disuadir a los rastreadores de IA
Robots.txt es un archivo de texto simple colocado en el directorio raíz de un sitio web que explica a qué rastreadores de páginas pueden acceder en ese sitio web. El archivo de texto también puede explicar qué rastreadores no pueden tener acceso al sitio web en absoluto. Pero los rastreadores no tienen la obligación de seguir estas restricciones.
En este ejemplo de archivo Robots.txt, GoogleBot puede rastrear todas las URL en el sitio web, ChatGPT-User y GPTBOT no se les permite rastrear cualquier URL, y todos los demás rastreadores no se les atraviesa las URL de arrastre bajo el / secreto / directorio. Crédito: Universidad de California San Diego
Los investigadores encuestaron los 100,000 sitios web más populares en Internet y descubrieron que más del 10% han rechazado explícitamente los rastreadores de IA en sus archivos robots.txt. Pero algunos sitios, incluidos Vox Media y el Atlantic, eliminaron esta prohibición después de celebrar acuerdos de licencia con compañías de IA.
De hecho, el número de sitios que permiten los rastreadores de IA está aumentando, incluidos los sitios de desinformación de derecha populares. Los investigadores plantean la hipótesis de que estos sitios podrían tratar de difundir la información errónea a los LLM.
Un problema para los artistas es que no tienen acceso o control del archivo Robots.txt relevante. Esto se debe a que, en una encuesta de 1100 sitios web de artistas, los investigadores descubrieron que más de tres cuartos están alojados en plataformas de servicio de terceros, la mayoría de los cuales no permiten modificaciones de robots.txt.
Muchos de estos sistemas de gestión de contenido que utilizan los artistas también les brindan poca o ninguna información sobre qué tipo de rastreo está bloqueado. Squarespace es la única compañía que proporciona una interfaz simple para bloquear las herramientas de IA. Pero los investigadores encontraron que solo el 17% de los artistas que usan Squarespace habilitan esta opción. Esto podría deberse a que a menudo, los artistas no son conscientes de que este servicio está disponible.
¿Pero los rastreadores respetan las prohibiciones enumeradas en robots.txt, a pesar de que no son obligatorios?
La respuesta es mixta. Los rastreadores de las grandes corporaciones generalmente respetan robots.txt, tanto en reclamo como en la práctica. El único rastreador que los investigadores podrían determinar claramente no es el bytepider, desplegado por el bytete del propietario de Tiktok. Además, una gran cantidad de rastreadores afirman que respetan robots. Restricciones de txt, pero los investigadores no pudieron verificar que este sea realmente el caso.
En general, “la mayoría de los rastreadores de IA operados por grandes empresas respetan a los robots.txt, mientras que la mayoría de los asistentes de IA no”, escriben los investigadores.
Número de sitios que permiten explícitamente al menos un rastreador de IA en sus robots. Las líneas verticales indican acuerdos de datos públicos entre los principales editores (que controlan más de 40 dominios) y OpenAI. Crédito: Universidad de California San Diego
Más recientemente, el proveedor de red Cloudflare ha lanzado una función “Bloque de AI Bots”. En este punto, solo el 5.7% de los sitios que usan CloudFlare tienen esta opción habilitada. Pero los investigadores esperan que se vuelva más popular con el tiempo.
“Si bien es una ‘nueva opción alentadora’, esperamos que los proveedores se vuelvan más transparentes con la operación y la cobertura de sus herramientas (por ejemplo, al proporcionar la lista de bots de IA que están bloqueados)”, dijo Elisa Luo, una de las autores del periódico y un doctorado. Estudiante en el grupo de investigación de Savage.
Incertidumbres legislativas y legales
El panorama global alrededor de los rastreadores de IA está cambiando constantemente debido a diferentes cambios legales y una amplia gama de propuestas legislativas.
En los Estados Unidos, las compañías de IA enfrentan desafíos legales en torno a la medida en que los derechos de autor se aplican a los modelos capacitados en datos raspados de Internet y cuáles podrían ser sus obligaciones para los creadores de este contenido. En la Unión Europea, una Ley de IA aprobada recientemente requiere que los proveedores de modelos de IA obtengan la autorización de los titulares de derechos de autor para usar sus datos.
“Hay razones para creer que la confusión en torno a la disponibilidad de remedios legales solo centrará aún más la atención en los controles de acceso técnico”, escriben los investigadores. “En la medida en que cualquier tribunal estadounidense encuentre una defensa afirmativa de ‘uso justo’ para los constructores de modelos de IA, este debilitamiento de los remedios en uso inevitablemente creará una demanda aún más fuerte para imponer controles en el acceso”.
Más información: Enze Liu et al, Somesite Soldan rastrear: conciencia, agencia y eficacia para proteger a los creadores de contenido de los rastreadores de IA, ARXIV (2024). Doi: 10.48550/arxiv.2411.15091
Información en el diario: ARXIV
Proporcionado por la Universidad de California – San Diego
Cita: Protección contra los rastreadores de IA Elude a los artistas visuales a pesar de las herramientas disponibles, muestra el estudio (2025, 5 de agosto) recuperado el 5 de agosto de 2025 de https://techxplore.com/news/2025-08-ai-crawlers-eludes-visual- artists.html
Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.