Home Tecnología Operai, Deepseek y Google varían ampliamente en la identificación del discurso de...

Operai, Deepseek y Google varían ampliamente en la identificación del discurso de odio

75
0

Crédito: Dominio público de Pixabay/CC0

Con la proliferación del discurso de odio en línea, que muestra la investigación, puede aumentar la polarización política y dañar la salud mental, las empresas de inteligencia artificial que acumulan grandes modelos de idiomas que prometen el filtrado automático de contenido.

“Las empresas de tecnología privada se han convertido en los árbitros de facto de qué discurso está permitido en la plaza pública digital, pero lo hacen sin ningún estándar consistente”, dice Yphtach Lelkes, profesor asociado en la Escuela Annenberg para la Comunicación.

Él y el estudiante doctoral de Annenberg, Neil Fasching, han producido el primer análisis comparativo a gran escala de los sistemas de moderación de contenido de IA, que emplean las plataformas de redes sociales, y abordaron la cuestión de cuán consistentes son para evaluar el discurso de odio. Su estudiar se publica en los hallazgos de la Asociación de Lingüística Computacional: ACL 2025.

Lelkes y Fasching analizaron siete modelos, algunos diseñados específicamente para la clasificación de contenido y otros más generales: dos de OpenAi y dos de Mistral, junto con Claude 3.5 Sonnet, Deepseek V3 y Google Perspective API. Su análisis incluye 1.3 millones de oraciones sintéticas que hacen declaraciones sobre 125 grupos, incluidos los términos neutros y insultos, desde la religión hasta la discapacidad y la edad. Cada oración incluye “todos” o “algunos”, un grupo y una frase de discurso de odio.

Aquí hay tres conclusiones de su investigación:

Los modelos toman diferentes decisiones sobre el mismo contenido

“La investigación muestra que los sistemas de moderación de contenido tienen inconsistencias dramáticas al evaluar el contenido de discurso de odio idéntico, con algunos sistemas que marcan el contenido como dañino, mientras que otros lo consideran aceptable”, dice Fasching. Este es un problema crítico para el público, dice Lelkes, porque la moderación inconsistente puede erosionar la confianza y crear percepciones de sesgo.

Fasching y Lelkes también encontraron la variación en la consistencia interna de los modelos: uno demostró una alta previsibilidad de cómo clasificaría contenido similar, otro produjo diferentes resultados para contenido similar y otros mostraron un enfoque más medido, ni exceso de contenido ni contenido bajo detección como discurso de odio. “Estas diferencias resaltan el desafío de equilibrar la precisión de la detección con la evitación de la sobre moderación”, escriben los investigadores.

Las variaciones son especialmente pronunciadas para ciertos grupos

“Estas inconsistencias son especialmente pronunciadas para grupos demográficos específicos, dejando a algunas comunidades más vulnerables al daño en línea que otras”, dice Fasching.

Él y Lelkes descubrieron que las evaluaciones del habla de odio en los siete sistemas eran más similares para declaraciones sobre grupos basados ​​en la orientación sexual, la raza y el género, mientras que las inconsistencias se intensificaron para los grupos basados ​​en el nivel educativo, el interés personal y la clase económica. Esto sugiere “que los sistemas generalmente reconocen el discurso de odio dirigido a clases protegidas tradicionales más fácilmente que el contenido dirigido a otros grupos”, escriben los autores.

Los modelos manejan oraciones neutrales y positivas de manera diferente

Una minoría de las 1.3 millones de oraciones sintéticas fue neutral o positiva para evaluar la falsa identificación del discurso de odio y cómo los modelos manejaron los términos peyorativos en contextos no odiosos, como “todos (insulto) son grandes personas”.

Los investigadores encontraron que el sistema de clasificación de contenido especializado de soneto de Claude 3.5 y Mistral tratan los insultos como dañinos en todos los ámbitos, mientras que otros sistemas priorizan el contexto y la intención. Los autores dicen que se sorprenden al descubrir que cada modelo cayó constantemente en cualquiera de los campamentos, con un pequeño punto medio.

Más información: Neil Fasching et al, moderación dependiente del modelo: inconsistencias en la detección de discursos de odio en los sistemas basados ​​en LLM, hallazgos de la Asociación de Lingüística Computacional: ACL 2025 (2025). Doi: 10.18653/v1/2025.findings-acl.1144

Proporcionado por la Universidad de Pensilvania

Cita: Openai, Deepseek y Google varían ampliamente en la identificación del discurso de odio (2025, 11 de septiembre) Consultado el 11 de septiembre de 2025 de https://techxplore.com/news/2025-09-openai-deepseek-google-vary-widely.html

Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.

Fuente de noticias