Home Tecnología Cómo la IA multilingüe a menudo refuerza el sesgo

Cómo la IA multilingüe a menudo refuerza el sesgo

48
0

Crédito: imagen generada por IA

Los científicos informáticos de Johns Hopkins han descubierto que las herramientas de inteligencia artificial como ChatGPT están creando una división de lenguaje digital, amplificando el dominio del inglés y otros idiomas comúnmente hablados al tiempo que dejan de lado los idiomas minoritarios.

En lugar de nivelar el campo de juego, las herramientas populares de modelos de idiomas grandes en realidad están construyendo “Cocoons de información”, dicen los investigadores en recomendaciones presentado en el Conferencia anual 2025 del Capítulo de las Naciones de las Américas de la Asociación de Lingüística Computacional a principios de este año.

“Estábamos tratando de preguntar, ¿son realmente multilingües multilingües multilingües? dice el primer autor Nikhil Sharma, Ph.D. Estudiante en el Departamento de Ciencias de la Computación de la Escuela de Ingeniería de Whiting.

Para averiguar, Sharma y su equipo, incluido Kenton Murray, un científico investigador del Centro de Excelencia de Tecnología del Lenguaje Humano, y Ziang Xiao, profesor asistente de Ciencias de la Computación, primero analizó la cobertura de los Israel -Gaza y Rusia -Ukraine Wars e identificó varios tipos de información sobre los artículos de prensa de noticias: Contradicción de las Aseriones, lo que presenta a ciertos documentos, y se identificó, y se presentó a la información similar, y se presentó a la información, y se presentó a los documentos, y se presentó a los Documentos, y se presentó a los Documentos, y se presentó a los Documentos, y se presentó a los Documentos, y se presentó a los Documentos, y se presentó a los Documentos, y se presentó a los Documentos, y se presentó a los Documentos, y se presentó. con perspectivas muy diferentes.

Informado por estos principios de diseño, el equipo creó dos conjuntos de artículos falsos, uno con información “veraz” y otra con información “alternativa” conflictiva. Los documentos presentaban la cobertura de un festival, con diferentes fechas, nombres y estadísticas, y una guerra, que se informó con perspectivas sesgadas. Las piezas fueron escritas en idiomas de alta recursos, como inglés, chino y alemán, así como idiomas de menor recursos, incluidos hindi y árabe.

Luego, el equipo solicitó a LLMS a desarrolladores de renombre como OpenAi, Cohere, Voyage AI y Anthrope para responder varios tipos de consultas, como elegir uno de los dos hechos contradictorios presentados en diferentes idiomas, preguntas más generales sobre el tema en cuestión, consultas sobre hechos que están presentes en un solo artículo y preguntas tópicas con un biegue claro.

Los investigadores encontraron que tanto para recuperar la información de los documentos como para generar una respuesta a la consulta de un usuario, el LLMS prefería la información en el lenguaje de la pregunta en sí.

“Esto significa que si tengo un artículo en inglés que dice alguna figura política india, los llame persona X, es malo, pero tengo un artículo en hindi que dice que la persona X es buena, entonces el modelo me dirá que son malos si pregunto en inglés, pero que son buenos si pregunto en hindi”, explica Sharma.

Luego, los investigadores se preguntaron qué pasaría si no hubiera un artículo en el idioma de la consulta, que es común para los hablantes de idiomas de baja recursos. Los resultados del equipo muestran que LLM generará respuestas basadas en la información que se encuentra solo en idiomas de mayor recursos, ignorando otras perspectivas.

“Por ejemplo, si está preguntando sobre la persona X en sánscrito, un idioma menos común en India, el modelo predeterminado a la información extraída de los artículos en inglés, a pesar de que la persona X es una figura de la India”, dice Sharma.

Además, los informáticos encontraron una tendencia preocupante: el inglés domina. Señalan esto como evidencia del imperialismo lingüístico: cuando la información de los idiomas de mayor recursos se amplifica con mayor frecuencia, potencialmente eclipsando o distorsionando las narraciones de las de baja recursos.

Para resumir los resultados del estudio, Sharma ofrece un escenario hipotético: tres usuarios de ChatGPT preguntan sobre la larga disputa fronteriza de India -China. Un usuario de habla hindi vería respuestas conformadas por fuentes indias, mientras que un usuario de habla china obtendría respuestas que reflejan solo las perspectivas chinas.

“Pero digamos que hay un usuario de habla árabe, y no hay documentos en árabe sobre este conflicto”, dice Sharma. “Ese usuario obtendrá respuestas desde la perspectiva del inglés americano, porque ese es el idioma de mayor recursos que existen. Por lo tanto, los tres usuarios saldrán con una comprensión completamente diferente del conflicto”.

Como resultado, los investigadores etiquetan “Políglocas Faux” multilingües actuales que no rompen las barreras del lenguaje, manteniendo a los usuarios atrapados en burbujas de filtros basadas en el lenguaje.

“La información está expuesta para determinar cómo vota y las decisiones de política que toma”, dice Sharma. “Si queremos cambiar el poder a las personas y permitirles tomar decisiones informadas, necesitamos sistemas de IA capaces de mostrarles toda la verdad con diferentes perspectivas. Esto se vuelve especialmente importante al cubrir información sobre conflictos entre regiones que hablan diferentes idiomas, como las guerras de Israel – Gaza y Rusia -Ukraína, o incluso las tarifas entre China y los Estados Unidos”

Para mitigar esta disparidad de información en LLMS, el equipo de Hopkins planea construir un punto de referencia y conjuntos de datos dinámicos para ayudar a guiar el desarrollo futuro del modelo. Mientras tanto, alienta a la comunidad de investigación más amplia a analizar los efectos de diferentes estrategias de capacitación de modelos, mezclas de datos y arquitecturas de generación de recuperación.

Los investigadores también recomiendan recopilar diversas perspectivas de múltiples idiomas, emitir advertencias a los usuarios que pueden estar cayendo en el comportamiento de respuesta de consulta confirmatoria y desarrollar programas para aumentar la alfabetización informacional en torno a la búsqueda conversacional para reducir la exageración y la excesiva dependencia de los LLM.

“El poder concentrado sobre las tecnologías de IA plantea riesgos sustanciales, ya que permite a algunas personas o empresas manipular el flujo de información, facilitando así la persuasión masiva, disminuyendo la credibilidad de estos sistemas y exacerbando la propagación de la información errónea”, dice Sharma. “Como sociedad, necesitamos que los usuarios obtengan la misma información independientemente de su idioma y antecedentes”.

Más información: Nikhil Sharma et al, Faux Polyglot: Un estudio sobre la disparidad de la información en modelos de lenguaje grande multilingüe, Actas de la Conferencia 2025 de las Naciones de las Naciones de las Américas de la Asociación de Lingüística Computacional: Tecnologías de lenguaje humano (Volumen 1: Documentos largos) (2025). Doi: 10.18653/v1/2025.naacl long.411

Proporcionado por la Universidad Johns Hopkins

Cita: una división de lenguaje digital: cómo la IA multilingüe a menudo refuerza el sesgo (2025, 2 de septiembre) recuperado el 2 de septiembre de 2025 de https://techxplore.com/news/2025-09-digital-language-multilingüe-ai-bias.html

Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.

Fuente de noticias