Descripción general de incluir. Crédito: ARXIV (2024). Doi: 10.48550/arxiv.2411.19799
Imagine preguntarle a un bot de conversación como Claude o Chatgpt una pregunta legal en griego sobre las regulaciones de tráfico locales. En cuestión de segundos, responde en griego fluido con una respuesta basada en la ley del Reino Unido. El modelo entendía el idioma, pero no la jurisdicción. Este tipo de fracaso ilustra la incapacidad de los modelos de idiomas grandes (LLM) para comprender el conocimiento regional, cultural y, en este caso, legal, al mismo tiempo que es competente en muchos de los idiomas del mundo.
Incluye los equipos del laboratorio de procesamiento del lenguaje natural de EPFL, los laboratorios y los colaboradores en todo el mundo. Esta herramienta representa un paso significativo hacia una IA más en sintonía con los contextos locales.
El punto de referencia permite a uno evaluar si un LLM no solo es preciso en un idioma dado, sino que también es capaz de integrar la cultura y las realidades socioculturales asociadas con ella. Este enfoque se alinea con los objetivos de la iniciativa suiza de IA para crear modelos que reflejen los idiomas y valores suizos. El estudio se publica en el servidor ARXIV preimpresión.
“Para ser relevantes y identificables, los LLM necesitan conocer los matices culturales y regionales. No se trata solo del conocimiento global; se trata de satisfacer las necesidades del usuario donde están”, dice Angelika Romou, asistente doctoral en el Laboratorio NLP, EPFL y el primer autor de The Benchmark.
Un punto ciego en la IA multilingüe
Los LLM como GPT-4 y LLAMA-3 han hecho avances impresionantes para generar y comprender el texto en docenas de idiomas. Sin embargo, a menudo muestran los malos resultados incluso en idiomas ampliamente hablados como Urdu o Punjabi, la razón es la falta de suficientes datos de entrenamiento de alta calidad.
La mayoría de los puntos de referencia existentes para evaluar LLM son solo en inglés o traducidos del inglés, introduciendo sesgo y distorsión cultural. Los puntos de referencia traducidos a menudo sufren problemas como errores de traducción o frases antinaturales, comúnmente conocidos como “tradacciones”. Además, la mayoría de los puntos de referencia existentes conservan un sesgo cultural centrado en el oeste, sin reflejar las características lingüísticas y regionales únicas del lenguaje objetivo.
Incluir adopta un enfoque diferente. En lugar de confiar en las traducciones, el equipo reunió más de 197,000 preguntas de opción múltiple de exámenes académicos, profesionales y ocupacionales locales.
Todas las preguntas fueron escritas de forma nativa en 44 idiomas y 15 scripts. Trabajaron directamente con hablantes nativos, con exámenes reales provenientes de varias instituciones auténticas, que cubren todo, desde literatura y derecho hasta medicina y licencias marinas.
El punto de referencia captura tanto el conocimiento regional explícito (como las leyes locales) como las señales culturales implícitas (como las normas sociales o las perspectivas históricas). En las pruebas, los modelos se desempeñaron consistentemente en la historia regional que en la historia del mundo general, incluso dentro del mismo idioma. En otras palabras, la IA aún no entiende el contexto local.
“Por ejemplo, cuando se le pregunta qué tipo de atuendo tradicional se usa en la India, consistentemente obtendrá sari como respuesta, en todos los idiomas. Sin embargo, cuando se le pregunta ‘¿por qué Alexander el Gran Persépolis en 330 a. C.
“Una narrativa alineada persa podría verla como una falta de respeto a la cultura y la sociedad persa, mientras que una narrativa alineada griega podría describirla como venganza por la invasión persa de Grecia por Xerxes. Tales interpretaciones cargadas culturalmente plantean desafíos reales para AI”, dice el Forroutan, Forroutan, Doctoral del NLP del Laboratorio de NLP y el Co-Explab de Benchmark.
Resultados mixtos para modelos actuales
El equipo de investigación evaluó modelos principales como GPT-4O, LLAMA-3 y AYA-Exexanse y evaluó el rendimiento por tema dentro de los idiomas. GPT-4O funciona mejor en general, con una precisión promedio de alrededor del 77% en todos los dominios.
Si bien las modelos tuvieron un buen desempeño en francés y español, lucharon en idiomas como armenio, griego y urdu, especialmente en temas fundamentales culturales o profesionalmente. A menudo, incorporaron supuestos occidentales o produjeron respuestas seguras pero incorrectas.
Hacia AI más inclusivo
Incluya va más allá de un simple punto de referencia técnico. A medida que los sistemas de IA se utilizan cada vez más en educación, atención médica, gobernanza y derecho, la comprensión regional se vuelve primordial. “Con la democratización de la IA, estos modelos deben adaptarse a las cosmovisiones y las realidades vividas de diferentes comunidades”, dice Antoine Bosselut, jefe del Laboratorio de Procesamiento de Lenguas Naturales.
Lanzado públicamente y ya adoptado por algunos de los proveedores de LLM más grandes, incluyen una herramienta práctica para repensar cómo evaluamos y capacitamos a los modelos de IA con más justicia e inclusión. Y el equipo ya está trabajando en una nueva versión del punto de referencia, expandiéndose a alrededor de 100 idiomas. Esto incluye variedades regionales como Bélgica, francés canadiense y suizo, y idiomas subrepresentados de África y América Latina.
Con una adopción más amplia, los puntos de referencia como incluir podrían ayudar a dar forma a los estándares internacionales, e incluso a los marcos regulatorios, para la IA responsable. También allanan el camino para modelos especializados en dominios críticos como la medicina, la ley y la educación, donde la comprensión del contexto local es esencial.
Más información: Angelika Romou et al, incluyen: Evaluación de la comprensión del lenguaje multilingüe con el conocimiento regional, ARXIV (2024). Doi: 10.48550/arxiv.2411.19799
Información en la revista: ARXIV proporcionado por Ecole Polytechnique Federal de Lausanne
Cita: Más allá de la traducción: el punto de referencia multilingüe hace que la IA multicultural (2025, 2 de junio) recuperó el 2 de junio de 2025 de https://techxplore.com/news/2025-06-multilingual-benchmark-ai-multicultural.html
Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.









