Crédito: Dominio público de Pixabay/CC0
En 2018, mi compañero de trabajo australiano me preguntó: “Oye, ¿cómo vas?” Mi respuesta, “Estoy tomando un autobús”, se encontró con una sonrisa. Recientemente me había mudado a Australia. A pesar de estudiar inglés durante más de 20 años, me tomó un tiempo familiarizarme con la variedad australiana del idioma.
Resulta que los modelos de idiomas grandes impulsados por la inteligencia artificial (AI), como ChatGPT, experimentan un problema similar.
En una nueva investigación, publicado En los “Hallazgos de la Asociación para la Lingüística Computacional 2025”, mis colegas y yo presentamos una nueva herramienta para evaluar la capacidad de diferentes modelos de idiomas grandes para detectar sentimientos y sarcasmo en tres variedades de inglés: inglés australiano, inglés indio e inglés británico.
Los resultados muestran que todavía hay un largo camino por recorrer hasta que todos los beneficios prometidos de la IA sean disfrutados por todos, sin importar el tipo o variedad de lenguaje que hablan.
Inglés limitado
Los modelos de idiomas grandes son a menudo informado para lograr rendimiento superlativo en varios estandarizados conjuntos de tareas conocidas como puntos de referencia.
La mayoría de las pruebas de referencia están escritas en inglés americano estándar. Esto implica que, mientras que los proveedores comerciales venden agresivamente agresivamente modelos de idiomas, se han probado predominantemente y entrenados solo en este tipo de inglés.
Esto tiene consecuencias importantes.
Por ejemplo, En una encuesta recienteEs más probable que mis colegas y yo encontramos modelos de idiomas grandes clasifiquen un texto como odioso si está escrito en la variedad de inglés afroamericano. También a menudo son “predeterminados” al inglés americano estándar, incluso si la entrada está en otras variedades del inglés, como el inglés irlandés e inglés indio.
Para construir sobre esta investigación, construimos Besstie.
¿Qué es Besstie?
Besstie es el primer punto de referencia de su tipo para la clasificación de sentimientos y sarcasmo de tres variedades de inglés: inglés australiano, inglés indio e inglés británico.
Para nuestros propósitos, el “sentimiento” es la característica de la emoción: positivo (¡el australiano “no está mal!”) O negativo (“Odio la película”). El sarcasmo se define como una forma de ironía verbal destinada a expresar desprecio o ridículo (“Me encanta ser ignorado”).
Para construir Besstie, recopilamos dos tipos de datos: revisiones de lugares en Google Maps y Publicaciones de Reddit. Curratamos cuidadosamente los temas y empleamos predictores de variedades de idiomas: modelos AI especializados en la detección de la variedad de lenguaje de un texto. Seleccionamos textos que se predijo que eran mayores del 95% de probabilidad de una variedad de lenguaje específico.
Los dos pasos (filtrado de ubicación y predicción de variedad de idiomas) aseguraron que los datos representan la variedad nacional, como el inglés australiano.
Luego usamos Besstie para evaluar nueve modelos de lenguaje grandes y libremente utilizables, incluidos Roberta, Mobert, Mistral, Gema y Qwen.
Reclamos inflados
En general, encontramos que los grandes modelos de idiomas que probamos funcionaban mejor para el inglés australiano e inglés británico (que son variedades nativas de inglés) que la variedad no nativa de inglés indio.
También encontramos que los modelos de idiomas grandes son mejores para detectar el sentimiento que en el sarcasmo.
El sarcasmo es particularmente desafiante, no solo como un fenómeno lingüístico sino también como un desafío para la IA. Por ejemplo, encontramos que los modelos podían detectar sarcasmo en inglés australiano solo el 62% del tiempo. Este número fue más bajo para el inglés indio e inglés británico, aproximadamente el 57%.
Estas actuaciones son más bajas que las reclamadas por las compañías tecnológicas que desarrollan modelos de idiomas grandes. Por ejemplo, PEGAMENTO es una tabla de clasificación que rastrea qué tan bien funcionan los modelos AI en la clasificación de sentimientos en el texto del inglés americano.
El valor más alto es del 97.5% para el modelo Turing ULR V6 y del 96.7% para Roberta (de nuestro conjunto de modelos), tanto para el inglés americano que nuestras observaciones para el inglés australiano, indio e británico.
El contexto nacional es importante
A medida que más y más personas en todo el mundo usan modelos de idiomas grandes, los investigadores y los profesionales están despertando al hecho de que estas herramientas deben ser evaluadas para un contexto nacional específico.
Por ejemplo, a principios de este año, la Universidad de Australia Occidental junto con Google lanzó un proyecto Para mejorar la eficacia de los grandes modelos de idiomas para el inglés aborigen.
Nuestro punto de referencia ayudará a evaluar futuras técnicas de modelo de lenguaje grande para su capacidad para detectar sentimientos y sarcasmo. Actualmente también estamos trabajando en un proyecto para modelos de idiomas grandes en Departamentos de emergencias de hospitales para ayudar a los pacientes con diferentes competencias del inglés.
Proporcionado por la conversación
Este artículo se republicó de La conversación bajo una licencia Creative Commons. Leer el artículo original.
Cita: ‘¿Estás bromeando, amigo?’ La IA no obtiene sarcasmo en variedades no estadounidenses de inglés (2025, 29 de julio) recuperado el 29 de julio de 2025 de https://techxplore.com/news/2025-07-ai-doesnt-sarcasm-american-varieties.html
Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.