Tecnología

Los sistemas de IA se basan en inglés, pero no del tipo que la mayoría del mundo habla

Crédito: Reihaneh Golpayegani / Mejores Imágenes de AI, CC por

Se estima que el 90% de los datos de capacitación para los sistemas de IA generativos actuales provienen del inglés. Sin embargo, el inglés es una lengua franca internacional con aproximadamente 1.500 millones de hablantes en todo el mundo e innumerables variedades.

Entonces, ¿en qué inglés se basa en la tecnología de hoy? La respuesta es principalmente el inglés de la corriente principal.

Esto no es accidente. El inglés estadounidense convencional está arraigado en la infraestructura digital de Internet, en las prioridades corporativas de Silicon Valley y en los conjuntos de datos que alimentan todo, desde texto sintético generado por autocorrección hasta AI.

La consecuencia? Los modelos AI producen una versión monolítica del inglés que borra la variación, excluye voces minoritizadas y regionales, y refuerza la dinámica de potencia desigual.

La hegemonía del inglés americano convencional

La proliferación del inglés americano en línea es el resultado de factores históricos, económicos y tecnológicos. Estados Unidos ha sido una fuerza dominante en el desarrollo de Internet, la creación de contenido y el surgimiento de gigantes tecnológicos como Google, Meta, Microsoft y OpenAI.

Como era de esperar, las normas lingüísticas integradas en los productos por parte de estas compañías son abrumadoramente convencionales estadounidenses.

Un estudio reciente encontró que los hablantes de inglés no convencional estaban frustrados con la “homogeneidad de los acentos de IA” en las tecnologías de clonación de voz y generación del habla. Un participante señaló los acentos estadounidenses principales predominantes en las voces disponibles, afirmando que las tecnologías se habían construido “con otras personas en mente”.

Las variedades principales de inglés han reinado durante mucho tiempo como el “estándar” contra el cual se pesan otras variedades.

Para tomar un solo ejemplo de los EE. UU., La investigación de lingüística de John Baugh descubrió que el uso de diferentes acentos puede determinar el acceso de las personas a los bienes y servicios. Cuando Baugh llamó a diferentes propietarios sobre viviendas anunciadas en el periódico local, el uso de un acento convencional le adquirió varias inspecciones de viviendas mientras usaba acentos afroamericanos y latinos no lo hicieron.

El prestigio del inglés convencional también sustenta las decisiones algorítmicas. Los modelos detrás de las herramientas como la autocorrección, la voz a texto o incluso los asistentes de escritura de IA se capacitan con mayor frecuencia en datos principales centrados en los Estados Unidos. Esto a menudo se raspa de la web, donde dominan los medios, foros y plataformas con sede en los Estados Unidos.

Esto significa que las variaciones en la gramática, la sintaxis y el vocabulario de otras variedades de inglés son ignoradas, malinterpretadas o directamente “corregidas”.

¿De quién es el inglés que se percibe como valor agregado?

Las apuestas de este sesgo lingüístico a favor del inglés convencional se vuelven aún más altos cuando los sistemas de IA se implementan en todo el mundo.

Si un tutor de IA no entiende una construcción inglesa nigeriana, ¿quién tiene el costo? Si una solicitud de empleo escrita en inglés indio está marcada por un escáner de currículum a IA, ¿cuáles son las consecuencias? Si la historia oral de un élder de las Primeras Naciones australianas se transcribe por el software de reconocimiento de voz y el sistema no puede capturar términos culturalmente significativos, ¿qué conocimiento se pierde o se tergiversa?

Estas preguntas se desarrollan en tiempo real a medida que los gobiernos, las instituciones educativas y las corporaciones adoptan tecnologías de IA a escala.

Inglés, no inglés

La idea de que hay un inglés “bueno” o “correcto” es un mito. El inglés se habla en diversas formas en todas las regiones, conformado por sociedades locales, culturas, historias e identidades.

Como el escritor y educador de Noongar Glenys Collard y yo hemos escrito, el inglés aborigen tiene “su propia estructura, reglas y el mismo potencial que cualquier otra variedad lingüística” y lo mismo es cierto para otras formas de inglés.

El inglés indio, por ejemplo, tiene innovaciones léxicas como “preparación” (lo contrario de posponentes). El inglés de Singapur (Singlish) integra partículas y características sintácticas de Malay, Hokkien y Tamil.

Estas no son formas “rotas” de inglés. Cada comunidad donde se impuso el inglés ha hecho que el inglés sea suyo.

El inglés y el idioma en general, nunca es estático. Se adapta para satisfacer las necesidades de una sociedad en constante cambio y sus oradores.

Sin embargo, en el desarrollo de la IA, esta diversidad lingüística a menudo se trata como ruido en lugar de señal. Las variedades no estandarizadas están subrepresentadas en conjuntos de datos de capacitación, excluidas de los esquemas de anotación y rara vez aparecen en los puntos de referencia de evaluación.

Esto da como resultado un ecosistema de IA que es multilingüe en teoría, pero monolingüe en la práctica.

Hacia la justicia lingüística en AI

Entonces, ¿cómo se vería construir sistemas de IA que reconozcan y respeten una variedad de diferentes formas de inglés?

Se requiere un cambio en la mentalidad, desde la prescripción de un lenguaje “correcto” hasta incluir muchas variedades de lenguaje. Lo que necesitamos son sistemas que acomoden la variación lingüística.

Esto puede implicar apoyar los esfuerzos dirigidos por la comunidad para documentar y digitalizar variedades lingüísticas en sus propios términos, teniendo en cuenta que no todas las variedades lingüísticas deben ser digitalizadas o documentadas.

La colaboración en todas las disciplinas también es importante. Requiere lingüistas, tecnólogos, educadores y líderes comunitarios que trabajan juntos para garantizar que el desarrollo de la IA se basa en principios de justicia lingüística.

El objetivo no es “arreglar” el lenguaje, sino crear tecnología que produzca solo resultados. El enfoque debe estar en cambiar la tecnología, no el altavoz.

Abrazando los ingleses

El inglés ha sido un poderoso vehículo de Empire, pero también ha sido una herramienta de resistencia, creatividad y solidaridad. En todo el mundo, los hablantes han tomado el idioma y lo han hecho suyo. Los sistemas habilitados para AI deben construirse para ser lo más inclusivo de esta variabilidad posible.

Entonces, la próxima vez que su teléfono le diga que “corrija” su ortografía, o un chatbot de IA malinterpreta su fraseo, pregúntese: ¿de quién está tratando de modelar? ¿Y qué inglés se está dejando fuera?

Proporcionado por la conversación

Este artículo se vuelve a publicar de la conversación bajo una licencia Creative Commons. Lea el artículo original.

Cita: los sistemas de IA se basan en inglés, pero no es del tipo que la mayoría del mundo habla (2025, 6 de mayo) recuperados el 6 de mayo de 2025 de https://techxplore.com/news/2025-05-ai-built-inglish-kind-world.html

Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.

Back to top button