Home Tecnología Cómo AI está dejando atrás a los que no hablan inglés

Cómo AI está dejando atrás a los que no hablan inglés

74
0

Crédito: Universidad de Stanford

Una nueva investigación explora las comunidades y culturas que se excluyen de las herramientas de inteligencia artificial, lo que lleva a oportunidades perdidas y mayores riesgos por sesgo y desinformación.

Los académicos encuentran que los modelos de idiomas grandes sufren una división digital: los chatgpts y geminis del mundo funcionan bien para los 1.52 mil millones de personas que hablan inglés, pero tienen un rendimiento inferior para los 97 millones de hablantes vietnamitas del mundo, y aún peor para los 1.5 millones de personas que hablan el idioma uto-aztecan.

El principal culpable son los datos: estos idiomas que no son ingleses carecen de la cantidad y calidad de datos necesarias para construir y capacitar modelos efectivos. Eso significa que la mayoría de los LLM principales están predominantemente capacitados utilizando datos de inglés (u otros idiomas de alta recursos) o datos de idioma local de baja calidad y no están sintonizados con el resto de los contextos y culturas del mundo.

El impacto? No solo los inconvenientes, sino la exclusión sistemática. Las culturas y comunidades enteras se están quedando fuera de la revolución de la IA, corren el riesgo de ser perjudicados por la información y el sesgo desalentados generados por la IA, y pierden oportunidades económicas y educativas cruciales que los hablantes de inglés ganan a través de una tecnología efectiva.

En esta conversación, el profesor asistente de la Escuela de Ingeniería de Stanford, Sanmi Koyejo, autor principal de un nuevo documento blanco de política sobre este tema, analiza los riesgos de esta división y, lo que es más importante, lo que los desarrolladores pueden hacer para cerrarlo.

¿Cuáles son los idiomas de baja recursos y por qué es tan difícil hacer que los LLM funcionen bien para ellos?

Los idiomas de baja recursos son idiomas con cantidades limitadas de datos legibles por computadora sobre ellos. Eso podría significar pocos hablantes de un idioma, o idiomas donde hay hablantes, pero no muchos datos de idiomas digitalizados, o idiomas donde puede haber hablantes y datos digitales, pero no los recursos para participar en trabajos computacionales en torno a los datos. Por ejemplo, Swahili tiene 200 millones de altavoces, pero carece de suficientes recursos digitalizados para que los modelos de IA aprendan, mientras que un lenguaje como Welsh, con menos oradores, beneficia de una amplia documentación y esfuerzos de preservación digital.

Todo el aprendizaje automático depende en gran medida de los datos como recurso. Consistentemente encontramos que los modelos funcionan realmente bien cuando las tareas que se les pide que resuelvan son similares a sus datos de entrenamiento, y lo hacen mal a medida que están los datos. Debido a que los idiomas de baja recursos tienen menos datos, los modelos funcionan mal en estos idiomas.

¿Por qué esta división digital es importante?

Los modelos de IA, los modelos de idiomas en particular, tienen cada vez más impacto en el mundo; Le dan a las personas el potencial de oportunidades económicas, para construir negocios o resolver problemas empresariales o individuales. Si tenemos tecnología lingüística que no funciona para las personas en el idioma que hablan, esas comunidades no ven el aumento de la tecnología que otras personas podrían tener.

Por ejemplo, hay muchas promesas en los modelos de IA y la prestación de atención médica: obtener preguntas de diagnóstico o preguntas de apoyo clínico. Existen suposiciones de que estos modelos tendrán beneficios significativos en la salud social, impactos a largo plazo en el bienestar de las personas y los posibles impactos económicos para las grandes comunidades.

Pero todos estos supuestos se rompen si las personas no pueden participar en la tecnología porque el lenguaje no es uno que entiendan. En regiones donde la atención médica universal sigue siendo un desafío, las herramientas de diagnóstico con IA que solo funcionan en inglés crean una nueva capa de desigualdad de atención médica.

Anticipamos que estos huecos se harán más grandes. Piense en la ciudadanía global o la capacidad de involucrarse entre las empresas, en las culturas. Esto podría ser una palanca para el desarrollo económico o para la promoción de los derechos individuales o grupales. Estas cosas podrían ser más difíciles para las personas que no tienen acceso a herramientas de IA en sus idiomas.

Otra brecha de creciente potencial está en el empleo. A medida que la IA transforma los lugares de trabajo a nivel mundial, los trabajadores con fluidez en inglés avanzarán, mientras que otros enfrentan barreras tecnológicas para el empleo, ampliando la desigualdad económica.

¿Qué enfoques están tomando los desarrolladores para hacer que los LLM funcionen mejor para idiomas de baja recursos?

Veo algunas técnicas para cerrar esta brecha. Una forma en que estas técnicas difieren es en el tamaño del modelo. Los tecnólogos pueden entrenar modelos muy grandes que capturan muchos idiomas al mismo tiempo; Pueden entrenar modelos más pequeños que están vinculados a idiomas muy específicos; O hay una mezcla entre los dos: modelos regionales de tamaño mediano que capturan un grupo de idiomas semánticamente similar.

Tenemos la teoría técnica y la práctica observada que sugiere que puede mejorar el rendimiento más rápido si los modelos pueden compartir información en diferentes idiomas. Por ejemplo, todos los idiomas latinos comparten palabras, frases y estructura lingüística. El idioma particular puede ser muy diferente, pero en realidad hay muchas cosas que uno puede transmitir con, por ejemplo, español e italiano. Así como los humanos bilingües aprenden nuevos idiomas más rápido al reconocer los patrones, los modelos de IA pueden aprovechar las similitudes entre español y portugués para mejorar el rendimiento en ambos.

Las personas también están tratando de usar la traducción automática como una forma de llenar el vacío. La desventaja es la propagación de errores: cualquier cosa complicada es difícil de traducir. De hecho, en un artículo escribimos recientemente estudiando modelos y el idioma vietnamita, descubrimos que muchas líneas de base habían usado la traducción automática, y fallaban a menudo porque las frases eran altamente antinaturales para los vietnamitas. Palabra por palabra, tenían sentido, pero era culturalmente completamente incorrecto. La traducción es escalable, pero no captura los matices de la forma en que se habla y escribe el lenguaje. Debido a esto, creo que la traducción puede ser una buena bootstrap, pero es poco probable que resuelva el problema.

Otra forma de resolver esto es obtener más datos sobre estos idiomas de las comunidades. Ese es en realidad un problema desafiante. Hay una larga historia de personas en paracaídas en diferentes comunidades y tomando datos sin ningún beneficio para la comunidad local. Algunas comunidades están desarrollando nuevos modelos de licencias de datos donde los contribuyentes del lenguaje mantienen los derechos de sus datos al tiempo que permiten el desarrollo de la IA, asegurando tanto el avance tecnológico como la soberanía cultural. Otras comunidades deciden construir sus propios modelos. Puede ser un problema social profundamente político; El uso de datos a menudo puede pasar a la explotación cuando no tenemos cuidado.

¿Cuál es la más prometedora de estas soluciones?

La respuesta honesta es que no lo sabemos. Mi mejor sentido en este momento es que la respuesta depende del contexto. Lo que quiero decir es, ¿cuáles son los propósitos para el modelo y cuál es el panorama social y político en el que estamos construyendo? En algunos casos, esto importará más que los aspectos técnicos. Piense en la preservación del idioma, cuando hay tan pocos hablantes que un idioma puede extinguirse. Para aquellos, existe un argumento de que un modelo separado solo para ese contexto es más productivo.

Mientras tanto, una empresa puede querer un modelo a gran escala para las economías de escala. Esa empresa puede preocuparse por la gobernanza del modelo, ¿cómo mantiene todos los modelos actualizados? Esto es mucho más fácil si es un gran modelo que debe mantener, en lugar de cientos de modelos en todos los idiomas.

En este momento, creo que las decisiones están formadas por factores distintos al rendimiento. Sin embargo, destacaré que necesitamos más enfoques de evaluación especializados para idiomas de baja recursos que van más allá de las medidas de rendimiento centradas en el inglés.

El lenguaje no es el único desafío aquí. Los valores culturales están imbuidos en LLM. ¿Importa?

Hace una tonelada. Sabemos que los modelos fuera de la caja a menudo no capturan los valores culturales adecuadamente. A veces es la frase incómoda que mencioné antes. Hay mucha traducción automática antigua que proviene de fuentes bien estructuradas como reuniones políticas. Esto tiene un efecto fascinante porque es una versión muy especial del lenguaje de las audiencias del Congreso o algo similar, que es muy diferente de un estilo de conversación y extremadamente incómodo cuando se aplica fuera de la caja. No están capturando cómo habla la gente.

Hay otros casos en los que esta brecha cultural puede ser más grande. Ha habido una excelente investigación que muestra que muchos modelos de idiomas recogen valores que coinciden con el lenguaje en el que han sido entrenados. Mi colega Tatsu Hashimoto le pidió a los modelos de idiomas que respondiera a las encuestas de banco para ver con qué perspectivas políticas se alinean, y demostró que muchos de los modelos terminaron alineándose bastante con las perspectivas políticas de California.

Eso tiene sentido cuando pensamos en quién está entrenando los modelos y qué están recogiendo. Diyi Yang ha hecho un excelente trabajo observando cómo funcionan los modelos de idiomas con los dialectos del inglés, lo que demuestra que pueden ser sistemáticamente incorrectos para, por ejemplo, dialectos afroamericanos del inglés.

Los modelos lingüísticos, cuando no están diseñados cuidadosamente, corren el riesgo de colapsar el lenguaje rico y la diversidad cultural en una gran blob, a menudo una gota de cultura centrada en los Estados Unidos. Podría decirse que mucha cultura es moldeada por la tecnología. La forma en que las personas piensan sobre los problemas y la forma en que piensan sobre la cultura a menudo se moldeará por la forma en que se involucran con la tecnología.

Muchos líderes culturales en todo el mundo están preocupados por el borrado de su cultura, cuanto más se convierten en un modo de tecnología dominante. Sin embargo, el Libro Blanco sugiere inversiones estratégicas, investigación participativa y marcos equitativos de propiedad de datos como recomendaciones específicas para las partes interesadas en el futuro.

Más información: Mind the (Language) Gap: Mapeo de los desafíos del desarrollo de LLM en contextos de lenguaje de baja recursos. hai -production.s3.amazonaws.co … The Language-Gap.pdf

Proporcionado por la Universidad de Stanford

Cita: Cómo la IA está dejando a los que no hablan inglés (2025, 22 de mayo) recuperado el 22 de mayo de 2025 de https://techxplore.com/news/2025-05-ai-inglish-speakers.html

Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.