Home Tecnología El nuevo modelo de idioma de código abierto ofrece soporte multilingüe y...

Tecnología

El nuevo modelo de idioma de código abierto ofrece soporte multilingüe y transparencia pública

10 julio 2025

Crédito: imagen generada por IA

Este verano, EPFL y ETH Zurich lanzarán un modelo de lenguaje grande (LLM) desarrollado en infraestructura pública. Entrenado en la supercomputadora Alps en el Centro Nacional de Supercomputación Swiss (CSCS), el nuevo LLM marca un hito en IA de código abierto y excelencia multilingüe.

A principios de esta semana, en Ginebra, alrededor de 50 iniciativas y organizaciones globales líderes dedicadas a LLM de código abierto y una IA confiable convocada en la Cumbre Internacional de Constructores LLM de código abierto. Organizado por los Centros AI de EPFL y ETH Zurich, el evento marcó un paso significativo en la construcción de un ecosistema internacional vibrante y colaborativo para modelos de base abierta. Los LLM abiertos se ven cada vez más como alternativas creíbles a los sistemas comerciales, la mayoría de las cuales se desarrollan a puerta cerrada en los Estados Unidos o China.

Los participantes de la cumbre previsaron el próximo lanzamiento de un LLM completamente abierto y desarrollado públicamente, creado por investigadores de EPFL, ETH Zurich y otras universidades suizas en estrecha colaboración con ingenieros en CSCS. Actualmente en las pruebas finales, el modelo se puede descargar bajo una licencia abierta. El modelo se centra en la transparencia, el rendimiento multilingüe y la amplia accesibilidad.

El modelo estará completamente abierto: el código fuente y los pesos estarán disponibles públicamente, y los datos de capacitación serán transparentes y reproducibles, apoyando la adopción entre la ciencia, el gobierno, la educación y el sector privado. Este enfoque está diseñado para fomentar tanto la innovación como la responsabilidad.

“Los modelos completamente abiertos permiten aplicaciones de alto ajuste y son necesarios para avanzar en la investigación sobre los riesgos y las oportunidades de la IA. Los procesos transparentes también permiten el cumplimiento regulatorio”, dice Imanol Schlag, científico de investigación del Centro ETH AI, que lidera el esfuerzo junto a los miembros del profesorado de la EPFL AI y los profesores Antoine Bosselut y Margagi.

Multilingüe por diseño

Una característica definitoria de la LLM es su fluidez en más de 1,000 idiomas. “Hemos enfatizado hacer que los modelos sean multilingües enormemente desde el principio”, dice Bosselut.

La capacitación del modelo base se realizó en un gran conjunto de datos de texto en más de 1,500 idiomas, aproximadamente 60% de inglés y 40% de idiomas no ingleses, así como datos de código y matemáticas. Dada la representación del contenido de todos los idiomas y culturas, el modelo resultante mantiene la mayor aplicabilidad global.

El modelo se lanzará en dos tamaños: 8 mil millones y 70 mil millones de parámetros, cumpliendo con una amplia gama de necesidades de los usuarios. La versión 70B se ubicará entre los modelos totalmente abiertos más poderosos en todo el mundo. El número de parámetros refleja la capacidad de un modelo para aprender y generar respuestas complejas.

La alta confiabilidad se logra mediante la capacitación en más de 15 billones de tokens de entrenamiento de alta calidad (unidades que representan una palabra o parte de la palabra), lo que permite una comprensión de lenguaje robusto y casos de uso versátiles.

El LLM se está desarrollando con la debida consideración a las leyes de protección de datos suizos, las leyes suizas de derechos de autor y las obligaciones de transparencia bajo la Ley de AI de la UE. En estudio reciente Publicado en el servidor de preimpresión ARXIV, los líderes del proyecto demostraron que para la mayoría de las tareas cotidianas y la adquisición general de conocimiento, respetando las opciones de recorte de la web durante la adquisición de datos, prácticamente no produce una degradación del rendimiento.

Supercomputador como facilitador de AI soberano

El modelo está entrenado en la supercomputadora Alps en CSCS en Lugano, una de las plataformas AI más avanzadas del mundo, equipadas con más de 10,000 superchips de Hopper de Grace Nvidia. La escala y la arquitectura del sistema permitieron entrenar el modelo de manera eficiente utilizando electricidad al 100% de carbono neutral.

La realización exitosa de los Alpes se facilitó significativamente por una colaboración de larga data que abarca más de 15 años con NVIDIA y HPE/Cray. Esta asociación ha sido fundamental en la configuración de las capacidades de los Alpes, asegurando que cumpla con los requisitos exigentes de las cargas de trabajo de IA a gran escala, incluida la capacitación previa de LLM complejos.

“Capacitar a este modelo solo es posible debido a nuestra inversión estratégica en Alpes, una supercomputadora diseñada especialmente para la IA”, dice Thomas Schulthess, director de CSC y profesor de ETH Zurich. “Nuestra colaboración duradera con NVIDIA y HPE ejemplifica cómo los esfuerzos conjuntos entre las instituciones de investigación pública y los líderes de la industria pueden impulsar la infraestructura soberana, fomentando la innovación abierta, no solo para Suiza, sino para la ciencia y la sociedad en todo el mundo”.

Acceso público y reutilización global

A fines del verano, el LLM se lanzará bajo la licencia Apache 2.0. La documentación acompañante detallará la arquitectura del modelo, los métodos de capacitación y las pautas de uso para permitir la reutilización transparente y un mayor desarrollo.

“Como científicos de las instituciones públicas, nuestro objetivo es avanzar en los modelos abiertos y permitir a las organizaciones construirlos sobre ellos para sus propias aplicaciones”, dice Bosselut.

“Al adoptar la apertura total, a diferencia de los modelos comerciales que se desarrollan a puerta cerrada, esperamos que nuestro enfoque impulse la innovación en Suiza, en toda Europa y a través de colaboraciones multinacionales. Además, es un factor clave para atraer y fomentar el máximo talento”, dice el profesor de EPFL Jaggi.

Más información: Dongyang Fan et al, ¿pueden ser éticos? Cuantificando el impacto de las opciones de rastreo web, ARXIV (2025). Doi: 10.48550/arxiv.2504.06219

Información en el diario: ARXIV

Proporcionado por Ecole Polytechnique Federal de Lausanne

Cita: El nuevo modelo de idioma de código abierto ofrece soporte multilingüe y transparencia pública (2025, 9 de julio) Consultado el 10 de julio de 2025 de https://techxplore.com/news/2025-07-source-language-multilingüe-transparency.html

Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.

Fuente de noticias

El nuevo modelo de idioma de código abierto ofrece soporte multilingüe y transparencia pública

Multilingüe por diseño

Supercomputador como facilitador de AI soberano

Acceso público y reutilización global

Entradas recientes

Schwarzenegger: Si eres un inmigrante en los Estados Unidos, debes ‘comportarse...

Hombre de Aurora sospechoso en 3 asesinatos durante un tramo de...

El nombre del héroe de la guerra de Wallaby para vivir...

Nederland comprará la estación de esquí Eldora, anunció la ciudad en...

Rusia vs Guerra de Ucrania: Trump para enviar armas estadounidenses poderosas...

El adolescente de Man Utd quería en Europa, ya que Ruben...

Categorías