Crédito: dominio público Unsplash/CC0
Los modelos de idiomas grandes, como ChatGPT, funcionan significativamente menos bien en portugués que en inglés a pesar de que ambos idiomas se hablan en todo el mundo. Esta brecha ahora se ha cerrado con “Gigaverbo”. El equipo dirigido por el Dr. Nicholas Kluge Corrêa del Centro de Ciencia y el Pensamiento de la Universidad de Bonn ahora está presentando el proyecto En los patrones del diario. Los investigadores fueron de los primeros en utilizar la nueva supercomputadora “Marvin” en la Universidad de Bonn. Nicholas Kluge Corrêa y su colega Aniket Sen son miembros del área de investigación transdisciplinaria “Futuros sostenibles” en la Universidad de Bonn.
Gigaverbo es el nombre del conjunto de datos desarrollado por los investigadores. El proyecto “Tucano: Avance de la generación de texto neuronal para portugués” tiene como objetivo cerrar la brecha de recursos en el procesamiento de lenguaje natural portugués (PNL) proporcionando conjuntos de datos de alta calidad y modelos de lenguaje de vanguardia diseñados específicamente para el lenguaje portugués.
El desarrollo y el lanzamiento del Corpus Gigaverbo, que comprende 200 mil millones de tokens deduplicados, junto con la familia de modelos Tucano, tiene como objetivo fomentar el progreso en la generación de texto neuronal de una manera abierta y reproducible, promoviendo un acceso equitativo.
Los investigadores recopilaron varios corpus portugueses de diferentes fuentes para garantizar una alta diversidad lingüística y calidad. Estos corpus fueron deduplicados y filtrados para formar el conjunto de datos Gigaverbo. Usando este conjunto de datos, capacitaron a varios modelos de decodificadores en la supercomputadora de Marvin, que siguió a rigurosos ciclos de evaluación y optimización.
El proyecto aborda dos brechas principales: primero, la escasez de recursos integrales de código abierto para portugués, un idioma a menudo eclipsado por idiomas ricos en recursos como el inglés. En segundo lugar, la deficiencia en el desarrollo de LLM de código abierto, que impide la reproducibilidad científica de estos modelos.
Los investigadores están trabajando actualmente para ampliar sus desarrollos en portugués mejorando su conjunto de datos y capacitando modelos más grandes. Actualmente también están desarrollando recursos para otros idiomas de baja recursos, como bengalí e hindi, todo gracias a Marvin y la Universidad de Bonn.
Más información: Nicholas Kluge Corrêa et al, Tucano: Avance de la generación de texto neuronal para portugueses, patrones (2025). Doi: 10.1016/j. Patter.2025.101325
Proporcionado por la Universidad de Bonn
Cita: Nuevos conjuntos de datos y modelos Boost Portuguese Language AI Performance para igualar el inglés (2025, 23 de julio) Recuperado el 23 de julio de 2025 de https://techxplore.com/news/2025-07-dataset-boost-portuguese-language-ai.html
Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.