Crédito: dominio público Unsplash/CC0
Los investigadores de EPFL han creado un modelo matemático que ayuda a explicar cómo romper el lenguaje en secuencias hace que los chatbots modernos similares a la IA sean tan buenos para comprender y usar palabras. El trabajo es publicado En la revista Physical Review X.
No hay duda de que la tecnología de IA está dominando nuestro mundo hoy. El progreso parece estar moviéndose en saltos y límites, especialmente centrado en modelos de idiomas grandes (LLM) como ChatGPT.
Pero, ¿cómo funcionan? Los LLM están formados por redes neuronales que procesan secuencias largas de “tokens”. Cada token es típicamente una palabra o parte de una palabra y está representada por una lista de cientos o miles de números, lo que los investigadores llaman un “vector de alta dimensión”. Esta lista captura el significado de la palabra y cómo se usa.
Por ejemplo, la palabra “gato” podría convertirse en una lista como (0.15, -0.22, 0.47, …, 0.09), mientras que el “perro” está codificado de manera similar pero con sus propios números únicos. Las palabras con significados similares obtienen listas similares, por lo que el LLM puede reconocer que el “gato” y el “perro” son más parecidos que “gato” y “plátano”.
Una caja negra, incluso para expertos
Procesar el lenguaje como secuencias de estos vectores es claramente efectivo, pero, irónicamente, realmente no entendemos por qué. Los modelos matemáticos simples para secuencias largas de estos tokens de alta dimensión todavía están en su mayoría inexplorados.
Esto deja una brecha en nuestra comprensión: ¿por qué este enfoque funciona tan bien y qué lo hace fundamentalmente diferente de los métodos más antiguos? ¿Por qué es mejor presentar datos a las redes neuronales como secuencias de tokens de alta dimensión en lugar de como una sola lista de números? Si bien la IA de hoy puede escribir historias o responder preguntas de manera impresionante, el funcionamiento interno que lo hacen posible sigue siendo una caja negra, incluso para expertos.
Ahora, un equipo de científicos dirigido por Lenka Zdeborová en EPFL ha construido el modelo matemático más simple posible que aún captura el corazón de aprender de los tokens como lo hacen los LLM.
Su modelo, llamado regresión de secuencia bilineal (BSR), elimina la complejidad de la IA del mundo real, pero mantiene parte de su estructura esencial y actúa como un “patio teórico” para estudiar cómo los modelos de IA aprenden de las secuencias.
¿Cómo funciona BSR? Imagine una oración en la que puede convertir cada palabra en una lista de números que capturan su significado, al igual que los LLM. Usted alinea estas listas en una tabla, con una fila por palabra. Esta tabla realiza un seguimiento de toda la secuencia y todos los detalles empacados en cada palabra.
Un claro punto de referencia matemático
En lugar de procesar toda la información a la vez, como los modelos de IA más antiguos, BSR mira las filas de la tabla de una manera y en la columna de otra. Luego, el modelo utiliza esta información para predecir un solo resultado, como el sentimiento de la oración.
El poder de BSR es que es lo suficientemente simple como para resolverse completamente con las matemáticas. Esto permite a los investigadores ver exactamente cuándo el aprendizaje basado en secuencias comienza a funcionar y cuántos datos se necesitan para que un modelo aprenda de manera confiable de los patrones en secuencias.
BSR arroja luz sobre por qué obtenemos mejores resultados utilizando una secuencia de incrustaciones en lugar de aplanar todos los datos en un gran vector. El modelo reveló umbrales agudos donde el aprendizaje salta de inútil a efectivo una vez que “ve” suficientes ejemplos.
Esta investigación ofrece una nueva lente para comprender el funcionamiento interno de los grandes modelos de idiomas. Al resolver exactamente BSR, el equipo proporciona un punto de referencia matemático claro que da un paso hacia una teoría que puede guiar el diseño de futuros sistemas de IA.
Estas ideas podrían ayudar a los científicos a construir modelos que sean más simples, más eficientes y posiblemente más transparentes.
Más información: Vittorio Erba et al, regresión de secuencia bilineal: un modelo para aprender de secuencias largas de tokens de alta dimensión, revisión física x (2025). Dos: 10.1103/l4p2-vrxt
Proporcionado por Ecole Polytechnique Federal de Lausanne
Cita: el modelo de regresión de secuencia bilineal muestra por qué AI se destaca en el aprendizaje de las secuencias de palabras (2025, 20 de junio) recuperado el 20 de junio de 2025 de https://techxplore.com/news/2025-06-bilineal-shence-regression-ai-excels.html
Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.








