Crédito: Dominio público de Pixabay/CC0
A medida que los modelos de idiomas grandes (LLM) como ChatGPT continúan avanzando, las expectativas de los usuarios de ellos siguen creciendo, incluso con respecto a qué tan rápido pueden responder a nuestras indicaciones cada vez más intrincadas que solicitan respuestas a problemas y tareas siempre desafiantes.
Los LLM convencionales se basan en el concepto de “decodificación autorregresiva”, donde cada elemento (“token”) en una secuencia se predice en función de las salidas previamente generadas. Este enfoque inevitablemente conduce a retrasos para indicaciones más complicadas, aunque los investigadores han tratado de mitigar esto con proyectos que aprovechan el paralelismo de los chips de computadora multinúcleo de manera más efectiva. Por ejemplo, la decodificación especulativa utiliza un modelo de borrador rápido para proponer tokens que luego se verifican en paralelo por un modelo más lento y de alta calidad.
En cambio, una nueva clase de métodos explota “independencia semántica”, identificando patrones sintácticos como puntos de bala y expandiendo cada uno en paralelo. Pero confían en la heurística sintáctica hecha a mano, que son frágiles y a menudo fallan cuando las respuestas se desvían de los formatos esperados.
Estas deficiencias inspiraron a los investigadores en el Laboratorio de Informática e Inteligencia Artificial del MIT (CSAIL) y Google para utilizar un enfoque basado en el aprendizaje para la decodificación paralela. En lugar de confiar en reglas fijas, su método entrena a LLM para reconocer la independencia semántica, es decir, identificar y decodificar trozos de texto semánticamente independientes en paralelo.
El resultado: pasta.
Específicamente, la anotación de estructura paralela del equipo de CSAIL (PASTA) permite que los LLM generen texto en paralelo, acelerando drásticamente sus tiempos de respuesta. A diferencia de los intentos anteriores que se basaron en reglas rígidas codificadas a mano para identificar segmentos de texto independientes, la pasta enseña a LLM a comprender y expresar inherentemente estas oportunidades de paralelización dentro de sus propias respuestas.
Este enfoque, llamado decodificación asincrónica aprendida, marca un cambio hacia los modelos de enseñanza para orquestar su propia estrategia de decodificación paralela. Los hallazgos son publicado en el servidor de preimpresión ARXIV.
“Los LLM tradicionales son como una sola cocinera que hace lasaña, un paso a la vez”, explicó Tian Jin, autor principal de un nuevo artículo sobre el proyecto que se presentó en la Conferencia Internacional sobre Aprendizaje Autor (ICML 2025) en Vancouver. “La pasta enseña al cocinero a reconocer cuándo se pueden preparar diferentes partes de la lasaña simultáneamente, como mezclar un subconjunto de ingredientes, mientras que el horno precaliente, lo que lleva a un proceso mucho más rápido en general”.
Esta innovación aborda un cuello de botella fundamental en la inferencia de LLM, donde la naturaleza secuencial de la decodificación a menudo da como resultado hardware subutilizado y largos tiempos de espera para los usuarios. Los LLM actuales pueden tardar segundos o incluso minutos en cumplir con las solicitudes de los usuarios, un problema de latencia que la pasta tiene como objetivo resolver.
En el corazón de la pasta hay dos componentes principales: Pasta-Lang, un lenguaje de anotación que permite que los LLM etiqueten partes semánticamente independientes de sus respuestas, y un intérprete que actúa en estas etiquetas para orquestar la decodificación paralela durante la inferencia. Como explica Jin, puede pensar en Pasta-Lang como un conjunto de instrucciones que el LLM escribe para sí mismo, marcando secciones de su producción en las que se puede trabajar simultáneamente. El intérprete luego lee estas instrucciones y administra la generación paralela de esas secciones.
El equipo capacitó a LLM para generar estas anotaciones de pasta-lang a través de un proceso de ajuste de dos etapas. Esta capacitación no solo optimiza para la velocidad de decodificación, sino que también mantiene o incluso mejora la calidad de las respuestas generadas. Esta doble optimización es un salto importante hacia adelante, ya que permite mejoras continuas tanto en velocidad como en calidad a medida que hay más cómputo de entrenamiento disponible.
En los experimentos realizados con pasta en el punto de referencia Alpacaeval utilizado, el modelo de autocompresión del equipo mostró aceleraciones medias geométricas que alcanzan casi 2 veces mientras experimentan solo cambios menores en la calidad de respuesta (desde una ganancia del 2% a una caída del 7%). Esto significa que los usuarios pueden esperar respuestas casi el doble de rápido sin una disminución notable de precisión o coherencia.
“Fue sorprendente ver este comportamiento de tener un LLM orquestar su propio comportamiento de tiempo de inferencia”, dice Jin. “Era esclarecedor, y en cierto modo, mágico, ver cómo arrojar más cálculo a estos algoritmos produce un comportamiento de autoorquestación cada vez más sofisticado”.
La investigación destaca un desafío crítico en el campo: la velocidad y la calidad del equilibrio. Métodos anteriores como el esqueleto de pensamiento (SOT) y APAR intentaron la decodificación paralela al buscar estructuras sintácticas especificadas manualmente como puntos de bala o párrafos. Sin embargo, estos métodos a menudo eran rígidos e imprecisos, no identificando oportunidades de paralelización cuando las respuestas se desviaron incluso de los patrones esperados. El enfoque basado en el aprendizaje de la pasta, en contraste, ofrece una solución más robusta y escalable.
“Se trata de capacitar a la LLM para que sea más inteligente sobre cómo genera contenido”, dice Jin, un doctorado. Estudiante en CSAIL. “En lugar de que intentemos adivinar dónde puede trabajar en paralelo, estamos enseñando a la LLM para identificar esas oportunidades en sí, sobre la marcha”.
Mirando hacia el futuro, el equipo es optimista sobre las implicaciones más amplias de la pasta. La capacidad de reducir significativamente la latencia de decodificación de LLM podría conducir a requisitos reducidos de recursos computacionales, lo que hace que estos potentes modelos de IA sean más accesibles y asequibles para una gama más amplia de usuarios y aplicaciones.
“Esencialmente hemos diseñado un protocolo para un LLM para optimizarse”, dice Jin. “Al mejorar la eficacia de la inferencia de LLM, la pasta podría reducir significativamente las solicitudes de recursos computacionales y mejorar la accesibilidad de los LLM”.
Jin encabezó el proyecto junto con sus dos asesores de la facultad, los profesores del MIT Michael Carbin y Jonathan Ragan-Kelley. Otros coautores de documentos incluyen a Ellie Y. Cheng y Zack Ankner de Csail, y los investigadores de Google Suvinay Subramanian, Nikunj Saunshi, Blake M. Elias, Amir Yazdanbakhsh.
Más información: Tian Jin et al, aprendiendo a mantener una promesa: escalar el paralelismo del modelo de lenguaje con decodificación asincrónica aprendida, ARXIV (2025). Doi: 10.48550/arxiv.2502.11517
Información en el diario: ARXIV
Proporcionado por el Instituto de Tecnología de Massachusetts
Cita: los modelos de IA aprenden a dividir las tareas, reduciendo los tiempos de espera para las indicaciones complejas (2025, 21 de julio) Recuperado el 21 de julio de 2025 de https://techxplore.com/news/2025-07-ai- Tasks-slashing-complex-prompts.html
Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.