Crédito: dominio público Unsplash/CC0
Así como las personas de diferentes países hablan diferentes idiomas, los modelos de IA también crean varios “idiomas” internos, un conjunto único de tokens entendidos solo por cada modelo. Hasta hace poco, no había forma de que los modelos desarrollados por diferentes compañías se comuniquen directamente, colaboren o combinen sus fortalezas para mejorar el rendimiento.
Esta semana, en el Conferencia internacional sobre aprendizaje automático (ICML) En Vancouver, Canadá, los científicos del Instituto de Ciencia e Intel de Weizmann están presentando un nuevo conjunto de algoritmos que superan esta barrera, lo que permite a los usuarios beneficiarse de la potencia computacional combinada de los modelos de IA que trabajan juntos. Los nuevos algoritmos, ya disponibles para millones de desarrolladores de IA en todo el mundo, aceleran el rendimiento de los modelos de idiomas grandes (LLM), los principales modelos de IA generativos de Today, en promedio, en promedio.
La investigación es publicado en el servidor de preimpresión ARXIV.
Los LLM, como ChatGPT y Gemini, son herramientas poderosas, pero vienen con inconvenientes significativos: son lentos y consumen grandes cantidades de potencia informática. En 2022, las principales compañías tecnológicas se dieron cuenta de que los modelos de IA, como las personas, podrían beneficiarse de la colaboración y la división del trabajo. Esto condujo al desarrollo de un método llamado decodificación especulativa, en el que un modelo pequeño y rápido, que posee un conocimiento relativamente limitado, hace una primera suposición al responder la consulta de un usuario, y un modelo más grande, más potente pero más lento revisa y corrige la respuesta si es necesario.
La decodificación especulativa fue adoptada rápidamente por los gigantes tecnológicos porque mantiene el 100% de precisión, a diferencia de la mayoría de las técnicas de aceleración, que reducen la calidad de la salida. Pero tenía una gran limitación: ambos modelos tenían que “hablar” exactamente el mismo lenguaje digital, lo que significaba que los modelos desarrollados por diferentes compañías no podían combinarse.
“Los gigantes tecnológicos adoptaron una decodificación especulativa, beneficiándose de un rendimiento más rápido y ahorrando miles de millones de dólares al año en costo de poder de procesamiento, pero fueron los únicos que tuvieron acceso a modelos pequeños y más rápidos que hablan el mismo idioma que los modelos más grandes”, explica Nadav Timor, un Ph.D. Estudiante en el equipo de investigación del Prof. David Harel en el departamento de informática y matemáticas aplicadas de Weizmann, quien dirigió el nuevo desarrollo.
“Por el contrario, una startup que buscaba beneficiarse de la decodificación especulativa tuvo que entrenar su propio modelo pequeño que coincidía con el lenguaje de la grande, y eso requiere una gran experiencia y recursos computacionales costosos”.
Los nuevos algoritmos desarrollados por los investigadores de Weizmann e Intel permiten a los desarrolladores emparejar cualquier modelo pequeño con cualquier modelo grande, lo que hace que funcionen en equipo. Para superar la barrera del idioma, a los investigadores se les ocurrió dos soluciones.
Primero, diseñaron un algoritmo que permite que un LLM traduzca su salida de su lenguaje de token interno a un formato compartido que todos los modelos puedan entender. En segundo lugar, crearon otro algoritmo que provoca que dichos modelos confíen principalmente en su trabajo de colaboración en tokens que tienen el mismo significado entre modelos, de manera similar a palabras como “plátano” o “Internet” que son casi idénticos en todos los idiomas humanos.
“Al principio, nos preocupaba que demasiada información se ‘perdiera en la traducción’ y que diferentes modelos no puedan colaborar de manera efectiva”, dice Timor. “Pero estábamos equivocados. Nuestros algoritmos aceleran el rendimiento de LLM por hasta 2.8 veces, lo que lleva a ahorros masivos en el gasto en potencia de procesamiento”.
La importancia de esta investigación ha sido reconocida por los organizadores de ICML, quienes seleccionaron el estudio para la presentación pública, una distinción otorgada a solo alrededor del 1% de las 15,000 presentaciones recibidas este año. “Hemos resuelto una ineficiencia central en la IA generativa”, dice Oren Perreg, investigador senior de Intel Labs y coautor del estudio. “Esto no es solo una mejora teórica; estas son herramientas prácticas que ya están ayudando a los desarrolladores a construir aplicaciones más rápidas e inteligentes”.
En los últimos meses, el equipo lanzó sus algoritmos en la plataforma de IA de código abierto que abraza a Face Transformers, haciéndolos disponibles gratuitamente para los desarrolladores de todo el mundo. Desde entonces, los algoritmos se han convertido en parte de herramientas estándar para ejecutar procesos de IA eficientes.
“Este nuevo desarrollo es especialmente importante para dispositivos de borde, desde teléfonos y drones hasta autos autónomos, que deben depender de una potencia informática limitada cuando no se conectan a Internet”, agrega Timor. “Imagine, por ejemplo, un automóvil autónomo que se guía por un modelo de IA. En este caso, un modelo más rápido puede marcar la diferencia entre una decisión segura y un error peligroso”.
También participaron en el estudio el Dr. Jonathan Mamou, Daniel Korat, Moshe Berchansky y Moshe Wasserblat de Intel Labs y Gaurav Jain de D-Matrix. El profesor David Harel es el titular del Presidente de Matemáticas de Profesorial William Sussman.
Más información: Nadav Timor et al, Acelerar la inferencia de LLM con algoritmos de decodificación especulativos sin pérdida para vocabularios heterogéneos, ARXIV (2025). Doi: 10.48550/arxiv.2502.05202
Información en el diario: ARXIV
Proporcionado por el Instituto de Ciencia Weizmann
Cita: más rápido, más inteligente, más abierto: el estudio muestra nuevos algoritmos acelerando modelos de IA (2025, 16 de julio) Recuperado el 16 de julio de 2025 de https://techxplore.com/news/2025-07-faster-smarter-algorithms-ai.html
Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.









