Home Tecnología La innovación de las comunicaciones podría mejorar notablemente el proceso de capacitación...

La innovación de las comunicaciones podría mejorar notablemente el proceso de capacitación de IA

64
0

Descripción general del sistema Zen. Crédito: Zhuang Wang et al.

La inteligencia artificial (IA) es infame por su capacitación pesada de recursos, pero un nuevo estudio puede haber encontrado una solución en un nuevo sistema de comunicaciones, llamado Zen, que mejora notablemente la forma en que los modelos de idiomas grandes (LLM) entrena.

El equipo de investigación de la Universidad de Rice fue dirigido por el graduado de doctorado Zhuang Wang y el profesor de informática TS Eugene Ng con contribuciones de otros dos miembros de la Facultad de Ciencias de la Computación: Profesor Asistente Yuke Wang y el Profesor Anshumali Shrivastava. Zhaozhuo Xu y Jingyi Xi de la Universidad de Stevens de la Universidad Zhejiang también contribuyeron al proyecto.

Capacitación distribuida, escasez y comunicación

Wang dijo que hay dos fases en las que los LLM pueden cuello de botella durante el proceso de capacitación distribuida: cálculo y comunicación.

El primero ocurre cuando el modelo necesita crecer a través de una gran cantidad de datos. Puede atascar el sistema, consumiendo tiempo y energía informática. La división de datos entre cientos, a veces miles, de unidades de procesamiento de gráficos (GPU) ayuda a administrar ese problema. Procesan múltiples muestras de datos por separado, luego las alimentan nuevamente en el modelo.

El segundo cuello de botella ocurre cuando todas esas GPU necesitan sincronizar para que puedan “hablar” con el modelo y transmitir lo que han aprendido. Necesitan comunicarse de manera eficiente entre sí para completar cada entrenamiento que funcione sin problemas y pueden reducir la velocidad si los gradientes del modelo tienen que sincronizar son muy grandes, lo que a menudo son.

“La solución anterior era enviar todos los datos. Pero en la práctica, observamos que los datos tienen muchos valores cero en la ‘charla'”, dijo Wang. “Necesitamos una estructura de datos para representar la información de comunicación correctamente”.

Eliminar esos valores cero o casi cero y dejar que los relevantes se sincronizen durante la comunicación se denomina “dispersión”. Los valores que quedan se llaman acertadamente “tensores escasos”. Es una práctica común en la capacitación de LLM y puede salvar al sistema el esfuerzo de comunicar miles de millones de gradientes adicionales. Pero aún deja el cuello de botella de comunicación, que es donde el equipo centró su investigación.

“En realidad, no hay mucha comprensión fundamental de cómo apoyar a estos tensores escasos dentro de la capacitación distribuida”, dijo Ng. “La gente propone la idea, pero no entienden cuál es la forma óptima de manejarlos. Una de las contribuciones de nuestro trabajo es analizar estos tensores escasos para comprender cómo se comportan”.

Mapeo del sistema, encontrando la estructura

Hubo esencialmente tres partes en esta investigación: la primera parte estaba descubriendo las características de los tensores dispersos en los modelos populares. Los gradientes distintos de cero que quedan después de la dispersión no se distribuyen de manera uniforme; Su ubicación y densidad del tensor dependen de factores como el modelo de entrenamiento y el conjunto de datos utilizados.

Esa dispersión de gradientes no cero conduce a un desequilibrio durante la fase de comunicación que ralentiza la sincronización y, por extensión, ralentiza el proceso de entrenamiento. Esta nueva comprensión arroja luz sobre cómo diseñar mejores esquemas de comunicación para usar con tensores escasos.

Una vez que sabían cómo abordar su diseño, la segunda parte estaba descubriendo los esquemas de comunicación óptimos para usar. Wang y Ng analizaron varias opciones para determinar cuáles eran.

Debido a que no había una solución óptima antes de esta investigación, el tercer y último paso fue construir un sistema del mundo real basado en su investigación y aplicar ese sistema a la capacitación práctica de LLM para ver si funcionaba. Zen era ese sistema, y ​​mostró una gran diferencia en la velocidad de entrenamiento cuando se usaba en LLM del mundo real.

“Lo que básicamente mostramos es que podemos acelerar el tiempo para completar la capacitación porque la comunicación es más eficiente … El tiempo que lleva realizar un paso en la capacitación es mucho más rápido”, dijo Ng.

Dado que los tensores escasos se usan a menudo y el campo del entrenamiento LLM es tan amplio, este descubrimiento se puede aplicar a casi cualquier modelo con, como lo expresó, “las características de la escasez”. Ya sea texto o generación de imágenes, Zen puede acelerar el entrenamiento del modelo si están presentes tensores escasos.

Wang no es nuevo en esta área de investigación. Él y NG colaboraron previamente en un proyecto para minimizar la sobrecarga de recuperación de falla de LLMS después de una falla de hardware o software durante la capacitación, que nombraron GÉMINIS—Envelado en el Simposio ACM sobre los principios de sistemas operativos en 2023.

Wang presentó recientemente su papel En esta nueva investigación, titulada “Zen: Empoderando la capacitación distribuida con sincronización de datos basada en escasez”, en el 19º Simposio de Usenix sobre el diseño e implementación de sistemas operativos (Ahorcado) Celebrada en Boston.

Más información: Zen: capacitación de capacitación distribuida con sincronización de datos basada en escasez, www.usenix.org/conference/osdi … Entrada/wang-zhuang

Proporcionado por la Universidad de Rice

Cita: superar el cuello de botella de IA: la innovación de comunicaciones podría mejorar notablemente el proceso de capacitación de IA (2025, 11 de julio) recuperado el 11 de julio de 2025 de https://techxplore.com/news/2025-07-ai-ai-bottleneckcommunications.html

Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.

Fuente de noticias