Home Tecnología La herramienta automatizada detecta errores silenciosos en capacitación de aprendizaje profundo

La herramienta automatizada detecta errores silenciosos en capacitación de aprendizaje profundo

66
0

Error silencioso en el entrenamiento Bloom-176b. Crédito: ARXIV (2025). Doi: 10.48550/arxiv.2506.14813

TrainCheck utiliza invariantes de entrenamiento para encontrar la causa raíz de los errores difíciles de detectar antes de causar problemas aguas abajo, ahorrar tiempo y recursos.

Un nuevo marco de código abierto desarrollado en la Universidad de Michigan detecta proactivamente errores silenciosos a medida que ocurren durante la capacitación de aprendizaje profundo. Estos problemas difíciles de detectar no causan fallas de entrenamiento obvias, sino que degradan silenciosamente el rendimiento del modelo mientras desperdician recursos y tiempo valiosos.

En evaluaciones, el Checkeck El marco identificó 18 de 20 errores de entrenamiento silencioso del mundo real en una sola iteración, mientras que los métodos actuales solo atraparon dos, y descubrieron seis errores previamente desconocidos en las bibliotecas de capacitación populares. Los investigadores introdujeron TrainCheck en un estudio presentado recientemente en el Simposio de Usenix sobre diseño e implementación de sistemas operativos (Osdi) en Boston.

“Al desarrollar TrainCheck, nuestro objetivo es capacitar a los desarrolladores con mejores herramientas para abordar errores silenciosos, permitiendo en última instancia sistemas de IA más robustos”, dijo Ryan Huang, profesor asociado de informática e ingeniería de UM y autor senior del estudio.

Durante el aprendizaje profundo, las redes neuronales artificiales aprenden a realizar tareas utilizando grandes cantidades de datos, ajustando los parámetros en varios ciclos para alcanzar el rendimiento deseado. Los modelos de IA a gran escala, como los modelos de idiomas grandes (LLM) y los modelos de visión por computadora, son caros de entrenar, lo que hace que los errores silenciosos sean particularmente costosos porque permiten que la capacitación continúe, lo que lleva a un modelo subóptimo.

Los métodos actuales monitorean la capacitación de aprendizaje profundo con señales de alto nivel, como la pérdida (cómo se comparan las predicciones del modelo con la respuesta correcta), la precisión (porcentaje de respuestas correctas) y las normas de gradiente (medidas de cuánto cambian los parámetros del modelo durante cada paso de entrenamiento).

Sin embargo, estas métricas de vista de pájaros son ruidosas, fluctuantes naturalmente durante el entrenamiento, lo que hace que sea difícil diferenciar entre la variación normal y un problema real. Por ejemplo, el entrenamiento de Huggingface de su Bloom-176B LLM perdió un error silencioso porque no causó cambios obvios en la pérdida o precisión. El error hizo que las copias del modelo se ejecuten en diferentes GPU se separaran, lo que hace que los modelos finales entrenados no sean inutilizados y, por lo tanto, desperdiciaran meses de cálculo costoso.

El nuevo enfoque de TrainCheck se basa en los invariantes de entrenamiento, que son reglas que se mantienen constantes durante la capacitación. El marco monitorea continuamente a los invariantes de capacitación, alerta inmediatamente a los desarrolladores sobre desviaciones y proporciona información detallada de depuración para ayudar a descubrir qué salió mal. Este es un gran paso hacia arriba de los métodos anteriores de alto nivel que no pudieron encontrar la causa raíz, incluso si se detectaron problemas.

“Al inferir y monitorear automáticamente los invariantes de capacitación, TrainCheck permite una rápida identificación y resolución de errores, lo cual es un avance significativo sobre los métodos tradicionales. Establece un nuevo estándar para la detección de errores en los marcos de aprendizaje automático”, dijo Yuxuan Jiang, un estudiante doctoral de informática e ingeniería en UM y el autor principal del estudio.

El equipo de investigación puso a prueba TrainCheck en 20 errores silenciosos al comparar el rendimiento con cuatro métodos de detección existentes. Seis de los errores silenciosos se extrajeron de investigaciones anteriores y los otros 14 provenían de temas discutidos en los foros de desarrolladores (GitHub, Stackoverflow y las redes sociales) para asegurarse de que estaban probando el marco contra los problemas que los desarrolladores realmente enfrentaron.

TrainCheck detectó con éxito 18 de 20 errores silenciosos, mientras que los detectores de señal de alto nivel solo detectaron dos. El diagnóstico reveló que de los 18 errores de TrainCheck detectados, los informes de violación encontraron la causa raíz exacta de 10 casos y se localizan cerca de la raíz de los otros ocho. En contraste, los detectores de alto nivel solo podían proporcionar sugerencias de diagnóstico para un error.

“Nos impresionó lo bien que TrainCheck se desempeñó en el manejo de problemas del mundo real utilizando su enfoque basado en principios de principios”, dijo Huang.

Al evaluar los errores falsos, TrainCheck alerta a los desarrolladores sobre errores falsos pero a una tasa baja. Aunque ocurrieron falsas alarmas, siguieron patrones reconocibles que los hicieron relativamente fáciles de descartar.

Los fuertes resultados demuestran que TrainCheck se puede integrar en varios marcos de aprendizaje automático, proporcionando a los desarrolladores una herramienta proactiva para protegerse contra los errores. Al ofrecer una detección temprana de errores silenciosos, minimiza los recursos desperdiciados y mejora la precisión del modelo y la robustez.

Las adaptaciones futuras podrían mejorar TrainCheck para proporcionar ayuda de depuración adicional a los desarrolladores y extender el enfoque de validación continua a otros dominios computacionales, como los sistemas distribuidos, aumentar la resiliencia y el rendimiento donde los errores silenciosos son comunes.

Más información: Yuxuan Jiang et al, Entrenamiento con confianza: captura de errores silenciosos en capacitación de aprendizaje profundo con cheques proactivos automatizados, ARXIV (2025). Doi: 10.48550/arxiv.2506.14813

Githubub: github.com/orderlab/traincheck

Información en el diario: ARXIV

Proporcionado por la Universidad de Michigan

Cita: Mejora de los modelos de IA: la herramienta automatizada detecta errores silenciosos en la capacitación de aprendizaje profundo (2025, 24 de julio) Recuperado el 24 de julio de 2025 de https://techxplore.com/news/2025-07-ai-automated Tool-Silent-Rors.html

Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.

Fuente de noticias