Home Tecnología El entrenamiento en el tiempo de prueba podría conducir a LLM que...

El entrenamiento en el tiempo de prueba podría conducir a LLM que son mejores en un razonamiento complejo

57
0

Ejemplo de tareas ARC y BBH que el modelo resuelve con éxito solo después de aplicar la capacitación en el tiempo de prueba. Crédito: ARXIV (2024). Doi: 10.48550/arxiv.2411.07279

A pesar de todas sus capacidades impresionantes, los modelos de idiomas grandes (LLM) a menudo se quedan cortos cuando se les da nuevas tareas desafiantes que requieren habilidades de razonamiento complejas.

Si bien la LLM de una firma de contabilidad podría sobresalir al resumir los informes financieros, ese mismo modelo podría fallar inesperadamente si se le asigna la tarea de predecir las tendencias del mercado o identificar transacciones fraudulentas.

Para hacer que los LLM sean más adaptables, los investigadores del MIT investigaron cómo una cierta técnica de capacitación puede implementarse estratégicamente para impulsar el rendimiento de un modelo en problemas desconocidos y difíciles.

Muestran que la capacitación en el tiempo de prueba, un método que implica actualizar temporalmente algunos de los trabajos internos de un modelo durante el despliegue, puede conducir a una mejora de seis veces en la precisión. Los investigadores desarrollaron un marco para implementar una estrategia de capacitación en el tiempo de prueba que utiliza ejemplos de la nueva tarea para maximizar estas ganancias.

Su trabajo podría mejorar la flexibilidad de un modelo, lo que permite que un LLM estándar se adapte a tareas complejas que requieren planificación o abstracción. Esto podría conducir a LLM que serían más precisos en muchas aplicaciones que requieren una deducción lógica, desde diagnósticos médicos hasta la gestión de la cadena de suministro.

“El aprendizaje genuino, lo que hicimos aquí con la capacitación en el tiempo de prueba, es algo que estos modelos no pueden hacer por su cuenta después de que se envíen. No pueden obtener nuevas habilidades ni mejorar en una tarea. Pero hemos demostrado que si presiona un poco el modelo para hacer un aprendizaje real, se ve que las grandes mejoras en el rendimiento pueden ocurrir”, dice Ekin Akyürek Ph.D.D. ’25, autor principal del estudio.

Akyürek se une en el periódico por estudiantes graduados Mehul Damani, Linlu Qiu, Han Guo y Jyothish Pari; pregrado Adam Zweiger; y autores principales Yoon Kim, profesor asistente de ingeniería eléctrica e informática (EECS) y miembro del Laboratorio de Informática e Inteligencia Artificial (CSAIL); y Jacob Andreas, profesor asociado en EECS y miembro de CSAIL.

La investigación se presentará en la Conferencia Internacional sobre Aprendizaje Autor (ICML 2025), celebrado en Vancouver del 13 al 19 de julio. El papel es disponible Ahora en el servidor ARXIV preimpresión.

Abordar dominios duros

Los usuarios de LLM a menudo intentan mejorar el rendimiento de su modelo en una nueva tarea utilizando una técnica llamada aprendizaje en contexto. Alimentan al modelo algunos ejemplos de la nueva tarea como indicaciones de texto que guían las salidas del modelo.

Pero el aprendizaje en contexto no siempre funciona para problemas que requieren lógica y razonamiento.

Los investigadores del MIT investigaron cómo la capacitación en el tiempo de prueba puede usarse junto con el aprendizaje en contexto para aumentar el rendimiento en estas tareas desafiantes. El entrenamiento en el tiempo de prueba implica actualizar algunos parámetros del modelo, las variables internas que utiliza para hacer predicciones, utilizando una pequeña cantidad de nuevos datos específicos para la tarea en cuestión.

Los investigadores exploraron cómo la capacitación en el tiempo de prueba interactúa con el aprendizaje en contexto. Estudiaron opciones de diseño que maximizan las mejoras de rendimiento que uno puede sacar de una LLM de propósito general.

“Encontramos que la capacitación en el tiempo de prueba es una forma de aprendizaje mucho más fuerte. Si bien simplemente proporcionar ejemplos puede aumentar modestamente la precisión, actualizar el modelo con esos ejemplos puede conducir a un rendimiento significativamente mejor, particularmente en los dominios desafiantes”, dice Damani.

El aprendizaje en contexto requiere un pequeño conjunto de ejemplos de tareas, incluidos problemas y sus soluciones. Los investigadores usan estos ejemplos para crear un conjunto de datos específico de tarea necesario para la capacitación en el tiempo de prueba.

Para expandir el tamaño de este conjunto de datos, crean nuevas entradas cambiando ligeramente los problemas y soluciones en los ejemplos, como voltear horizontalmente algunos datos de entrada. Encuentran que capacitar al modelo en las salidas de este nuevo conjunto de datos conduce al mejor rendimiento.

Además, los investigadores solo actualizan un pequeño número de parámetros del modelo utilizando una técnica llamada adaptación de bajo rango, lo que mejora la eficiencia del proceso de entrenamiento de tiempo de prueba.

“Esto es importante porque nuestro método debe ser eficiente si se va a implementar en el mundo real. Encontramos que puede obtener grandes mejoras en precisión con una cantidad muy pequeña de entrenamiento de parámetros”, dice Akyürek.

Desarrollar nuevas habilidades

La racionalización del proceso es clave, ya que la capacitación en el tiempo de prueba se emplea por instancia, lo que significa que un usuario necesitaría hacer esto para cada tarea individual. Las actualizaciones del modelo son solo temporales, y el modelo vuelve a su forma original después de hacer una predicción.

Un modelo que generalmente tarda menos de un minuto en responder una consulta puede tardar cinco o 10 minutos en proporcionar una respuesta con el entrenamiento de tiempo de prueba, agrega Akyürek.

“No querríamos hacer esto para todas las consultas de los usuarios, pero es útil si tiene una tarea muy difícil que desea que el modelo resuelva bien. También podrían haber tareas que son demasiado desafiantes para que un LLM resuelva sin este método”, dice.

Los investigadores probaron su enfoque en dos conjuntos de datos de referencia de problemas extremadamente complejos, como los rompecabezas de IQ. Aumentó una precisión hasta seis sobre técnicas que usan solo el aprendizaje en contexto.

Las tareas que involucraron patrones estructurados o aquellos que utilizaron tipos de datos completamente desconocidos mostraron las mayores mejoras de rendimiento.

“Para tareas más simples, el aprendizaje en contexto podría estar bien. Pero actualizar los parámetros en sí mismos podría desarrollar una nueva habilidad en el modelo”, dice Damani.

En el futuro, los investigadores quieren utilizar estas ideas para el desarrollo de modelos que aprenden continuamente.

El objetivo a largo plazo es una LLM que, dada una consulta, puede determinar automáticamente si necesita usar capacitación en el tiempo de prueba para actualizar los parámetros o si puede resolver la tarea utilizando el aprendizaje en contexto, y luego implementar la mejor estrategia de entrenamiento de tiempo de prueba sin la necesidad de intervención humana.

Más información: Ekin Akyürek et al, la sorprendente efectividad de la capacitación en el tiempo de prueba para el aprendizaje de pocos disparos, ARXIV (2024). Doi: 10.48550/arxiv.2411.07279

Información en el diario: ARXIV

Proporcionado por el Instituto de Tecnología de Massachusetts

Esta historia se vuelve a publicar por cortesía de MIT News (web.mit.edu/newsoffice/), un sitio popular que cubre noticias sobre la investigación del MIT, la innovación y la enseñanza.

Cita: el entrenamiento de tiempo de prueba podría conducir a LLM que son mejores en un razonamiento complejo (2025, 8 de julio) recuperado el 8 de julio de 2025 de https://techxplore.com/news/2025-07-llms-complex.html

Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.

Fuente de noticias