Los investigadores enseñan LLM a resolver desafíos de planificación complejos

Crédito: Dominio público de Pixabay/CC0
Imagine una compañía de café que intenta optimizar su cadena de suministro. La compañía obtiene frijoles de tres proveedores, los asa en dos instalaciones en café oscuro o ligero, y luego envía el café tostado a tres ubicaciones minoristas. Los proveedores tienen una capacidad fija diferente, y los costos de tostado y los costos de envío varían de un lugar a otro.
La compañía busca minimizar los costos al tiempo que cumple con un aumento del 23% en la demanda.
¿No sería más fácil para la compañía pedirle a ChatGPT que cree un plan óptimo? De hecho, a pesar de todas sus increíbles capacidades, los modelos de idiomas grandes (LLM) a menudo funcionan mal cuando se les asigna resolver directamente problemas de planificación tan complicados por su cuenta.
En lugar de tratar de cambiar el modelo para hacer de un LLM un mejor planificador, los investigadores del MIT adoptaron un enfoque diferente. Introducieron un marco que guía a un LLM para romper el problema como lo haría un humano, y luego resolverlo automáticamente utilizando una poderosa herramienta de software.
Un usuario solo necesita describir el problema en el lenguaje natural, no se necesitan ejemplos específicos de tareas para entrenar o indicar el LLM. El modelo codifica el mensaje de texto de un usuario en un formato que puede desentrañarse con un solucionador de optimización diseñado para descifrar eficientemente los desafíos de planificación extremadamente difíciles.
Durante el proceso de formulación, el LLM verifica su trabajo en múltiples pasos intermedios para asegurarse de que el plan se describiera correctamente al solucionador. Si ve un error, en lugar de darse por vencido, el LLM intenta corregir la parte rota de la formulación.
Cuando los investigadores probaron su marco en nueve desafíos complejos, como minimizar los robots de almacén de distancia deben viajar para completar las tareas, logró una tasa de éxito del 85%, mientras que la mejor línea de base solo alcanzó una tasa de éxito del 39%.
El marco versátil podría aplicarse a una gama de tareas de planificación de varios pasos, como programar equipos de aerolíneas o el tiempo de administración de la máquina en una fábrica.
“Nuestra investigación introduce un marco que esencialmente actúa como un asistente inteligente para los problemas de planificación. Puede descubrir el mejor plan que satisfaga todas las necesidades que tiene, incluso si las reglas son complicadas o inusuales”, dice Yilun Hao, un estudiante graduado en el Laboratorio del MIT para Sistemas de Información y Decisión (LIDS) y el autor principal de un documento sobre esta investigación publicada en el servidor de ARXIV de ARXIV.
Se une al documento por Yang Zhang, una científica de investigación en el laboratorio MIT-IBM Watson AI; y el autor senior Chuchu Fan, profesor asociado de Aeronáutica y Investigador Principal de Atronautica y Lids. La investigación se presentará en la Conferencia Internacional sobre Representaciones de Aprendizaje (ICLR 2025) celebrada en Singapur del 24 al 28 de abril.
Optimización 101
El grupo de fanáticos desarrolla algoritmos que resuelven automáticamente lo que se conoce como problemas de optimización combinatoria. Estos vastos problemas tienen muchas variables de decisión interrelacionadas, cada una con múltiples opciones que suman rápidamente miles de millones de opciones potenciales.
Los humanos resuelven tales problemas al reducir las pocas opciones y luego determinar cuál conduce al mejor plan general. Los solucionadores algorítmicos de los investigadores aplican los mismos principios a los problemas de optimización que son demasiado complejos para que un humano se rompa.
Pero los solucionadores que desarrollan tienden a tener curvas de aprendizaje pronunciadas y, por lo general, los expertos solo usan.
“Pensamos que los LLM podrían permitir que los no existentes usen estos algoritmos de resolución. En nuestro laboratorio, tomamos el problema de un experto en dominio y lo formalizamos en un problema que nuestro solucionador puede resolver. ¿Podríamos enseñarle a una LLM a hacer lo mismo?” Fan dice.
Utilizando el marco que desarrollaron los investigadores, llamado programación formal basada en LLM (LLMFP), una persona proporciona una descripción del lenguaje natural del problema, información de fondo sobre la tarea y una consulta que describe su objetivo.
Luego, LLMFP solicita a un LLM que razone sobre el problema y determine las variables de decisión y las restricciones clave que darán forma a la solución óptima.
LLMFP solicita al LLM que detalla los requisitos de cada variable antes de codificar la información en una formulación matemática de un problema de optimización. Escribe código que codifica el problema y llama al solucionador de optimización adjunto, que llega a una solución ideal.
“Es similar a cómo enseñamos a los estudiantes universitarios sobre los problemas de optimización en el MIT. No les enseñamos solo un dominio. Les enseñamos la metodología”, agrega Fan.
Mientras las entradas al solucionador sean correctas, dará la respuesta correcta. Cualquier error en la solución proviene de errores en el proceso de formulación.
Para asegurarse de que haya encontrado un plan de trabajo, LLMFP analiza la solución y modifica cualquier paso incorrecto en la formulación del problema. Una vez que el plan pasa esta autoevaluación, la solución se describe al usuario en lenguaje natural.
Perfeccionar el plan
Este módulo de autoevaluación también permite que el LLM agregue cualquier restricción implícita que perdiera la primera vez, dice Hao.
Por ejemplo, si el marco está optimizando una cadena de suministro para minimizar los costos de una cafetería, un humano sabe que la cafetería no puede enviar una cantidad negativa de frijoles asados, pero un LLM podría no darse cuenta de eso.
El paso de autoevaluación marcaría ese error y le pediría al modelo que lo arregle.
“Además, un LLM puede adaptarse a las preferencias del usuario. Si el modelo se da cuenta de que un usuario en particular no le gusta cambiar el tiempo o el presupuesto de sus planes de viaje, puede sugerir cambiar las cosas que se ajustan a las necesidades del usuario”, dice Fan.
En una serie de pruebas, su marco logró una tasa de éxito promedio entre 83% y 87% en nueve problemas de planificación diversos utilizando varios LLM. Si bien algunos modelos de referencia fueron mejores en ciertos problemas, LLMFP logró una tasa de éxito general aproximadamente el doble que las técnicas de referencia.
A diferencia de estos otros enfoques, LLMFP no requiere ejemplos específicos de dominio para el entrenamiento. Puede encontrar la solución óptima a un problema de planificación desde el primer momento.
Además, el usuario puede adaptar LLMFP para diferentes solucionadores de optimización ajustando las indicaciones alimentadas a la LLM.
“Con LLMS, tenemos la oportunidad de crear una interfaz que permita a las personas usar herramientas de otros dominios para resolver problemas de manera que podrían no haber estado pensando antes”, dice Fan.
En el futuro, los investigadores quieren permitir que LLMFP tome imágenes como información para complementar las descripciones de un problema de planificación. Esto ayudaría al marco a resolver tareas que son particularmente difíciles de describir completamente con el lenguaje natural.
Más información: Yilun Hao et al, planeando cualquier cosa con rigor: planificación de disparo cero de propósito general con programación formal basada en LLM, ARXIV (2024). Doi: 10.48550/arxiv.2410.12112
Información en la revista: ARXIV proporcionado por el Instituto de Tecnología de Massachusetts
Esta historia se vuelve a publicar por cortesía de MIT News (web.mit.edu/NewsOffice/), un sitio popular que cubre noticias sobre la investigación del MIT, la innovación y la enseñanza.
Cita: los investigadores enseñan a LLM a resolver desafíos de planificación complejos (2025, 2 de abril) Recuperado el 2 de abril de 2025 de https://techxplore.com/news/2025-04-llms-complex.html
Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.