Home Tecnología ¿Pueden los modelos de idiomas grandes descubrir el mundo real? Nuevas medidas...

¿Pueden los modelos de idiomas grandes descubrir el mundo real? Nuevas medidas métricas El poder predictivo de AI

17
0

Crédito: Dominio público de Pixabay/CC0

En el siglo XVII, el astrónomo alemán Johannes Kepler descubrió las leyes de movimiento que permitieron predecir con precisión dónde aparecerían los planetas de nuestro sistema solar en el cielo mientras orbitan el sol. Pero no fue hasta décadas después, cuando Isaac Newton formuló las leyes universales de la gravitación, que se entendieron los principios subyacentes.

Aunque se inspiraron en las leyes de Kepler, fueron mucho más lejos e hicieron posible aplicar las mismas fórmulas a todo, desde la trayectoria de una bola de cañón hasta la forma en que el tirón de la Luna controla las mareas en la Tierra, o cómo lanzar un satélite desde la Tierra hasta la superficie de la Luna o los Planetas.

Los sofisticados sistemas de inteligencia artificial de hoy se han vuelto muy buenos para hacer el tipo de predicciones específicas que se asemejan a las predicciones de órbita de Kepler. ¿Pero saben por qué funcionan estas predicciones, con el tipo de comprensión profunda que proviene de principios básicos como las leyes de Newton?

A medida que el mundo crece cada vez más dependiente de este tipo de sistemas de IA, los investigadores están luchando por tratar de medir cómo hacen lo que hacen y cuán profunda es realmente su comprensión del mundo real.

Ahora, los investigadores del Laboratorio de MIT para Sistemas de Información y Decisión (LIDS) y en la Universidad de Harvard han ideado un nuevo enfoque para evaluar cuán profundamente estos sistemas predictivos comprenden su tema y si pueden aplicar el conocimiento de un dominio a uno ligeramente diferente. Y en general, la respuesta en este punto, en los ejemplos que estudiaron, es, no tanto.

El recomendaciones fueron presentados en la Conferencia Internacional sobre Aprendizaje Autor (ICML 2025), en Vancouver, Columbia Británica, el mes pasado por Harvard Postdoc Keyon Vafa, estudiante graduado del MIT en Ingeniería Eléctrica e Informática y Ciencias de la Computación y Lids Peter G. Chang, Profesor Asistente del MIT e Investigador Principal de Lídicos Ashesh Rambachan, y Profesor del MIT, Investigador Principal de Tabras y autor senior Sendhil Mullainathan.

“Los humanos todo el tiempo han podido hacer esta transición de buenas predicciones a modelos mundiales”, dice Vafa, autor principal del estudio. Entonces, la pregunta que abordaba su equipo era: “¿Tener modelos de base, que AI, han sido capaces de dar ese salto de predicciones a modelos mundiales? Y no estamos preguntando si son capaces, o pueden, o lo harán. Es simplemente, ¿lo han hecho hasta ahora?” Él dice.

“Sabemos cómo probar si un algoritmo predice bien. Pero lo que necesitamos es una forma de evaluar si ha entendido bien”, dice Mullainathan, profesor de Peter de Florez con duales citas en los departamentos del MIT de Ingeniería Económica e Eléctrica y Ciencias de la Computación y el autor senior del estudio. “Incluso definir lo que significa comprender fue un desafío”.

En la analogía de Kepler versus Newton, Vafa dice: “Ambos tenían modelos que funcionaron muy bien en una tarea, y que funcionaban esencialmente de la misma manera en esa tarea. Lo que Newton ofreció eran ideas que podían generalizar a nuevas tareas”. Esa capacidad, cuando se aplica a las predicciones realizadas por varios sistemas de IA, implicaría que desarrolle un modelo mundial para que pueda “trascender la tarea en la que está trabajando y poder generalizar a nuevos tipos de problemas y paradigmas”.

Otra analogía que ayuda a ilustrar el punto es la diferencia entre siglos de conocimiento acumulado de cómo criar selectivamente cultivos y animales, frente a la visión de Gregor Mendel sobre las leyes subyacentes de la herencia genética.

“Hay mucha emoción en el campo sobre el uso de modelos de base no solo para realizar tareas, sino también para aprender algo sobre el mundo”, por ejemplo, en las ciencias naturales, dice. “Tendría que adaptarse, tener un modelo mundial para adaptarse a cualquier posible tarea”.

¿Los sistemas de IA están cerca de la capacidad de alcanzar tales generalizaciones? Para probar la pregunta, el equipo analizó diferentes ejemplos de sistemas de IA predictivos, en diferentes niveles de complejidad. En los ejemplos más simples, los sistemas lograron crear un modelo realista del sistema simulado, pero a medida que los ejemplos se volvieron más complejos, esa habilidad se desvaneció rápidamente.

El equipo desarrolló una nueva métrica, una forma de medir cuantitativamente qué tan bien un sistema se aproxima a las condiciones del mundo real. Llaman al sesgo inductivo de medición, es decir, una tendencia o sesgo hacia las respuestas que reflejan la realidad, basadas en inferencias desarrolladas al observar grandes cantidades de datos en casos específicos.

El nivel más simple de ejemplos que veían era conocido como modelo de celosía. En una red unidimensional, algo solo puede moverse a lo largo de una línea. Vafa lo compara con una rana que salta entre lirios seguidos. A medida que la rana salta o se sienta, llama a lo que está haciendo: derecho, izquierda o quedarse. Si llega a la última almohadilla de lirio en la fila, solo puede permanecer o volver. Si alguien, o un sistema de IA, puede escuchar las llamadas, sin saber nada sobre la cantidad de almohadillas de lirios, ¿puede descubrir la configuración?

La respuesta es sí: a los modelos predictivos les va bien al reconstruir el “mundo” en un caso tan simple. Pero incluso con las redes, a medida que aumenta el número de dimensiones, los sistemas ya no pueden dar ese salto.

“Por ejemplo, en una red de dos estados o tres estados, demostramos que el modelo tiene un sesgo inductivo bastante bueno hacia el estado real”, dice Chang. “Pero a medida que aumentamos el número de estados, entonces comienza a tener una divergencia de los modelos del mundo real”.

Un problema más complejo es un sistema que puede jugar el juego de mesa Othello, que involucra a los jugadores que colocan alternativamente los discos negros o negros en una cuadrícula. Los modelos de IA pueden predecir con precisión qué movimientos se pueden permitir en un punto dado, pero resulta que lo hacen mal para inferir cuál es la disposición general de las piezas en el tablero, incluidas las que actualmente están bloqueadas del juego.

Luego, el equipo analizó cinco categorías diferentes de modelos predictivos realmente en uso, y nuevamente, cuanto más complejos involucraban los sistemas, más pobres se realizan los modos predictivos para hacer coincidir el verdadero modelo mundial subyacente.

Con esta nueva métrica de sesgo inductivo, “nuestra esperanza es proporcionar un tipo de cama de prueba donde pueda evaluar diferentes modelos, diferentes enfoques de capacitación, en problemas en los que sabemos cuál es el verdadero modelo mundial”, dice Vafa. Si funciona bien en estos casos en los que ya conocemos la realidad subyacente, entonces podemos tener una mayor fe de que sus predicciones pueden ser útiles incluso en los casos “en los que realmente no sabemos cuál es la verdad”, dice.

Las personas ya están tratando de usar este tipo de sistemas de IA predictivos para ayudar en el descubrimiento científico, incluidas cosas como propiedades de compuestos químicos que nunca se han creado, o de compuestos farmacéuticos potenciales, o para predecir el comportamiento de plegamiento y las propiedades de las moléculas de proteínas desconocidas. “Para los problemas más realistas”, dice Vafa, “incluso para algo como la mecánica básica, descubrimos que parece haber un largo camino por recorrer”.

Chang dice: “Ha habido muchos modelos de bombas en torno a la base, donde las personas están tratando de construir modelos de base específicos de dominio: modelos de base basados ​​en biología, modelos de base basados ​​en física, modelos de Fundación Robotics, modelos de cimientos para otros tipos de dominios donde las personas han recopilado una tonelada de datos” y capacitar a estos modelos para hacer predicciones “, y luego esperar que sea un conocimiento del dominio en sí mismo para que se utilicen otras tareas del mar de inicio del mar”. “”. “”.

Este trabajo muestra que hay un largo camino por recorrer, pero también ayuda a mostrar un camino a seguir. “Nuestro documento sugiere que podemos aplicar nuestras métricas para evaluar cuánto está aprendiendo la representación, para que podamos encontrar mejores formas de capacitar a los modelos de fundaciones, o al menos evaluar los modelos que estamos capacitando actualmente”, dice Chang. “Como campo de ingeniería, una vez que tenemos una métrica para algo, las personas son muy, muy buenas para optimizar esa métrica”.

Más información: ¿Qué ha encontrado un modelo de base? El sesgo inductivo revela modelos mundiales. icml.cc/virtual/2025/postert/44374

Proporcionado por el Instituto de Tecnología de Massachusetts

Esta historia se vuelve a publicar por cortesía de MIT News (web.mit.edu/newsoffice/), un sitio popular que cubre noticias sobre la investigación del MIT, la innovación y la enseñanza.

Cita: ¿Pueden los modelos de idiomas grandes descubrir el mundo real? La nueva métrica mide el poder predictivo de AI (2025, 26 de agosto) recuperado el 26 de agosto de 2025 de https://techxplore.com/news/2025-08-large-language-figure-real-world.html

Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.

Fuente de noticias