(a) Ejemplo de salidas de un modelo de razonamiento y un modelo de no razonamiento en una tarea de percepción. Los reflejos rojos indican alucinación visual. Los modelos de razonamiento multimodal son generalmente más propensos a amplificar las alucinaciones durante el proceso de razonamiento en comparación con sus homólogos no iniciales. (b) Rendimiento de diferentes modelos sobre tareas de razonamiento y percepción en el conjunto de datos de Bench Bench. Los modelos de mejor rendimiento se colocan en la esquina superior derecha. Los modelos de basura no iniciadores de escalas variables generalmente exhiben capacidades de razonamiento más débiles y menos alucinación, mientras que los modelos de razonamiento muestran la tendencia opuesta. Crédito: Liu et al.
En las últimas décadas, los científicos informáticos han introducido modelos basados en aprendizaje automático cada vez más sofisticados, que pueden funcionar notablemente bien en varias tareas. Estos incluyen modelos de lenguaje grande (MLLM) multimodal, sistemas que pueden procesar y generar diferentes tipos de datos, textos predominantemente, imágenes y videos.
Algunos de estos modelos, como GPT4 de OpenAI con Vision (GPT-4V), Deepseek-R1 y Google Gemini, ahora son ampliamente utilizados por los usuarios de todo el mundo para crear contenido multimodal específico, incluidas imágenes para publicaciones o artículos de redes sociales, así como textos adaptados a usos específicos.
Si bien las habilidades de razonamiento de estos modelos han mejorado considerablemente en los últimos años, permitiéndoles resolver problemas matemáticos y de razonamiento, los estudios mostraron que a veces responden a cosas que no se basan en los datos de entrada, por ejemplo, al describir detalles que realmente no existen en una imagen de entrada.
Estas alucinaciones se han relacionado con los antecedentes del lenguaje y los sesgos internos que un modelo puede haber adquirido durante la capacitación mientras analizaba grandes conjuntos de datos de texto. Estos sesgos pueden anular la información visual alimentada al modelo (es decir, imágenes de entrada), lo que hace que el modelo complete incorrectamente las tareas asignadas a él.
Investigadores de UC Santa Cruz, la Universidad de Stanford y la UC Santa Bárbara han desarrollado recientemente una métrica y un punto de referencia de diagnóstico que podría ayudar a estudiar estas alucinaciones, específicamente centrándose en la relación entre el razonamiento de los MLLM y su tendencia a alucinar cuando se le pide que se retrata en una imagen de entrada. Estas nuevas herramientas de investigación, presentadas en un artículo sobre el servidor de preimpresión ARXIV, podrían contribuir a la evaluación y el avance de MLLM.
“El cálculo de tiempo de prueba ha capacitado modelos de lenguaje grande multimodal para generar cadenas de razonamiento extendidas, produciendo un fuerte rendimiento en tareas como el razonamiento matemático multimodal”, escribió Chengzhi Liu, Zhongxing Xu y sus colegas en su artículo.
“Sin embargo, esta capacidad de razonamiento mejorada a menudo viene con una mayor alucinación: a medida que las generaciones se vuelven más largas, los modelos tienden a alejarse del contenido con tierra y depender más de los antecedentes del lenguaje”.
Comparación de modelos de razonamiento y no razonantes en cinco puntos de referencia de percepción. Los resultados se muestran para modelos 3B (izquierda) y 7B (derecha). Los puntajes más altos indican una alucinación más baja. Crédito: ARXIV (2025). Doi: 10.48550/arxiv.2505.21523
Los investigadores primero evaluaron el rendimiento de MLLM en tareas de razonamiento complejas y descubrieron que a medida que las cadenas de razonamiento (es decir, las secuencias de pasos lógicos necesarios para resolver un problema) crecieron en longitud, la tendencia de los modelos a alucinar también aumentó. Sugirieron que estas alucinaciones surgieron debido a la atención reducida a los estímulos visuales y una mayor dependencia de los antecedentes del lenguaje.
“El análisis de atención muestra que las cadenas de razonamiento más largas conducen a un enfoque reducido en las entradas visuales, lo que contribuye a la alucinación”, escribió Liu, Xu y sus colegas.
“Para estudiar sistemáticamente este fenómeno, introducimos RH-AUC, una métrica que cuantifica cómo la precisión de percepción de un modelo cambia con la longitud del razonamiento, lo que nos permite evaluar si el modelo preserva la base visual durante el razonamiento. También liberamos el banquillo Rh, un punto de referencia diagnóstico que abarca una variedad de tareas multimodales, diseñadas para evaluar el intercambio entre la capacidad de razonamiento y el halificador”. “
RH-AUC y RH-Bench, las métricas y los puntos de referencia desarrollados por Liu, Xu y sus colegas, pronto podrían ser utilizados por otros investigadores para evaluar la interacción entre las habilidades de razonamiento de MLLM específicos y el riesgo de alucinar. Además, las observaciones presentadas en el documento del equipo podrían guiar los esfuerzos futuros destinados a desarrollar modelos que puedan abordar de manera confiable tareas de razonamiento complejas sin ser propensos a las alucinaciones.
“Nuestro análisis revela que los modelos más grandes generalmente logran un mejor equilibrio entre el razonamiento y la percepción y que este equilibrio está más influenciado por los tipos y dominios de los datos de entrenamiento que por su volumen general”, escribió Liu, Xu y sus colegas. “Estos hallazgos subrayan la importancia de los marcos de evaluación que consideran conjuntamente tanto la calidad del razonamiento como la fidelidad perceptiva”.
Escrito para usted por nuestro autor Ingrid Fadelli, editado por Gaby Clark, y verificado y revisado por Robert Egan; este artículo es el resultado de un trabajo humano cuidadoso. Confiamos en lectores como usted para mantener vivo el periodismo científico independiente. Si este informe le importa, considere una donación (especialmente mensualmente). Obtendrá una cuenta sin anuncios como agradecimiento.
Más información: Chengzhi Liu et al, más pensamiento, ¿menos ver? Evaluación de la alucinación amplificada en modelos de razonamiento multimodal, ARXIV (2025). Doi: 10.48550/arxiv.2505.21523
Información en el diario: ARXIV
© 2025 Science X Network
Cita: alucinaciones de evaluación comparativa: nuevas pistas métricas donde los modelos de razonamiento multimodal salen mal (2025, 14 de junio) Recuperado el 14 de junio de 2025 de https://techxplore.com/news/2025-06 benchmarking-hallucinations-metric-tracksmultimodal.html
Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.