Home Tecnología Los modelos en idioma de visión no pueden manejar consultas con palabras...

Los modelos en idioma de visión no pueden manejar consultas con palabras de negación, muestra el estudio

56
0

Presentamos a Negbench con la recuperación de imágenes y las tareas de Multiplecoice para evaluar la comprensión de la negación. Los modelos basados ​​en clip frecuentemente malinterpretan la negación en ambas tareas, pero mostramos cómo un enfoque de datos sintéticos puede mejorar el rendimiento. Crédito: ARXIV (2025). Doi: 10.48550/arxiv.2501.09425

Imagine un radiólogo que examina una radiografía de tórax de un nuevo paciente. Ella se da cuenta de que el paciente tiene hinchazón en el tejido pero no tiene un corazón agrandado. Buscando acelerar el diagnóstico, podría usar un modelo de aprendizaje automático en idioma visión para buscar informes de pacientes similares.

Pero si el modelo identifica erróneamente los informes con ambas afecciones, el diagnóstico más probable podría ser bastante diferente: si un paciente tiene inflamación de tejido y un corazón agrandado, es muy probable que la condición esté relacionada con el cardíaco, pero sin el corazón agrandado podría haber varias causas subyacentes.

En un nuevo estudio que aparece en el servidor de preimpresión ARXIV, los investigadores del MIT han descubierto que los modelos en idioma de visión son extremadamente probables que cometen tal error en situaciones del mundo real porque no entienden la negación, palabras como “no” y “no” que especifiquen lo que es falso o ausente.

“Esas palabras de negación pueden tener un impacto muy significativo, y si solo estamos usando estos modelos a ciegas, podemos tener consecuencias catastróficas”, dice Kumail Alhamoud, un estudiante graduado del MIT y autor principal de este estudio.

Los investigadores probaron la capacidad de los modelos en idioma de visión para identificar la negación en los subtítulos de imágenes. Los modelos a menudo se desempeñaban tan bien como una suposición aleatoria. Sobre la base de esos hallazgos, el equipo creó un conjunto de datos de imágenes con subtítulos correspondientes que incluyen palabras de negación que describen objetos faltantes.

Muestran que reentrenamiento de un modelo en idioma de visión con este conjunto de datos conduce a mejoras de rendimiento cuando se le pide a un modelo que recupere imágenes que no contengan ciertos objetos. También aumenta la precisión en la respuesta de preguntas de opción múltiple con subtítulos negados.

Pero los investigadores advierten que se necesita más trabajo para abordar las causas fundamentales de este problema. Esperan que su investigación alerta a los usuarios potenciales de una deficiencia previamente desapercibida que podría tener serias implicaciones en entornos de alto riesgo donde se están utilizando actualmente estos modelos, desde determinar qué pacientes reciben ciertos tratamientos hasta identificar defectos del producto en las plantas de fabricación.

“Este es un documento técnico, pero hay problemas mayores a considerar. Si algo tan fundamental como la negación se rompe, no deberíamos usar grandes modelos de visión/lenguaje en muchas de las formas en que los estamos utilizando ahora, sin una evaluación intensiva”, dice el autor senior Marzyeh Ghassemi, profesor asociado en el departamento de Ingeniería Eléctrica e Informática (EECS) y un miembro del Instituto del Instituto del Instituto del Instituto de Sciences y el Laboratorio de Laboratorios para la Información y el Sistema de la Información de la Información y la Información.

Ghassemi y Alhamoud se unen en el papel de Shaden Alshammari, un estudiante graduado del MIT; Yonglong Tian de Openai; Guohao Li, un ex postdoc de la Universidad de Oxford; Philip HS Torr, profesor en Oxford; y Yoon Kim, profesor asistente de EEC y miembro del Laboratorio de Informática e Inteligencia Artificial (CSAIL) en el MIT. La investigación se presentará en la conferencia sobre visión por computadora y reconocimiento de patrones.

Descuidar la negación

Los modelos en idioma de visión (VLM) están entrenados utilizando enormes colecciones de imágenes y subtítulos correspondientes, que aprenden a codificar como conjuntos de números, llamados representaciones vectoriales. Los modelos usan estos vectores para distinguir entre diferentes imágenes.

Un VLM utiliza dos codificadores separados, uno para texto y otro para imágenes, y los codificadores aprenden a generar vectores similares para una imagen y su título de texto correspondiente.

“Los subtítulos expresan lo que hay en las imágenes: son una etiqueta positiva. Y ese es en realidad todo el problema. Nadie mira una imagen de un perro que salta sobre una cerca y la subtitula diciendo ‘un perro que salta sobre una cerca, sin helicópteros'”, dice Ghassemi.

Debido a que los conjuntos de datos de aplicación de imagen no contienen ejemplos de negación, VLM nunca aprende a identificarlo.

Para profundizar en este problema, los investigadores diseñaron dos tareas de referencia que prueban la capacidad de los VLM para comprender la negación.

Para el primero, utilizaron un modelo de lenguaje grande (LLM) para volver a aplicar imágenes en un conjunto de datos existente pidiéndole a LLM que piense en objetos relacionados que no están en una imagen y las escriban en el título. Luego probaron los modelos incitándoles con palabras de negación para recuperar imágenes que contienen ciertos objetos, pero no otros.

Para la segunda tarea, diseñaron preguntas de opción múltiple que le piden a un VLM que seleccione el título más apropiado de una lista de opciones estrechamente relacionadas. Estos subtítulos difieren solo agregando una referencia a un objeto que no aparece en la imagen o negando un objeto que aparece en la imagen.

Los modelos a menudo fallaban en ambas tareas, con un rendimiento de recuperación de imágenes en casi un 25% con subtítulos negados. Cuando se trataba de responder preguntas de opción múltiple, los mejores modelos solo lograron aproximadamente un 39% de precisión, con varios modelos que se desempeñaron en o incluso a una oportunidad aleatoria.

Una razón para esta falla es un atajo que los investigadores llaman sesgo de afirmación: los VLM ignoran las palabras de negación y se centran en los objetos en las imágenes.

“Esto no solo sucede para palabras como ‘no’ y ‘no”. Independientemente de cómo exprese negación o exclusión, los modelos simplemente lo ignorarán “, dice Alhoud.

Esto fue consistente en cada VLM que probaron.

‘Un problema solucionable’

Dado que los VLM no suelen ser entrenados en subtítulos de imagen con negación, los investigadores desarrollaron conjuntos de datos con palabras de negación como primer paso para resolver el problema.

Utilizando un conjunto de datos con 10 millones de pares de subtítulos de texto de imagen, llevaron a un LLM a proponer subtítulos relacionados que especifiquen lo que se excluye de las imágenes, produciendo nuevos subtítulos con palabras de negación.

Tenían que tener especialmente cuidado de que estos subtítulos sintéticos aún se lean naturalmente, o podría hacer que un VLM falle en el mundo real cuando se enfrentan con subtítulos más complejos escritos por humanos.

Descubrieron que el ajuste de VLM con su conjunto de datos condujo a ganancias de rendimiento en todos los ámbitos. Mejoró las habilidades de recuperación de imágenes de los modelos en aproximadamente un 10%, al tiempo que aumenta el rendimiento en la tarea de respuesta de opción múltiple en aproximadamente un 30%.

“Pero nuestra solución no es perfecta. Solo estamos recapitando conjuntos de datos, una forma de aumento de datos. Ni siquiera hemos tocado cómo funcionan estos modelos, pero esperamos que esta sea una señal de que este es un problema solucionable y otros pueden tomar nuestra solución y mejorarla”, dice Alhoud.

Al mismo tiempo, espera que su trabajo aliente a más usuarios a pensar en el problema que desean usar un VLM para resolver y diseñar algunos ejemplos para probarlo antes de la implementación.

En el futuro, los investigadores podrían ampliar este trabajo enseñando VLM para procesar texto e imágenes por separado, lo que puede mejorar su capacidad para comprender la negación. Además, podrían desarrollar conjuntos de datos adicionales que incluyan pares de aplicación de imágenes para aplicaciones específicas, como la atención médica.

Más información: Kumail Alhamoud et al, los modelos en idioma de visión no entienden la negación, ARXIV (2025). Doi: 10.48550/arxiv.2501.09425

Información en la revista: ARXIV proporcionado por el Instituto de Tecnología de Massachusetts

Esta historia se vuelve a publicar por cortesía de MIT News (web.mit.edu/NewsOffice/), un sitio popular que cubre noticias sobre la investigación del MIT, la innovación y la enseñanza.

Cita: los modelos en lenguaje de visión no pueden manejar consultas con palabras de negación, muestra el estudio (2025, 14 de mayo) recuperado el 14 de mayo de 2025 de https://techxplore.com/news/2025-05-vision-language- queries-negation-words.html

Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.