Home Tecnología AI aprende cómo la visión y el sonido están conectados, sin intervención...

AI aprende cómo la visión y el sonido están conectados, sin intervención humana

69
0

Descripción general del enfoque. Nuestro modelo procesa marcos de video y segmentos de audio en paralelo a través de codificadores separados EA y EV, con el codificador de audio EA operando con una granularidad temporal más fina para alinearse mejor con los marcos visuales. Ambas modalidades interactúan a través de la capa articular L y el decodificador de la articulación D El modelo está entrenado con objetivos de reconstrucción y contrastante. Crédito: ARXIV (2025). Doi: 10.48550/arxiv.2505.01237

Los humanos naturalmente aprenden haciendo conexiones entre la vista y el sonido. Por ejemplo, podemos ver a alguien tocar el violonchelo y reconocer que los movimientos del violonchelista están generando la música que escuchamos.

Un nuevo enfoque desarrollado por investigadores del MIT y en otros lugares mejora la capacidad de un modelo de IA de aprender de esta misma manera. Esto podría ser útil en aplicaciones como el periodismo y la producción de películas, donde el modelo podría ayudar a curar el contenido multimodal a través de videos automáticos y recuperación de audio.

A largo plazo, este trabajo podría usarse para mejorar la capacidad de un robot para comprender los entornos del mundo real, donde la información auditiva y visual a menudo está estrechamente conectada.

Mejorando el trabajo previo de su grupo, los investigadores crearon un método que ayuda a los modelos de aprendizaje automático a alinear los datos de audio y visuales correspondientes de los videoclips sin la necesidad de etiquetas humanas.

Ajustaron cómo se capacita su modelo original, por lo que aprende una correspondencia de grano más fino entre un marco de video en particular y el audio que ocurre en ese momento. Los investigadores también hicieron algunos ajustes arquitectónicos que ayudan al sistema a equilibrar dos objetivos de aprendizaje distintos, lo que mejora el rendimiento.

Tomados en conjunto, estas mejoras relativamente simples aumentan la precisión de su enfoque en las tareas de recuperación de videos y en la clasificación de la acción en escenas audiovisuales. Por ejemplo, el nuevo método podría coincidir de forma automática y precisa el sonido de una puerta golpeando con la visual de que se cierre en un videoclip.

“Estamos construyendo sistemas de IA que pueden procesar el mundo como lo hacen los humanos, en términos de que la información de audio y visual llegue a la vez y sea capaz de procesar sin problemas ambas modalidades.

“Mirando hacia el futuro, si podemos integrar esta tecnología audiovisual en algunas de las herramientas que usamos a diario, como los modelos de idiomas grandes, podría abrir muchas aplicaciones nuevas”, dice Andrew Rouditchenko, estudiante graduado del MIT y coautor de un artículo sobre esta investigación publicada en el servidor de preimpresión ARXIV.

Se le une al periódico el autor principal Edson Aroujo, un estudiante graduado en la Universidad de Goethe en Alemania; Yuan Gong, un ex postdoc de MIT; Saurabhchand Bhati, un MIT postdoc actual; Samuel Thomas, Brian Kingsbury y Leonid Karlinsky de IBM Research; Rogerio Feris, científico principal y gerente del laboratorio MIT-IBM Watson AI; James Glass, científico de investigación senior y jefe del Grupo de Sistemas de Lenguas Hablados en el Laboratorio de Informática e Inteligencia Artificial del MIT (CSAIL); y la autora senior Hilde Kuehne, profesora de ciencias de la computación en la Universidad de Goethe y profesora afiliada en el MIT-IBM Watson AI Lab.

El trabajo se presentará en la conferencia sobre visión por computadora y reconocimiento de patrones (CVPR 2025), que se llevará a cabo en Nashville del 11 al 15 de junio.

Sincronizando

Este trabajo se basa en un método de aprendizaje automático que los investigadores desarrollaron hace unos años, que proporcionó una forma eficiente de capacitar a un modelo multimodal para procesar simultáneamente los datos de audio y visual sin la necesidad de etiquetas humanas.

Los investigadores alimentan este modelo, llamado cav-mae, videoclips sin etiquetar y codifica los datos visuales y de audio por separado en representaciones llamadas tokens. Usando el audio natural de la grabación, el modelo aprende automáticamente a mapear los pares de audio y tokens visuales correspondientes que se cierran juntos dentro de su espacio de representación interna.

Descubrieron que el uso de dos objetivos de aprendizaje equilibra el proceso de aprendizaje del modelo, lo que permite a Cav-mae comprender los datos de audio y visuales correspondientes al tiempo que mejora su capacidad para recuperar videoclips que coinciden con las consultas de los usuarios.

Pero Cav-mae trata las muestras de audio y visual como una unidad, por lo que un video clip de 10 segundos y el sonido de un golpe de puerta se asignan juntos, incluso si ese evento de audio ocurre en solo un segundo del video.

En su modelo mejorado, llamado Cav-Mae Sync, los investigadores dividen el audio en ventanas más pequeñas antes de que el modelo calcule sus representaciones de los datos, por lo que genera representaciones separadas que corresponden a cada ventana de audio más pequeña.

Durante la capacitación, el modelo aprende a asociar un marco de video con el audio que ocurre solo durante ese cuadro.

“Al hacerlo, el modelo aprende una correspondencia de grano más fino, que ayuda con el rendimiento más adelante cuando agregamos esta información”, dice Araujo.

También incorporaron mejoras arquitectónicas que ayudan al modelo a equilibrar sus dos objetivos de aprendizaje.

Agregar ‘margen de maniobra’

El modelo incorpora un objetivo contrastante, donde aprende a asociar datos de audio y visuales similares, y un objetivo de reconstrucción que tiene como objetivo recuperar datos de audio y visuales específicos basados ​​en consultas de usuarios.

En Cav-Mae Sync, los investigadores introdujeron dos nuevos tipos de representaciones de datos, o tokens, para mejorar la capacidad de aprendizaje del modelo.

Incluyen “tokens globales” dedicados que ayudan con el objetivo de aprendizaje contrastante y los “tokens de registro” dedicados que ayudan al modelo a centrarse en detalles importantes para el objetivo de reconstrucción.

“Esencialmente, agregamos un poco más de margen de maniobra al modelo para que pueda realizar cada una de estas dos tareas, contrastantes y reconstructivas, un poco más independientes. Eso benefició al rendimiento general”, agrega Araujo.

Si bien los investigadores tuvieron cierta intuición, estas mejoras mejorarían el rendimiento de la sincronización Cav-mae, se requirió una cuidadosa combinación de estrategias para cambiar el modelo en la dirección que querían que fuera.

“Debido a que tenemos múltiples modalidades, necesitamos un buen modelo para ambas modalidades por sí mismos, pero también necesitamos que se fusionen y colaboren”, dice Rouditchenko.

Al final, sus mejoras mejoraron la capacidad del modelo para recuperar videos basados ​​en una consulta de audio y predecir la clase de una escena de audio visual, como un perro que ladra o un instrumento.

Sus resultados fueron más precisos que su trabajo anterior, y también funcionó mejor que los métodos más complejos y de última generación que requieren mayores cantidades de datos de capacitación.

“A veces, las ideas muy simples o los pequeños patrones que ve en los datos tienen un gran valor cuando se aplica sobre un modelo en el que está trabajando”, dice Araujo.

En el futuro, los investigadores quieren incorporar nuevos modelos que generen mejores representaciones de datos en la sincronización Cav-Mae, lo que podría mejorar el rendimiento. También quieren permitir que su sistema maneje los datos de texto, lo que sería un paso importante para generar un modelo de lenguaje grande audiovisual.

Más información: Edson Araujo et al, Cav-mae Sync: Mejora de los autoencoders de máscara audiovisual contrastante a través de la alineación de grano fino, ARXIV (2025). Doi: 10.48550/arxiv.2505.01237

Información en la revista: ARXIV proporcionado por el Instituto de Tecnología de Massachusetts

Esta historia se vuelve a publicar por cortesía de MIT News (web.mit.edu/NewsOffice/), un sitio popular que cubre noticias sobre la investigación del MIT, la innovación y la enseñanza.

Cita: AI aprende cómo se conectan la visión y el sonido, sin intervención humana (2025, 22 de mayo) recuperada el 22 de mayo de 2025 de https://techxplore.com/news/2025-05-ai-vision-human-intervention.html

Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.