Las personas ciegas y de baja visión solicitan descripciones de videos en YouDescribe, pero solo se completan el 7%. AI está acelerando el proceso. Crédito: Matthew Modono/Northeastern University
Para las personas que son ciegas o tienen baja visión, las descripciones de audio de la acción en películas y programas de televisión son esenciales para comprender lo que está sucediendo. Las redes y los servicios de transmisión contratan profesionales para crear descripciones de audio, pero ese no es el caso de miles de millones de videos de YouTube y Tiktok.
Eso no significa que las personas no quieran acceso al contenido.
Utilizando AI Vision Language Models (VLM), los investigadores de la Northeastern University están haciendo que las descripciones de audio estén disponibles para videos generados por el usuario como parte de una plataforma de crowdsourced llamada YouDescribe. Al igual que una biblioteca, los usuarios ciegos y de baja visión pueden solicitar descripciones para videos, y luego calificar y contribuir a ellos.
“Es comprensible que un video de 20 segundos sobre Tiktok de alguien bailando no tenga una descripción profesional”, dice Lana Do, quien recibió su maestría en informática del campus de Silicon Valley del Northeastern en mayo. “Pero a las personas ciegas y de baja visión les gustaría ver ese video de baile también”.
De hecho, un video de 2020 de la canción de Boy Boy de Corea del Sur “Dinamita“Está en la parte superior de la lista de deseos de YouDescribe, esperando ser descrita. La plataforma tiene 3.000 descripción voluntaria, pero la lista de deseos es tan larga que no pueden seguir el ritmo. Solo el 7% de los videos solicitados en la lista de deseos tienen descripciones de audio, dice DO.
Do trabaja en el laboratorio de Ilmi Yoon, profesor de informática en el campus de Silicon Valley. Yoon se unió al equipo de YouDescribe en 2018 para desarrollar los elementos de aprendizaje automático de la plataforma.
Este año, agregó nuevas funciones para acelerar el flujo de trabajo humano en el circuito de YouDescribe. La nueva tecnología VLM proporciona descripciones de mejor calidad, y una nueva herramienta Infobot permitirá a los usuarios solicitar más información sobre un marco de video específico. Los usuarios de baja visión pueden incluso corregir errores en las descripciones con una interfaz de edición colaborativa, dice DO.
El resultado hará que las descripciones de contenido de video sean mejores y más rápidamente disponibles. Los borradores generados por IA alivian la carga de los descripción humana, y los usuarios pueden participar fácilmente en el proceso a través de calificaciones y comentarios, dijo.
“Podrían decir que estaban viendo un documental ambientado en un bosque y escucharon un sonido de aleteo que no se describió”, dice, “y se preguntaron qué era”.
Do y sus colegas presentaron un artículo recientemente en el Simposio sobre la interacción humana-computadora para el trabajo en Amsterdam sobre el potencial de IA para acelerar el desarrollo de descripciones de audio. AI hace un trabajo sorprendentemente bueno, dice Yoon, para describir las expresiones y movimientos humanos. En este videoUn agente de IA describe los pasos que toma un chef mientras hace rollos de queso.
Pero hay algunas debilidades consistentes, dice ella. La IA no es tan buena para leer expresiones faciales en dibujos animados. Y en general, los humanos son mejores para recoger los detalles más importantes de una escena, una habilidad clave para crear una descripción útil.
“Es muy laborioso”, dice Yoon.
Los estudiantes graduados en su laboratorio comparan los primeros borradores de la IA con lo que crean los descripción humana.
“Luego medimos los huecos para que podamos entrenar a la IA para hacer un mejor trabajo”, dice ella. “Los usuarios ciegos no quieren distraerse con demasiada descripción verbal. Es un arte editorial verbalizar la información más importante de una manera concisa”.
YouDescribe fue lanzado en 2013 por el Smith-Kettlewell Eye Research Institute, con sede en San Francisco, para capacitar a voluntarios avistados en la creación de descripciones de audio. Con un enfoque en los videos de YouTube y Tiktok, la plataforma ofrece tutoriales para la narración de grabación y cronometraje que hacen que el contenido de video generado por el usuario sea accesible.
Proporcionado por la Universidad del Nordeste
Esta historia se vuelve a publicar por cortesía de Northeastern Global News News.northeastern.edu.
Cita: AI Vision Language Models proporciona descripciones de video para usuarios ciegos (2025, 30 de junio) recuperado el 30 de junio de 2025 de https://techxplore.com/news/2025-06-ai-vision-language-video-descriptions.html
Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.