Modelo Hybrid AI Craft Smooth y videos de alta calidad en segundos

El modelo CausVid puede generar rápidamente clips a partir de un mensaje de texto simple, creando muchas escenas imaginativas y artísticas. Créditos: Alex Shipps/MIT CSail, utilizando imágenes generadas por IA de los investigadores.
¿Cómo sería una mirada detrás de escena a un video generado por un modelo de inteligencia artificial? Puede pensar que el proceso es similar a la animación stop-motion, donde se crean y cosen muchas imágenes, pero ese no es el caso de “modelos de difusión” como Sora de OpenAi y Veo 2 de Google.
En lugar de producir un video marco por marco (o “autorregresivo”), estos sistemas procesan toda la secuencia a la vez. El clip resultante a menudo es fotorrealista, pero el proceso es lento y no permite cambios en la marcha.
Los científicos del Laboratorio de Informática e Inteligencia Artificial del MIT (CSAIL) y Adobe Research han desarrollado un enfoque híbrido, llamado “CausVid”, para crear videos en segundos. Al igual que un estudiante de ingenio rápido que aprende de un maestro bien versado, un modelo de difusión de secuencia completa entrena un sistema autorregresivo para predecir rápidamente el siguiente cuadro al tiempo que garantiza una alta calidad y consistencia. El modelo de estudiante de CausVid puede generar clips a partir de un mensaje de texto simple, convirtiendo una foto en una escena móvil, extendiendo un video o alterando sus creaciones con nuevas entradas a mitad de la generación.
Esta herramienta dinámica permite la creación rápida de contenido interactivo, reduciendo un proceso de 50 pasos en solo unas pocas acciones. Puede crear muchas escenas imaginativas y artísticas, como un avión de papel que se transforma en un cisne, mamuts lanudos que se aventuran a través de la nieve o un niño que salta en un charco. Los usuarios también pueden hacer un aviso inicial, como “Generar a un hombre que cruza la calle” y luego hacer entradas de seguimiento para agregar nuevos elementos a la escena, como “escribe en su cuaderno cuando llega a la acera opuesta”.
Un video producido por CausVid ilustra su capacidad para crear contenido suave y de alta calidad. Crédito: los investigadores
Los investigadores de CSAIL dicen que el modelo podría usarse para diferentes tareas de edición de video, como ayudar a los espectadores a comprender una transmisión en vivo en un lenguaje diferente al generar un video que se sincroniza con una traducción de audio. También podría ayudar a representar contenido nuevo en un videojuego o producir rápidamente simulaciones de entrenamiento para enseñar a los robots nuevas tareas.
Tianwei Yin SM ’25, Ph.D. ’25, un estudiante recientemente graduado en ingeniería eléctrica e informática y afiliado de CSAIL, atribuye la fuerza del modelo a su enfoque mixto.
“CausVid combina un modelo basado en difusión previamente capacitado con una arquitectura autorregresiva que generalmente se encuentra en los modelos de generación de texto”, dice Yin, co-líder de un nuevo artículo sobre la herramienta disponible en el servidor de preimpresión ARXIV. “Este modelo de maestro impulsado por IA puede imaginar pasos futuros para capacitar a un sistema de cuadro por marco para evitar cometer errores de renderizado”.
El co-líder de Yin, Qiang Zhang, es un científico investigador de XAI y un ex investigador visitante de CSAIL. Trabajaron en el proyecto con los científicos de investigación de Adobe Richard Zhang, Eli Shechtman y Xun Huang, y dos investigadores principales de CSAIL: los profesores del MIT Bill Freeman y Frédo Durand.
Causa (vid) y efecto
Muchos modelos autorregresivos pueden crear un video que inicialmente es suave, pero la calidad tiende a caer más adelante en la secuencia. Un clip de una persona que se ejecuta puede parecer realista al principio, pero sus piernas comienzan a agitarse en direcciones antinaturales, lo que indica inconsistencias de marco a marco (también llamada “acumulación de errores”).
La generación de videos propensas a errores fue común en los enfoques causales anteriores, que aprendieron a predecir los marcos uno por uno por su cuenta. En su lugar, CausVid utiliza un modelo de difusión de alta potencia para enseñar a un sistema más simple su experiencia en video general, lo que le permite crear imágenes suaves, pero mucho más rápido.
CausVid permite una creación de video rápida e interactiva, cortando un proceso de 50 pasos en solo unas pocas acciones. Crédito: los investigadores
CausVid mostró su aptitud en video cuando los investigadores probaron su capacidad para hacer videos de alta resolución de 10 segundos de largo. Superó a las líneas de base como “Opensora” y “MovieGen”, trabajando hasta 100 veces más rápido que su competencia mientras producía los clips más estables y de alta calidad.
Luego, Yin y sus colegas probaron la capacidad de CausVid para publicar videos estables de 30 segundos, donde también encabezó modelos comparables en calidad y consistencia. Estos resultados indican que CausVid puede eventualmente producir videos estables, horas, o incluso una duración indefinida.
Un estudio posterior reveló que los usuarios prefirieron los videos generados por el modelo de estudiante de CausVid sobre su maestro basado en la difusión.
“La velocidad del modelo autorregresivo realmente marca la diferencia”, dice Yin. “Sus videos se ven tan bien como los del maestro, pero con menos tiempo para producir, la compensación es que sus imágenes son menos diversas”.
CausVid también se destacó cuando se probó en más de 900 indicaciones utilizando un conjunto de datos de texto a video, recibiendo el puntaje general superior de 84.27. Se jactaba de las mejores métricas en categorías como la calidad de las imágenes y las acciones humanas realistas, eclipsando modelos de generación de videos de última generación como “Vchitect” y “Gen-3”.
Si bien un paso eficiente en la generación de videos de IA, CausVid pronto puede diseñar imágenes aún más rápido, tal vez al instante, con una arquitectura causal más pequeña. Yin dice que si el modelo está entrenado en conjuntos de datos específicos de dominio, es probable que cree clips de mayor calidad para robótica y juegos.
Los expertos dicen que este sistema híbrido es una actualización prometedora de los modelos de difusión, que actualmente están empantanados por las velocidades de procesamiento. “(Los modelos de difusión) son mucho más lentos que las LLM (modelos de idiomas grandes) o los modelos de imagen generativos”, dice el profesor asistente de la Universidad de Carnegie Mellon, Jun-Yan Zhu, quien no participó en el documento.
“Este nuevo trabajo cambia que, haciendo que la generación de videos sea mucho más eficiente. Eso significa una mejor velocidad de transmisión, aplicaciones más interactivas y huellas de carbono más bajas”.
Más información: Tianwei Yin et al, desde modelos lentos bidireccionales a de difusión de video autorregresivos rápidos, ARXIV (2024). Doi: 10.48550/arxiv.2412.07772
Información en la revista: ARXIV proporcionado por el Instituto de Tecnología de Massachusetts
Esta historia se vuelve a publicar por cortesía de MIT News (web.mit.edu/NewsOffice/), un sitio popular que cubre noticias sobre la investigación del MIT, la innovación y la enseñanza.
Cita: Videos del modelo Hybrid AI Crafts Smooth, de alta calidad en segundos (2025, 6 de mayo) recuperados el 6 de mayo de 2025 de https://techxplore.com/news/2025-05-hybrid-ai-crafts-smooth-high.html
Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.