Home Tecnología Blossoms AI de texto a video con nuevas capacidades de video metamórfica

Blossoms AI de texto a video con nuevas capacidades de video metamórfica

65
0

Descripción general del enfoque propuesto de Magictime. Crédito: ARXIV: doi: 10.48550/arxiv.2404.05014

Si bien los modelos de inteligencia artificial de texto a video como Sora de OpenAi se metamorfosis rápidamente frente a nuestros ojos, han luchado por producir videos metamórficos. Simular un árbol que brota o una floración de flores es más difícil para los sistemas de IA que generar otros tipos de videos porque requiere el conocimiento del mundo físico y puede variar ampliamente.

Pero ahora, estos modelos han dado un paso evolutivo.

Los informáticos de la Universidad de Rochester, la Universidad de Pekín, la Universidad de California, Santa Cruz y la Universidad Nacional de Singapur desarrollaron un nuevo modelo de texto a video de IA que aprende el conocimiento físico del mundo real de los videos de lapso de tiempo. El equipo describe su modelo, MagicteMe, en un artículo publicado en IEEE Transactions on Pattern Analysis and Machine Intelligence.

“MagicteMe es un paso hacia la IA que puede simular mejor las propiedades físicas, químicas, biológicas o sociales del mundo que nos rodea”, dice Computer Science Ph.D. Estudiante Jinfa Huang. Crédito: Universidad de Rochester GIF creado usando MagicteMe

“Se ha desarrollado inteligencia artificial para tratar de comprender el mundo real y simular las actividades y eventos que tienen lugar”, dice Jinfa Huang, un doctorado. Estudiante supervisado por el profesor Jiebo Luo del Departamento de Ciencias de la Computación de Rochester, quienes se encuentran entre los autores del periódico. “MagicteMe es un paso hacia la IA que puede simular mejor las propiedades físicas, químicas, biológicas o sociales del mundo que nos rodea”.

Los modelos anteriores generaron videos que generalmente tienen un movimiento limitado y malas variaciones. Para capacitar a los modelos de IA para imitar los procesos metamórficos de manera más efectiva, los investigadores desarrollaron un conjunto de datos de alta calidad de más de 2,000 videos de lapso de tiempo con subtítulos detallados.

“Dough (…) se hincha y marrones en el horno (…)” Crédito: Shenghai Yuan et al

Actualmente, la versión U-Net de código abierto de MagicTime genera clips de dos segundos y 512 por 512 píxeles (a 8 cuadros por segundo), y una arquitectura de transformador de difusión acompañante extiende esto a clips de 10 segundos. El modelo se puede utilizar para simular no solo la metamorfosis biológica sino también los edificios que se someten a construcción o al horno de pan en el horno.

Pero si bien los videos generados son visualmente interesantes y la demostración puede ser divertida para jugar, los investigadores ven esto como un paso importante hacia modelos más sofisticados que podrían proporcionar herramientas importantes para los científicos.

“Nuestra esperanza es que algún día, por ejemplo, los biólogos puedan usar videos generativos para acelerar la exploración preliminar de las ideas”, dice Huang. “Si bien los experimentos físicos siguen siendo indispensables para la verificación final, las simulaciones precisas pueden acortar los ciclos de iteración y reducir el número de ensayos vivos necesarios”.

Más información: Shenghai Yuan et al, MagicteMe: modelos de generación de videos de lapso de tiempo como simuladores metamórficos, transacciones IEEE en análisis de patrones e inteligencia de máquinas (2025). Doi: 10.1109/tpami.2025.3558507. En arxiv: doi: 10.48550/arxiv.2404.05014

Proporcionado por la Universidad de Rochester

Cita: Blossoms de AI de texto a video con nuevas capacidades de video metamórfica (2025, 5 de mayo) Recuperado el 5 de mayo de 2025 de https://techxplore.com/news/2025-05-text-video-ai-blossoms-metamorphic.html

Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.