Home Tecnología Google acaba de lanzar nuevos modelos de IA para video e imágenes

Google acaba de lanzar nuevos modelos de IA para video e imágenes

19
0

Google tiene un nuevo modelo de generación de imágenes para mostrarle. Crédito: Google

El ritmo del progreso de la IA no muestra signos de flojo. Después de la actualización de la imagen grande de ChatGPT hace unas semanas, ahora es el turno de Google para mostrar nuevos modelos para generar videos e imágenes a partir de indicaciones de texto: tenemos VEO 3 (para video) e Imagen 4 (para imágenes), anunciados durante Google I/O 2025, y vienen con algunas mejoras significativas.

Comenzando con VEO 3, es el siguiente paso del modelo VEO 2 que recientemente fue expulsado a pagar a los suscriptores de Géminis el mes pasado. Google dice que Veo 3 trae mejoras notables en la física del mundo real (algo con lo que el video de IA a menudo lucha) y detalles como la sincronización de labios. En resumen: tus clips deberían verse más realistas que nunca.

Hay otra actualización crucial aquí, y eso es sonido. Anteriormente, los clips hechos VEO llegaron sin ningún audio adjunto, pero la IA ahora es lo suficientemente inteligente como para agregar sonidos ambientales adecuados, que incluyen ruido de tráfico, sonidos de vida silvestre e incluso diálogos entre los personajes.

Google ha proporcionado algunos videos de ejemplo para mostrar las nuevas capacidades, como era de esperar, incluido Old Sailor. Por supuesto, es impresionante que se pueda producir un clip como este a partir de un mensaje de texto, y depende de un alto nivel en términos de realismo: ya no tenemos las manos de seis dedos que solíamos con IA.

Aún así, los sellos distintivos habituales de la inteligencia artificial son evidentes: este es un marinero genérico, en un mar genérico, que habla un diálogo genérico sobre el océano. Es un puré juntos y promediando cada video del mar y los viejos marineros en los que Veo 3 ha sido entrenado, y puede o no coincidir con el aviso original (que Google no ha dado).

VEO 3 solo está disponible para aquellos lo suficientemente valientes como para pagar $ 250 al mes por el plan AI Ultra de Google, pero VEO 2 también recibe algunas actualizaciones para aquellos de nosotros que pagamos una décima parte de eso por AI Pro. Ahora es mejor en el control y la consistencia, según Google, con movimientos de cámara y superación mejorados (expandiendo la vista de un marco). También puede probar y eliminar objetos de clips ahora.

Pasando a las imágenes: tenemos Imagen 4, el sucesor de Imagen 3. Aquí, se nos promete “claridad notable en detalles finos como telas intrincadas, gotas de agua y pieles de animales”, más apoyo para resoluciones más altas (hasta 2K) y más relaciones de aspecto. Obtiene resultados de primer nivel en estilos fotorrealistas y abstractos, según Google.

¿Qué piensas hasta ahora?

Hay ovejas tan grandes como tractores en el mundo de AI de Google. Crédito: Google

Google también ha abordado uno de los principales problemas con la generación de imágenes de IA, que es la tipografía. Imagen 4 es aparentemente mucho mejor que los modelos que vinieron ante él en términos de hacer que los personajes y las palabras parezcan cohesivos y precisos, sin una ortografía o letras extrañas que se disuelvan en jeroglíficos ininteligibles.

Imagen 4 ya está disponible para todos los usuarios, dentro de la aplicación Gemini. Google no ha mencionado ningún límite de uso, aunque presumiblemente si no tiene una suscripción, alcanzará estos límites más rápidamente, como es el caso de Imagen 3 (no hay una cuota fija para estos límites, y parece que dependen de la demanda general de la infraestructura de IA de Google).

Las muestras cuidadosamente seleccionadas que Google ha proporcionado se ve bien, sin ningún error obvio o inexactitudes, solo el brillo de IA habitual. Imagen 4 también es más rápido que Imagen 3, dice Google, con más mejoras en camino: una variante en el modelo que es 10 veces más rápido que Imagen 3 se lanzará pronto.

Hay una herramienta más de imagen y video de la que hablar: flujo. Es una herramienta de película AI de Google que reúne sus modelos de texto, video e imagen para ayudarlo a unir escenas sucesivas que son consistentes, con los mismos personajes y ubicaciones. Puede usar el flujo si es un suscriptor de IA Pro o AI Ultra, con mayores límites de uso y mejores modelos para aquellos en el plan más caro.