Home Tecnología El marco de la cadena de zoom permite el zoom de súper...

El marco de la cadena de zoom permite el zoom de súper resolución extrema sin reestructuración

104
0

Crédito: Bryan Sangwoo Kim et al

Un trío de investigadores de IA en Kaist AI, en Corea, ha desarrollado lo que llaman un marco de la cadena de zoom que permite la generación de imágenes de supervolución extrema que utiliza modelos de súper resolución existentes sin la necesidad de reentrenamiento.

En su estudio publicado en el servidor de preimpresión de Arxiv, Bryan Sangwoo Kim, Jeongsol Kim y Jong Chul Ye desglosaron el proceso de acercarse a una imagen y luego utilizaron un modelo de súper resolución existente en cada paso para refinar la imagen, lo que resultó en mejoras incrementales en la resolución.

El equipo en Corea comenzó señalando que los marcos existentes para mejorar la resolución de las imágenes tienden a usar la interpolación o la regresión al zoom, lo que resulta en imágenes borrosas. Para superar estos problemas, adoptaron un nuevo enfoque, utilizando un proceso de zoom gradual, en el que los pasos posteriores mejoran los que vinieron antes.

Los investigadores llaman a su nueva cadena de marco de zoom (COZ), debido a la cadena de procesos que se utilizan para mejorar la resolución.

Para cada paso, el nuevo marco utiliza un modelo de súper resolución (SR) que ya existe para comenzar el proceso de refinamiento. A medida que se está llevando a cabo un procesamiento, un modelo de lenguaje de visión (VLM) genera indicaciones descriptivas que ayudan al modelo SR a realizar el proceso de generación. El resultado es la generación de una parte zoom de la primera imagen.

(a) SR convencional. Cuando una columna vertebral SR entrenada para un factor fijo a escala ascendente (por ejemplo, 4X) se empuja a magnificaciones mucho mayores más allá de su régimen de entrenamiento, se producen desenfoque y artefactos. (b) Cadena de zoom (nuestra). A partir de una entrada LR, un VLM previamente practicado genera un aviso descriptivo que, en conjunto con la imagen, se alimenta a la misma columna vertebral SR para producir el siguiente estado de escala de recursos humanos. Se repite este ciclo de inmediato y de compensación, lo que permite que un solo modelo de estampado se suba a resoluciones extremas (16x-256x) mientras preserva detalles agudos y fidelidad semántica. Crédito: ARXIV (2025). Doi: 10.48550/arxiv.2505.18600

Luego, el marco repite el proceso, utilizando señales útiles de VLM, repetidamente, mejorando la resolución de la imagen con zoom cada vez, hasta que se establece en una versión final. Para garantizar que las indicaciones dadas por el VLM fueran útiles, el equipo de investigación aplicó técnicas de aprendizaje de refuerzo. Las pruebas del marco mostraron que es capaz de superar las imágenes generadas por puntos de referencia estándar.

Los investigadores señalan que su marco no requiere reentrenamiento para mejorar la calidad de la imagen, lo que, sugieren, lo hace más portátil. También afirman que los usuarios deben tener cuidado con cómo se usa su marco. La imagen zoom no es real: se ha generado utilizando inteligencia artificial.

Por lo tanto, si se utilizara para distinguir las letras y/o números en una placa de escape de un automóvil utilizada durante un robo bancario, por ejemplo, podría mostrar algunas letras y números muy claros, pero podrían no igualar las del automóvil real.

Más información: Bryan Sangwoo Kim et al, Chain-of-Zoom: Super-Resolución extrema a través de la autorregresión de escala y la alineación de preferencias, ARXIV (2025). Doi: 10.48550/arxiv.2505.18600

Página del proyecto: bryanswkim.github.io/chain-of-zoom/

Información en el diario: ARXIV

© 2025 Science X Network

Cita: el marco Chain-of-Zoom habilita el zoom de super-resolución extremo sin capacitación (2025, 4 de junio) Recuperado el 4 de junio de 2025 de https://techxplore.com/news/2025-06-hainframework-enables-extreme-super.html

Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.