Original vs C3 (nuestro). En comparación con los modelos de difusión originales, nuestro C3 genera constantemente imágenes más creativas sin un costo computacional adicional. Crédito: ARXIV (2025). Doi: 10.48550/arxiv.2503.23538
Recientemente, los modelos de generación de imágenes basados en texto pueden crear automáticamente imágenes de alta resolución y alta calidad únicamente a partir de descripciones del lenguaje natural. Sin embargo, cuando un ejemplo típico como el modelo de difusión estable recibe el texto “creativo”, su capacidad para generar imágenes verdaderamente creativas sigue siendo limitada.
Los investigadores KAIST han desarrollado una tecnología que puede mejorar la creatividad de los modelos de generación de imágenes basados en texto, como la difusión estable sin capacitación adicional, lo que permite a la IA dibujar diseños creativos de silla que están lejos de ser ordinarios.
El equipo de investigación del profesor Jaesik Choi en Kaist Kim Jaechul Graduate School of AI, en colaboración con el laboratorio de Naver Ai, desarrolló esta tecnología para mejorar la generación creativa de modelos generativos de IA sin la necesidad de capacitación adicional. El trabajo es publicado En el servidor de preimpresión ARXIV, el código es Disponible en Github.
El equipo de investigación del profesor Choi desarrolló una tecnología para mejorar la generación creativa al amplificar los mapas de características internos de los modelos de generación de imágenes basados en texto. También descubrieron que los bloques poco profundos dentro del modelo juegan un papel crucial en la generación creativa. Confirmaron que amplificar los valores en la región de alta frecuencia después de convertir mapas de características en el dominio de frecuencia puede conducir a ruido o patrones de color fragmentados.
En consecuencia, el equipo de investigación demostró que amplificar la región de baja frecuencia de los bloques poco profundos puede mejorar efectivamente la generación creativa.
Descripción general de la metodología investigada por el equipo de desarrollo. Después de convertir el mapa de características internos de un modelo generativo previamente capacitado en el dominio de frecuencia a través de la transformación rápida de Fourier, la región de baja frecuencia del mapa de características se amplifica, luego se transforma en el espacio de características a través de la transformación inversa de Fourier rápida para generar una imagen. Crédito: El Instituto Avanzado de Ciencia y Tecnología de Corea (KAIST)
Teniendo en cuenta la originalidad y la utilidad como dos elementos clave que definen la creatividad, el equipo de investigación propuso un algoritmo que selecciona automáticamente el valor de amplificación óptimo para cada bloque dentro del modelo generativo.
A través del algoritmo desarrollado, la amplificación apropiada de los mapas de características internos de un modelo de difusión estable previamente capacitado pudo mejorar la generación creativa sin datos o capacitación de clasificación adicional.
El equipo de investigación demostró cuantitativamente, utilizando varias métricas, que su algoritmo desarrollado puede generar imágenes que son más novedosas que las de los modelos existentes, sin comprometer significativamente la utilidad.
En particular, confirmaron un aumento en la diversidad de imágenes al mitigar el problema de colapso del modo que ocurre en el modelo SDXL-Turbo, que se desarrolló para mejorar significativamente la velocidad de generación de imágenes del modelo de difusión XL (SDXL) estable. Además, los estudios de usuarios mostraron que la evaluación humana también confirmó una mejora significativa en la novedad en relación con la utilidad en comparación con los métodos existentes.
Ejemplos de aplicación de la metodología investigada por el equipo de desarrollo. Varios modelos de difusión estable generan imágenes novedosas en comparación con las generaciones existentes mientras mantienen el significado del objeto generado. Crédito: El Instituto Avanzado de Ciencia y Tecnología de Corea (KAIST)
Jiyeon Han y Dahee Kwon, Ph.D. Los candidatos de Kaist y co-directos de los autores del documento, declararon: “Esta es la primera metodología para mejorar la generación creativa de modelos generativos sin nuevos entrenamiento o ajuste. Hemos demostrado que la creatividad latente dentro de los modelos generativos de IA entrenados se puede mejorar a través de la manipulación del mapa de características”.
Agregaron: “Esta investigación facilita la generación de imágenes creativas utilizando solo texto de modelos capacitados existentes. Se espera que proporcione una nueva inspiración en varios campos, como el diseño creativo del producto, y contribuya a la aplicación práctica y útil de los modelos de IA en el ecosistema creativo”.
Esta investigación, en coautoría de Jiyeon Han y Dahee Kwon, Ph.D. Los candidatos de la Escuela de Graduados de AI de Kaist Kim Jaechul se presentaron el 16 de junio en la Conferencia Internacional sobre Visión por Computadora y Reconocimiento de Patrones (CVPR), una conferencia académica internacional.
Más información: Jiyeon Han et al, mejorando la generación creativa en modelos estables basados en difusión, ARXIV (2025). Doi: 10.48550/arxiv.2503.23538
Información en el diario: ARXIV
Proporcionado por el Instituto Avanzado de Ciencia y Tecnología de Corea (KAIST)
Cita: los modelos de imagen de IA obtienen una ventaja creativa al amplificar las características de baja frecuencia (2025, 20 de junio) Recuperado el 20 de junio de 2025 de https://techxplore.com/news/2025-06-ai-image-gain-creative-edge.html
Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.








