Un sistema capaz de generar imágenes normalmente requiere un tokenizer, que comprime y codifica datos visuales, junto con un generador que puede combinar y organizar estas representaciones compactas para crear imágenes novedosas. Los investigadores del MIT descubrieron un nuevo método para crear, convertir e “In -Pint” imágenes sin usar un generador en absoluto. Esta imagen muestra cómo una imagen de entrada se puede modificar gradualmente mediante la optimización de tokens. Crédito: Instituto de Tecnología de Massachusetts
La generación de imágenes de IA, que se basa en redes neuronales para crear nuevas imágenes a partir de una variedad de entradas, incluidas las indicaciones de texto, se convierte en una industria de mil millones de dólares para fines de esta década. Incluso con la tecnología actual, si quisieras hacer una imagen fantasiosa de, por ejemplo, un amigo que plantea una bandera en Marte o volando sin atención en un agujero negro, podría tomar menos de un segundo.
Sin embargo, antes de que puedan realizar tareas como esa, los generadores de imágenes se entrenan comúnmente en conjuntos de datos masivos que contienen millones de imágenes que a menudo se combinan con texto asociado. La capacitación de estos modelos generativos puede ser una tarea ardua que lleva semanas o meses, consumiendo grandes recursos computacionales en el proceso.
Pero, ¿qué pasaría si fuera posible generar imágenes a través de métodos de IA sin usar un generador? Esa posibilidad real, junto con otras ideas intrigantes, se describió en un trabajo de investigación presentado en el Conferencia internacional sobre aprendizaje automático (ICML 2025)que se celebró en Vancouver, Columbia Británica, a principios de este verano.
El artículo, que describe técnicas novedosas para manipular y generar imágenes, es publicado en el servidor de preimpresión ARXIV.
Fue escrito por Lukas Lao Beyer, un investigador de estudiantes graduados en el Laboratorio de MIT para Sistemas de Información y Decisión (LIDS); Tianhong Li, Postdoc en el Laboratorio de Informática e Inteligencia Artificial del MIT (CSAIL); Xinlei Chen de Facebook AI Research; Sertac Karaman, profesor del MIT de aeronáutica y astronautia y director de tapa; y Kaiming He, profesor asociado de Ingeniería Eléctrica e Informática del MIT.
Este esfuerzo grupal tuvo su origen en un proyecto de clase para un seminario de posgrado sobre modelos generativos profundos que Lao Beyer tomó el otoño pasado. En las conversaciones durante el semestre, se hizo evidente tanto para Lao Beyer como para él, quien enseñó el seminario, que esta investigación tenía un potencial real, que fue mucho más allá de los límites de una tarea típica. Otros colaboradores pronto fueron llevados al esfuerzo.
El punto de partida para la investigación de Lao Beyer fue un artículo de junio de 2024, escrito por investigadores de la Universidad Técnica de Munich y la compañía china Bytedance, que introdujo una nueva forma de representar información visual llamada tokenizador unidimensional. Con este dispositivo, que también es una especie de red neuronal, una imagen de 256×256 píxeles se puede traducir en una secuencia de solo 32 números, llamadas tokens.
“Quería entender cómo se podría lograr un nivel tan alto de compresión y qué representaban realmente los tokens en realidad”, dice Lao Beyer.
La generación anterior de tokenizadores generalmente dividiría la misma imagen en una matriz de tokens 16×16, con cada información de encapsulación de tokens, en una forma altamente condensada, que corresponde a una porción específica de la imagen original. Los nuevos tokenizadores 1D pueden codificar una imagen de manera más eficiente, utilizando muchos menos tokens en general, y estos tokens pueden capturar información sobre toda la imagen, no solo un solo cuadrante.
Cada uno de estos tokens, además, es un número de 12 dígitos que consta de 1s y 0s, lo que permite 212 (o aproximadamente 4,000) posibilidades por completo.
“Es como un vocabulario de 4.000 palabras que constituye un lenguaje abstracto y oculto hablado por la computadora”, explica. “No es como un lenguaje humano, pero aún podemos tratar de averiguar qué significa”.
Eso es exactamente lo que Lao Beyer inicialmente se propuso explorar: trabajo que proporcionó la semilla para el artículo ICML 2025. El enfoque que tomó fue bastante sencillo. Si desea averiguar qué hace un token en particular, Lao Beyer dice: “Puede sacarlo, intercambiar un valor aleatorio y ver si hay un cambio reconocible en la salida”.
Encontró que reemplazar una token cambia la calidad de la imagen, convirtiendo una imagen de baja resolución en una imagen de alta resolución o viceversa. Otra ficha afectó la desenfoque en el fondo, mientras que otra aún influyó en el brillo. También encontró una ficha relacionada con la “pose”, lo que significa que en la imagen de un robin, por ejemplo, la cabeza del pájaro podría cambiar de derecha a izquierda.
“Este fue un resultado nunca antes visto, ya que nadie había observado cambios de identificación visualmente de tokens de manipulación”, dice Lao Beyer. El hallazgo planteó la posibilidad de un nuevo enfoque para editar imágenes. Y el grupo MIT ha demostrado, de hecho, cómo este proceso puede simplificarse y automatizarse, para que los tokens no tengan que modificarse a mano, uno a la vez.
Él y sus colegas lograron un resultado aún más consecuente que involucra la generación de imágenes. Un sistema capaz de generar imágenes normalmente requiere un tokenizer, que comprime y codifica datos visuales, junto con un generador que puede combinar y organizar estas representaciones compactas para crear imágenes novedosas. Los investigadores del MIT encontraron una manera de crear imágenes sin usar un generador.
Su nuevo enfoque utiliza un tokenizador 1D y un llamado Delokenizer (también conocido como decodificador), que puede reconstruir una imagen de una cadena de tokens. Sin embargo, con la orientación proporcionada por una red neuronal estándar llamada Clip, que no puede generar imágenes por sí sola, pero puede medir qué tan bien una imagen determinada coincide con un determinado de texto, el equipo pudo convertir una imagen de un panda rojo, por ejemplo, en un tigre.
Además, podrían crear imágenes de un tigre, o cualquier otra forma deseada, comenzando completamente desde cero, desde una situación en la que a todos los tokens se les asignan inicialmente valores aleatorios (y luego se ajustan iterativamente para que la imagen reconstruida coincida cada vez más con la solicitud de texto deseada).
El grupo demostró que con esta misma configuración, en relación con un tokenizer y rectokenizer, pero sin generador, también podrían hacer “ingenio”, lo que significa llenar partes de imágenes que de alguna manera se habían borrado. Evitar el uso de un generador para ciertas tareas podría conducir a una reducción significativa en los costos computacionales porque los generadores, como se mencionó, normalmente requieren una amplia capacitación.
Lo que podría parecer extraño sobre las contribuciones de este equipo, explica, “es que no inventamos nada nuevo. No inventamos un tokenizador 1D, y tampoco inventamos el modelo de clip. Pero descubrimos que las nuevas capacidades pueden surgir cuando juntas todas estas piezas”.
“Este trabajo redefine el papel de los tokenizadores”, comenta Saining Xie, un científico informático de la Universidad de Nueva York. “Muestra que los tokenizadores de imágenes, los tools que generalmente se usan solo para comprimir imágenes, en realidad pueden hacer mucho más. El hecho de que un tokenizador 1D simple (pero altamente comprimido) puede manejar tareas como la interfirción o la edición guiada por texto, sin necesidad de entrenar un modelo generativo completo, es bastante sorprendente”.
Zhuang Liu de la Universidad de Princeton está de acuerdo, diciendo que el trabajo del grupo MIT “muestra que podemos generar y manipular las imágenes de una manera mucho más fácil de lo que pensamos anteriormente. Básicamente, demuestra que la generación de imágenes puede ser un subproducto de un compresor de imagen muy efectivo, reduciendo potencialmente el costo de generar imágenes varias veces”.
Podría haber muchas aplicaciones fuera del campo de la visión por computadora, sugiere Karaman. “Por ejemplo, podríamos considerar la tokenización de las acciones de los robots o los autos autónomos de la misma manera, lo que puede ampliar rápidamente el impacto de este trabajo”.
Lao Beyer está pensando en líneas similares, señalando que la cantidad extrema de compresión que ofrece 1D Tokenizers le permite hacer “algunas cosas increíbles”, que podrían aplicarse a otros campos. Por ejemplo, en el área de autos autónomos, que es uno de sus intereses de investigación, los tokens podrían representar, en lugar de imágenes, las diferentes rutas que un vehículo podría tomar.
Xie también está intrigado por las aplicaciones que pueden provenir de estas ideas innovadoras. “Hay algunos casos de uso realmente geniales que esto podría desbloquear”, dice.
Más información: L. Lao Beyer et al, Tokenizer altamente comprimido puede generar sin entrenamiento, ARXIV (2025). Doi: 10.48550/arxiv.2506.08257
Información en el diario: ARXIV
Proporcionado por el Instituto de Tecnología de Massachusetts
Esta historia se vuelve a publicar por cortesía de MIT News (web.mit.edu/newsoffice/), un sitio popular que cubre noticias sobre la investigación del MIT, la innovación y la enseñanza.
Cita: Generación de imágenes reinventada: Tokenizers and Decoders permiten la edición e invención sin generadores (2025, 22 de julio) Recuperado el 22 de julio de 2025 de https://techxplore.com/news/2025-07-image-genere–reimagined-tokenizers-decoders.htmll
Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.