Enseñando a los modelos de IA los trazos amplios para esbozar más como lo hacen los humanos

Sketchagent utiliza un modelo de lenguaje multimodal para convertir las indicaciones de lenguaje natural en bocetos en unos pocos segundos. Puede garabatear por sí solo o mediante colaboración, dibujando con un humano o incorporando información basada en texto para dibujar cada parte por separado. Crédito: Alex Shipps/MIT CSail, con bocetos generados por IA de los investigadores
Cuando intentas comunicar o entender ideas, las palabras no siempre hacen el truco. A veces, el enfoque más eficiente es hacer un boceto simple de ese concepto; por ejemplo, diagramarse de un circuito podría ayudar a dar sentido a cómo funciona el sistema.
Pero, ¿qué pasaría si la inteligencia artificial pudiera ayudarnos a explorar estas visualizaciones? Si bien estos sistemas suelen ser competentes para crear pinturas realistas y dibujos de dibujos animados, muchos modelos no pueden capturar la esencia del boceto: su proceso iterativo de accidente cerebrovascular, lo que ayuda a los humanos a hacer una lluvia de ideas y editar cómo quieren representar sus ideas.
Un nuevo sistema de dibujo del Laboratorio de Informática e Inteligencia Artificial del MIT (CSAIL) y la Universidad de Stanford pueden dibujar más como nosotros. Su método, llamado “Sketchagent”, utiliza un modelo de lenguaje multimodal, sistemas de AI que entrenan en texto e imágenes, como el soneto Claude 3.5 de Anthrope, para convertir el lenguaje natural en bocetos en unos pocos segundos. Por ejemplo, puede garabatear una casa por sí solo o por colaboración, dibujando con un humano o incorporando información basada en texto para dibujar cada parte por separado.
Los investigadores mostraron que Sketchagent puede crear dibujos abstractos de conceptos diversos, como un robot, mariposa, hélice de ADN, diagrama de flujo e incluso la ópera de Sydney. Un día, la herramienta podría expandirse a un juego de arte interactivo que ayuda a los maestros e investigadores a diagrama de conceptos complejos o brindar a los usuarios una lección de dibujo rápido.
CSAIL Postdoc Yael Vinker, quien es el autor principal de un artículo que presenta Sketchagent, señala que el sistema introduce una forma más natural para que los humanos se comuniquen con la IA.
“No todos son conscientes de cuánto dibujan en su vida diaria. Podemos dibujar nuestros pensamientos o ideas de taller con bocetos”, dice ella. “Nuestra herramienta tiene como objetivo emular ese proceso, haciendo que los modelos de lenguaje multimodal sean más útiles para ayudarnos a expresar ideas visualmente”.
Sketchagent enseña a estos modelos a dibujar accidente cerebrovascular por accidente cerebrovascular sin capacitación en ningún dato; en lugar de los investigadores desarrollaron un “lenguaje de bocetos” en el que un boceto se traduce en una secuencia numerada de trazos en una cuadrícula. El sistema recibió un ejemplo de cómo se dibujarían cosas como una casa, con cada golpe etiquetado de acuerdo con lo que representaba, como el séptimo golpe como un rectángulo etiquetado como una “puerta principal”, para ayudar al modelo a generalizarse a nuevos conceptos.
Vinker escribió el documento junto con tres afiliados de CSAIL, Postdoc Tamar Rott Shaham, el investigador universitario Alex Zhao y el profesor del MIT Antonio Torralba, así como la compañera de investigación de la Universidad de Stanford Kristine Zheng y la profesora asistente Judith Ellen. Presentarán su trabajo en la conferencia sobre visión por computadora y reconocimiento de patrones (CVPR 2025) este mes. El documento está disponible en el servidor ARXIV Preprint.
Evaluar las habilidades de dibujo de AI
Si bien los modelos de texto a imagen como Dall-E 3 pueden crear dibujos intrigantes, carecen de un componente crucial del boceto: el proceso espontáneo y creativo donde cada carrera puede afectar el diseño general. Por otro lado, los dibujos de Sketchagent se modelan como una secuencia de trazos, que parece más natural y fluido, como los bocetos humanos.
Los trabajos anteriores también han imitado este proceso, pero capacitaron a sus modelos en conjuntos de datos dibujados en humanos, que a menudo son limitados en escala y diversidad. Sketchagent utiliza modelos de lenguaje previamente capacitados en su lugar, que conocen muchos conceptos, pero no sé cómo esbozar. Cuando los investigadores enseñaron modelos de idiomas este proceso, Sketchagent comenzó a dibujar conceptos diversos en los que no había entrenado explícitamente.
Aún así, Vinker y sus colegas querían ver si Sketchagent estaba trabajando activamente con humanos en el proceso de dibujo, o si estaba trabajando independientemente de su compañero de dibujo. El equipo probó su sistema en modo de colaboración, donde un modelo humano y un modelo de lenguaje trabajan para atraer un concepto particular en conjunto. Eliminar las contribuciones de Sketchagent reveló que los golpes de su herramienta eran esenciales para el dibujo final. En un dibujo de un velero, por ejemplo, eliminar los trazos artificiales que representan un mástil hicieron que el boceto general fuera irreconocible.
En otro experimento, los investigadores de Csail y Stanford conectaron diferentes modelos de lenguaje multimodal a Sketchagent para ver cuál podría crear los bocetos más reconocibles. Su modelo predeterminado, el soneto Claude 3.5, generó los gráficos vectoriales más humanos (esencialmente archivos basados en texto que pueden convertirse en imágenes de alta resolución). Superó a modelos como Opus GPT-4O y Claude 3.
“El hecho de que el soneto Claude 3.5 superó a otros modelos como GPT-4O y Claude 3 Opus sugiere que este modelo procesa y genera información relacionada con la visual de manera diferente”, dice el coautor Tamar Rott Shaham.
Agrega que Sketchagent podría convertirse en una interfaz útil para colaborar con modelos de IA más allá de la comunicación estándar basada en texto. “A medida que los modelos avanzan en la comprensión y la generación de otras modalidades, como los bocetos, abren nuevas formas para que los usuarios expresen ideas y reciban respuestas que se sientan más intuitivas y humanas”, dice Shaham. “Esto podría enriquecer significativamente las interacciones, haciendo que la IA sea más accesible y versátil”.
Si bien la destreza de dibujo de Sketchagent es prometedora, todavía no puede hacer bocetos profesionales. Hace representaciones simples de conceptos que usan figuras de palo y garabatos, pero lucha para garabatear cosas como logotipos, oraciones, criaturas complejas como unicornios y vacas, y figuras humanas específicas.
A veces, su modelo también no entendió las intenciones de los usuarios en los dibujos colaborativos, como cuando Sketchagent dibujó un conejito con dos cabezas. Según Vinker, esto puede deberse a que el modelo descompone cada tarea en pasos más pequeños (también llamado razonamiento de “cadena de pensamiento”).
Cuando trabaja con humanos, el modelo crea un plan de dibujo, potencialmente malinterpretando a qué parte de ese esquema está contribuyendo un humano. Los investigadores podrían refinar estas habilidades de dibujo entrenando en datos sintéticos de modelos de difusión.
Además, Sketchagent a menudo requiere unas pocas rondas de indicación para generar garabatos humanos. En el futuro, el equipo tiene como objetivo facilitar la interacción y esbozar modelos de lenguaje multimodal, incluida la refinación de su interfaz.
Aún así, la herramienta sugiere que la IA podría dibujar conceptos diversos como lo hacen los humanos, con una colaboración de Human-AI paso a paso que resulta en diseños finales más alineados.
Más información: Yael Vinker et al, Sketchagent: generación de bocetos secuenciales basados en el lenguaje, ARXIV (2024). Doi: 10.48550/arxiv.2411.17673
Información en la revista: ARXIV proporcionado por el Instituto de Tecnología de Massachusetts
Cita: enseñando modelos de IA los trazos amplios para esbozar más como lo hacen los humanos (2025, 3 de junio) recuperado el 3 de junio de 2025 de https://techxplore.com/news/2025-06-ai-broad-humans.html
Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.