Home Tecnología Los modelos en idioma de visión obtienen una vista más clara a...

Los modelos en idioma de visión obtienen una vista más clara a través de datos de entrenamiento sintético

48
0

Cosyn funciona aprovechando las habilidades lingüísticas de los modelos AI de código abierto para crear datos de capacitación para otros modelos de IA para aprender a leer imágenes complejas ricas en texto. Crédito: Yue Yang

En la carrera para desarrollar IA que comprenda imágenes complejas como pronósticos financieros, diagramas médicos y etiquetas de nutrición, esencial para que la IA funcione de forma independiente en entornos cotidianos, los sistemas de fuente cerrados como ChatGPT y Claude actualmente establecen el ritmo. Pero nadie fuera de sus fabricantes sabe cómo se entrenaron esos modelos o qué datos usaron, dejando alternativas de código abierto luchando para ponerse al día.

Ahora, los investigadores de Penn Engineering y el Instituto Allen para AI (AI2) han desarrollado un nuevo enfoque para capacitar a los modelos de código abierto: usar IA para crear figuras, cuadros y tablas científicas que enseñan a otros sistemas de IA cómo interpretar información visual compleja.

Su herramienta, Cosyn (abreviatura de síntesis guiada por código), Taps Skills de codificación de modelos de IA de código abierto para hacer imágenes ricas en texto y generar preguntas y respuestas relevantes, dando a otros sistemas de IA los datos que necesitan para aprender cómo “ver” y comprender las figuras científicas.

A medida que los investigadores detallan en un papel para ACL 2025Una de las principales conferencias de IA del mundo, los modelos entrenados en Cosyn coinciden o superan a sus compañeros patentados.

“Esto es como tomar a un estudiante que es excelente para escribir y pedirles que enseñen a alguien cómo dibujar, simplemente describiendo cómo debería ser el dibujo”, dice Yue Yang (Greng’25), co-primero autor y científico de investigación de AI2’s Prior: razonamiento perceptual e interacción de Investigación del Grupo. “Esencialmente estamos transfiriendo las fortalezas de la IA de código abierto de texto a visión”.

Imágenes sintéticas, resultados reales

El conjunto de datos resultante, llamado Cosyn-400kIncluye más de 400,000 imágenes sintéticas y 2.7 millones de conjuntos de instrucciones correspondientes, en categorías tan variadas como los gráficos científicos, las estructuras químicas y las capturas de pantalla de la interfaz de usuario. Los modelos capacitados en Cosyn superaron a los sistemas propietarios superiores como GPT-4V y Gemini 1.5 Flash en un conjunto de siete pruebas de referencia.

En un caso particularmente sorprendente, los investigadores generaron sintéticamente solo 7,000 etiquetas nutricionales para capacitar un modelo para un nuevo punto de referencia que crearon, Nutritionqa. Ese pequeño conjunto de datos dirigido permitió que su modelo venciera a otros entrenados en millones de imágenes reales.

“El entrenamiento de IA con Cosyn es increíblemente eficiente en los datos”, dice Mark Yatskar, profesor asistente en el co-asesor de doctorado de CIS y Yang. “Estamos mostrando que los datos sintéticos pueden ayudar a los modelos a generalizarse en escenarios del mundo real que podrían ser únicos para las necesidades de una persona, como leer una etiqueta nutricional para alguien con baja visión”.

Yue Yang demuestra las capacidades de Cosyn, utilizando un modelo capacitado en datos sintéticos creados con Cosyn para leer etiquetas nutricionales y resolver problemas matemáticos. Crédito: Sylvia Zhang

Escala y diversificación del conjunto de datos

La creación de cientos de miles de ejemplos de entrenamiento útiles y variados planteó sus propios desafíos.

Para alcanzar la escala requerida, el co-primero autor Ajay Patel, un estudiante de doctorado en informática y ciencias de la información (CIS), desarrolló una biblioteca de software llamada Sueños de datos que automatizó todo el proceso de generación de datos. Esto permitió al equipo solicitar modelos de lenguaje en paralelo, lo que permite la producción a gran escala de imágenes e instrucciones sintéticas.

Para evitar la repetición, el equipo aprovechó “Personas”, perfiles de personajes cortos como “un novelista de ciencia ficción” o “un maestro de química”, que guió las respuestas de la IA y dio forma al contenido y el tono de cada ejemplo. Incrustar a estas personas en indicaciones llevó a Cosyn a producir datos de entrenamiento más ricos y variados en una amplia gama de dominios.

“Los modelos de IA tienden a repetirse a menos que los empuje a diferentes perspectivas”, explica Patel. “Las personas nos dan una forma escalable de hacer eso, y los resultados hablan por sí mismos”.

Nivelando el campo de juego para la IA de código abierto

Al construir Cosyn por completo con herramientas de código abierto, los investigadores esperan democratizar el acceso a poderosos métodos de capacitación en idioma de visión sin los desafíos éticos y legales que rodean el raspado web y el contenido con derechos de autor.

“Este es un paso para ayudarnos a AI a hacer nuevos descubrimientos científicos”, agrega Chris Callison-Burch, profesor de CIS, quien acompañó a Yang y actualmente aconseja a Patel. “Abre la puerta a los sistemas de IA que pueden razonar sobre documentos científicos, lo que podría ayudar a una amplia gama de personas, desde estudiantes universitarios hasta investigadores”.

De la comprensión a la acción

El equipo ha lanzado el Cosyn completo código y conjunto de datos al público, invitando a la comunidad de investigación global a construir sobre su trabajo.

Yang ya está mirando hacia los datos sintéticos que pueden ayudar a la IA no solo a comprender las imágenes, sino también interactuar con ellas, sirviendo como agentes digitales inteligentes que pueden hacer clic en botones, completar formularios y ayudar a los usuarios en tareas diarias.

“A la larga, queremos una IA que pueda actuar en el mundo, no solo describirlo”, dice Yang. “Esta es una forma de enseñarle cómo”.

Más información: Escala de comprensión de imágenes ricas en texto a través de la generación de datos multimodal sintéticos guiados por código, yueyang1996.github.io/papers/cosyn.pdf

Proporcionado por la Universidad de Pensilvania

Cita: Visión de IA, Reinventada: los modelos en lenguaje de visión obtienen una vista más clara a través de datos de entrenamiento sintético (2025, 21 de julio) Recuperado el 21 de julio de 2025 de https://techxplore.com/news/2025-07-ai-vision-reinvented-language-gangage.html

Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.

Fuente de noticias