Rui Zhang se unió a dos miembros de su grupo de investigación, Ryo Kamoi y Yusen Zhang, para presentar algunos de sus trabajos anteriores en la conferencia del año pasado sobre modelado de idiomas en Filadelfia. Crédito: Universidad Estatal de Pensilvania
El uso de servicios como ChatGPT o Microsoft Copilot a veces puede parecer magia, hasta el punto de que puede ser fácil olvidarse de la ciencia avanzada que se ejecuta detrás de escena de cualquier sistema de inteligencia artificial (IA). Sin embargo, como cualquier sistema complejo, siempre hay margen de mejora y optimización, según Rui Zhang, profesor asistente de informática e ingeniería en la Escuela de Ingeniería Eléctrica y Ciencias de la Computación de Penn State.
Zhang y su grupo de investigación recientemente escribieron tres documentos que introdujeron nuevos enfoques para procesar imágenes de alta resolución y provocar automáticamente mejores respuestas de los sistemas de IA. Los documentos están actualmente disponibles en el servidor ARXIV Preprint.
El primero se presentará en la 63ª Reunión Anual de la Asociación de Lingüística Computacional, 27 de julio al 1 de agosto en Viena, Austria. El segundo se compartirá en la Conferencia Internacional de Visión de Computadora de 2025, del 19 al 23 de octubre en Honolulu, Hawaii y el tercero fue presentado en la 13ª Conferencia Internacional sobre Representaciones de Aprendizaje, del 24 al 28 de abril en Singapur.
En las siguientes preguntas y respuestas, Zhang discutió el trabajo de su grupo, cómo puede mejorar la eficiencia y la utilidad de la IA y algunas estrategias que las personas pueden emplear para obtener más valor de su uso personal de IA.
¿Qué es la ingeniería rápida? ¿Hay cosas específicas que los lectores pueden hacer para escribir mejores indicaciones para un sistema de IA?
La ingeniería rápida es el proceso de diseño de entradas efectivas, o “indicaciones”, que guían sistemas de IA como ChatGPT para producir mejores respuestas. Dado que estos sistemas son sensibles a cómo se hacen las preguntas, un aviso bien elaborado puede mejorar significativamente la producción del sistema.
Por ejemplo, en lugar de preguntar: “Resume este artículo”, podría decir “, resume este artículo en tres puntos de bala para un estudiante de secundaria”. El contexto adicional ayuda a la IA a adaptar su respuesta. Para los usuarios cotidianos, las estrategias clave son ser claras, específicas y orientadas a objetivos, no tenga miedo de probar múltiples versiones inmediatas para refinar los resultados.
¿Cuáles son los beneficios de automatizar y optimizar la generación rápida?
Si bien la buena ingeniería rápida puede mejorar en gran medida el rendimiento de la IA, escribir el mejor aviso a menudo lleva tiempo, experimentación y experiencia en el tema incluida en el aviso. En nuestra investigación, desarrollamos un método llamado mayor que permite a los sistemas de IA generar y refinar automáticamente las indicaciones utilizando la optimización basada en el gradiente, un tipo de algoritmo que sobresale en la optimización de datos en los sistemas de IA.
También desarrollamos GreaterPrompt, un kit de herramientas de código abierto y fácil de usar basado en el método mayor, que permite que los modelos generen y refinan automáticamente las indicaciones para una amplia gama de tareas. Automatizar este proceso significa que la IA puede adaptarse a nuevas tareas con menos aportes humanos, mejorando la precisión, ahorrar tiempo y reducir los costos.
Esto es especialmente valioso para los usuarios que carecen del tiempo o la experiencia en un tema para obtener un mejor aviso. Al proporcionar un kit de herramientas de código abierto, que está disponible gratuitamente para que cualquiera descargue, modifique o comparta, distribuimos efectivamente el acceso a nuestro trabajo para todos los usuarios interesados.
¿Cómo mediste la efectividad de mayor? ¿Hay herramientas del mundo real que podrían mejorar con su implementación?
Evaluamos mayor en una amplia variedad de razonamiento lingüístico y tareas matemáticas de resolución de problemas, como responder preguntas complejas, resolver acertijos lógicos y realizar cálculos matemáticos. Los resultados mostraron que un mayor rendimiento mejorado significativamente en comparación con la solicitud estándar, especialmente para modelos de lenguaje más pequeños que generalmente luchan con estas tareas porque están limitados con parámetros especializados para tareas y preguntas específicas.
En algunos casos, estos modelos más pequeños optimizados rivalizaron en calidad mucho más grandes. Las aplicaciones del mundo real que podrían beneficiarse incluyen tutores con IA, asistentes de escritura, agentes de atención al cliente y cualquier herramienta que necesite adaptarse rápidamente a diferentes usuarios o temas sin reprogramación manual.
¿Qué es HRScene y por qué a los investigadores les importa la “comprensión de la imagen de alta resolución”?
HRScene es un nuevo punto de referencia que desarrollamos para evaluar qué tan bien modernos modelos en idioma de visión como GPT-4V, Géminis o Claude pueden comprender imágenes de alta resolución y densas en información con millones de píxeles. Aunque estos modelos pueden responder preguntas sobre imágenes que usan lenguaje natural, a menudo se quedan cortos cuando se trata de imágenes grandes y detalladas.
La comprensión de la imagen de alta resolución es fundamental porque muchas aplicaciones científicas y sociales del mundo real dependen de detalles sutiles y localizados que los modelos no están equipados para manejar la entrada visual a gran escala. HRScene incluye ejemplos curados de dominios como radiología, fenotipado vegetal, teledetección y astronomía, lo que ayudará a acelerar el desarrollo de sistemas de IA capaces de interpretar visuales y mejorar su precisión de evaluación.
¿Cuáles son las aplicaciones del procesamiento de imágenes de alta resolución precisa y eficiente?
El impacto potencial abarca muchos dominios científicos y sociales. En la atención médica, las herramientas de IA de alta resolución podrían ayudar a interpretar escaneos de radiología como MRI o CTS de manera más efectiva, lo que lleva a diagnósticos anteriores y más precisos. En la agricultura, la IA podría ayudar con el fenotipado de las plantas, analizando rasgos como la estructura de las hojas o la presencia de la enfermedad de imágenes detalladas, para mejorar los rendimientos de los cultivos y la sostenibilidad. En ciencias ambientales y seguridad pública, las imágenes satelitales de alta resolución se utilizan para el monitoreo de desastres, la planificación urbana y la investigación climática.
La astronomía también podría mejorarse, ya que los investigadores analizan actualmente imágenes de telescopios a resoluciones extremadamente altas para detectar objetos celestiales débiles o distantes. Los sistemas de IA que pueden procesar de manera confiable dichos datos podrían acelerar el descubrimiento científico, mejorar las herramientas de salud pública y mejorar las respuestas a los desafíos globales.
Más información: Wenliang Zheng et al, GreaterPrompt: un kit de herramientas de código abierto unificado, personalizable y de alto rendimiento para la optimización rápida, ARXIV (2025). Doi: 10.48550/arxiv.2504.03975
Yusen Zhang et al, HRScene: ¿Hasta dónde están los VLM de una comprensión efectiva de imagen de alta resolución?, Arxiv (2025). Doi: 10.48550/arxiv.2504.18406
Sarkar Snigdha Sarathi Das et al, Greater: Gradientes sobre el razonamiento hace que los modelos de lenguaje más pequeños estén fuertes optimizadores rápidos, ARXIV (2024). Doi: 10.48550/arxiv.2412.09722
Información en el diario: ARXIV
Proporcionado por la Universidad Estatal de Pensilvania
Cita: los investigadores optimizan los sistemas de IA para la ciencia (2025, 31 de julio) recuperado el 31 de julio de 2025 de https://techxplore.com/news/2025-07-optimize-ai-science.html
Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.









