Home Tecnología Los sistemas de IA son excelentes en las pruebas. Pero, ¿cómo funcionan...

Los sistemas de IA son excelentes en las pruebas. Pero, ¿cómo funcionan en la vida real?

23
0

Crédito: Dominio público de Pixabay/CC0

A principios de este mes, cuando OpenAi liberado Su último sistema de inteligencia artificial (AI) insignia, GPT-5, la compañía dijo que era “mucho más inteligente en todos los ámbitos” que los modelos anteriores. Respaldando el reclamo fueron puntajes altos en una variedad de pruebas de referencia que evalúan dominios como la codificación de software, las matemáticas y la atención médica.

Las pruebas de referencia como estas se han convertido en la forma en que evaluamos los sistemas de IA, pero no nos cuentan mucho sobre el rendimiento y los efectos reales de estos sistemas en el mundo real.

¿Cuál sería una mejor manera de medir los modelos de IA? Un grupo de investigadores y metrólogos de IA, expertos en la ciencia de la medición, recientemente Esbozó un camino a seguir.

La metrología es importante aquí porque necesitamos formas de garantizar no solo la confiabilidad de los sistemas de IA de la que podamos depender cada vez más, sino también en cierta medida de su impacto económico, cultural y social más amplio.

Medición de seguridad

Contamos con metrología para garantizar que las herramientas, productos, servicios y procesos que utilizamos sean confiables.

Tome algo cerca de mi corazón como ética biomédica: HEALTH AI. En la atención médica, la IA promete mejorar los diagnósticos y el monitoreo de los pacientes, hacer que los medicamentos sean más personalizados y ayudar a prevenir enfermedades, así como manejar algunas tareas administrativas.

Estas promesas solo se realizarán si podemos estar seguros de que la IA de salud es segura y efectiva, y eso significa encontrar formas confiables de medirla.

Ya tenemos sistemas bien establecidos para medir la seguridad y la efectividad de los medicamentos y los dispositivos médicos, por ejemplo. Pero este aún no es el caso de la IA, no en atención médica, o en otros dominios, como educación, empleo, aplicación de la ley, seguros y biometría.

Resultados de las pruebas y efectos reales

En la actualidad, la mayoría de la evaluación de los sistemas de IA de vanguardia se basa en puntos de referencia. Estas son pruebas que tienen como objetivo evaluar los sistemas de IA en función de sus salidas.

Podrían responder preguntas sobre con qué frecuencia las respuestas de un sistema son precisas o relevantes, o cómo se comparan con las respuestas de un experto humano.

Hay literalmente cientos de puntos de referencia de IA, cubriendo un ancho rango de dominios de conocimiento.

Sin embargo, Benchmark Performance nos dice poco sobre el efecto que estos modelos tendrán en la configuración del mundo real. Para esto, debemos considerar el contexto en el que se implementa un sistema.

El problema con los puntos de referencia

Los puntos de referencia se han vuelto muy importantes para los desarrolladores comerciales de IA para mostrar el rendimiento del producto y atraer fondos.

Por ejemplo, en abril de este año, una joven startup llamó a Cognición ai Publicó resultados impresionantes en un punto de referencia de ingeniería de software. Poco después, la compañía planteó US $ 175 millones ($ 270 millones) en fondos en un acuerdo que lo valoró en US $ 2 mil millones ($ 3.1 mil millones).

También se han jugado puntos de referencia. Meta parece tener equilibrado Algunas versiones de su modelo LLAMA-4 para optimizar su puntaje en un sitio prominente de rango de chatbot. Después de que el modelo O3 de OpenAI obtuvo un puntaje en el punto de referencia Frontiermath, se produjo que la compañía había tenido acceso al conjunto de datos Detrás del punto de referencia, planteando preguntas sobre el resultado.

El riesgo general aquí se conoce como Ley de GoodhartDespués del economista británico Charles Goodhart: “Cuando una medida se convierte en un objetivo, deja de ser una buena medida”.

En el palabras de Rumman ChowdhuryQuién ha ayudado a dar forma al desarrollo del campo de la ética algorítmica, poner demasiada importancia a las métricas puede conducir a “manipulación, juegos y un enfoque miope en cualidades a corto plazo y una consideración inadecuada de las consecuencias a largo plazo”.

Más allá de los puntos de referencia

Entonces, si no es de referencia, ¿qué? Volvamos al ejemplo de AI de salud. El Primeros puntos de referencia Para evaluar la utilidad de los modelos de idiomas grandes (LLM) en la atención médica, el uso de exámenes de licencias médicas. Estos se utilizan para evaluar la competencia y la seguridad de los médicos antes de que se les permita practicar en particular jurisdicciones.

Los modelos de última generación ahora logran puntajes casi perfectos en tales puntos de referencia. Sin embargo, estos han sido ampliamente criticado porque no refleja adecuadamente la complejidad y la diversidad de la práctica clínica del mundo real.

En respuesta, se ha desarrollado una nueva generación de marcos “holísticos” para evaluar estos modelos en tareas más diversas y realistas. Para aplicaciones de salud, lo más sofisticado es el Medhelm Marco de evaluación, que incluye 35 puntos de referencia en cinco categorías de tareas clínicas, desde la toma de decisiones y la toma de notas hasta la comunicación y la investigación.

¿Cómo se vería mejor las pruebas?

Los marcos de evaluación más holísticos, como Medhelm, tienen como objetivo evitar estas dificultades. Han sido diseñados para reflejar las demandas reales de un campo de práctica particular.

Sin embargo, estos marcos aún no tienen en cuenta las formas en que los humanos interactúan con el sistema de IA en el mundo real. Y ni siquiera comienzan a aceptar sus impactos en los contextos económicos, culturales y sociales más amplios en los que operan.

Para esto, necesitaremos un ecosistema de evaluación completamente nuevo. Tendrá que recurrir a la experiencia de la academia, la industria y la sociedad civil con el objetivo de desarrollar formas rigurosas y reproducibles para evaluar los sistemas de IA.

El trabajo en esto ya ha comenzado. Existen métodos para evaluar el impacto del mundo real de los sistemas de IA en los contextos en los que se implementan, cosas como el equipo rojo (donde los probadores intentan producir deliberadamente salidas no deseadas del sistema) y las pruebas de campo (donde un sistema se prueba en entornos del mundo real). El siguiente paso es refinar y sistematizar estos métodos, para que lo que realmente cuente se pueda medir de manera confiable.

Si AI ofrece incluso una fracción de la transformación que está publicitada para traer, necesitamos una ciencia de medición que salvaguarde los intereses de todos nosotros, no solo la élite tecnológica.

Más información: Reva Schwartz et al, Verificación de la realidad: es necesario un nuevo ecosistema de evaluación para comprender los efectos del mundo real de la IA, ARXIV (2025). Doi: 10.48550/arxiv.2505.18893

Información en el diario: ARXIV

Proporcionado por la conversación

Este artículo se republicó de La conversación bajo una licencia Creative Commons. Leer el artículo original.

Cita: los sistemas de IA son excelentes en las pruebas. Pero, ¿cómo funcionan en la vida real? (2025, 25 de agosto) Consultado el 25 de agosto de 2025 de https://techxplore.com/news/2025-08-ai-great-real-life.html

Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.

Fuente de noticias