AI ha evolucionado: es hora de evaluaciones y boletas de calificaciones

El nuevo modelo LLAMA4 lanzado por Meta a principios de este mes supuestamente tiene “velocidad y eficiencia inigualables”. ¿Pero eso realmente lo convierte en la mejor IA disponible? No necesariamente.
Los modelos de IA a menudo obtienen calificaciones de pase en puntos de referencia estándar y tablas de clasificación, pero aún cometen errores vergonzosos cuando se usan en el mundo real.
Por ejemplo, Géminis de Google debería haber “superado a expertos humanos”, según varios puntos de referencia. Sin embargo, la IA creó imágenes históricas ofensivas de todos modos.
Otros modelos de IA principales han mentido sobre personas reales, aconsejó a las empresas que violen la ley y excluyeron a ciertos grupos de personas de conseguir trabajo. Es una señal de que nuestros métodos para evaluar la efectividad de la IA no se traducen en aplicaciones y resultados del mundo real.
Necesitamos boletas de calificaciones que evalúen la IA de manera más holística.
Hoy, los modelos de IA se evalúan en función de los puntos de referencia que a menudo miden qué tan bien los modelos realizan ciertas tareas. Ejemplos de métricas populares incluyen cuán exactamente un modelo puede responder preguntas, qué tan exactamente determina el próximo resultado lógico en una serie de eventos, qué tan bien escribe código y comprende imágenes y si a las personas les gusta el contenido de la IA.
Varias de estas métricas son reliquias de una época en que la IA era menos capaz y generalizada en la sociedad, y no son medidas precisas de la capacidad de una IA para realizar las tareas que se pidieron hoy.
Si bien los vehículos autónomos necesitan identificar correctamente objetos con sus sensores a bordo, eso solo no es suficiente para evitar colisiones. También deben comprender cómo se moverá el tráfico y cómo responder rápidamente a un conductor errático e inseguro.
Una IA diseñada para ayudar con diagnósticos médicos difíciles o decisiones de contratación no debe adoptar los sesgos raciales, socioeconómicos y étnicos inherentes a los conjuntos de datos de capacitación. Pero si una IA obtiene calificaciones de aprobación en puntos de referencia que no evalúan el rendimiento en estas áreas, el modelo puede parecer más capaz de lo que realmente es.
Las consecuencias podrían ser preocupantes en aplicaciones emergentes y de alto riesgo.
Para comprender realmente qué tan bien funciona una IA, necesitamos desarrollar puntos de referencia centrados en los resultados que sean más relevantes para las áreas de aplicación de hoy. ¿Quiere hacer un chatbot que pueda dar asesoramiento legal o comercial? Necesitamos saber si sus recomendaciones serán legales, factibles y darán como resultado el resultado deseado.
También necesitamos saber sobre los otros costos de la IA. ¿Vale la pena los beneficios de los costos de agua y energía en crecimiento, y nos sentimos cómodos con todas las implicaciones a largo plazo de su uso?
¿Cómo podemos obtener puntos de referencia más efectivos?
Para empezar, los desarrolladores de IA deben aprender qué hace que sus productos sean efectivos desde la perspectiva de sus partes interesadas y clientes. Con ese conocimiento, las empresas y los desarrolladores de referencia pueden garantizar que sus datos puedan evaluar adecuadamente la IA.
También necesitaremos aprender cómo determinar mejor, detectar y minimizar las consecuencias dañinas y no deseadas de la IA antes de que se lance al público. Las colaboraciones entre desarrolladores de IA y profesionales médicos, comerciales y de derecho serán esenciales para el éxito real.
Los desarrolladores de referencia también deben asegurarse de que los datos utilizados para la evaluación comparativa también no se usen para entrenar la IA, lo que podría hacer que un pase de IA defectuoso sea efectivo porque se ha evaluado con datos familiares.
Idealmente, los desarrolladores de Benchmark y AI coordinarían para garantizar que los conjuntos de datos de capacitación y comparación de evaluaciones no se superpongan. Cuando esto es difícil o imposible, los desarrolladores de referencia deben mantener sus conjuntos de datos frescos para reducir las posibilidades de que los datos de evaluación comparativa se hayan absorbido accidentalmente en los datos de entrenamiento.
Los puntos de referencia efectivos requerirán mantenimiento constante; El riesgo de superposición con los datos de entrenamiento crece a medida que los puntos de referencia envejecen.
Los formuladores de políticas también pueden asegurarse de obtener puntos de referencia de IA efectivos al poner los incentivos correctos en su lugar. Las certificaciones podrían ayudar a las empresas a demostrar que su IA es efectiva si requieren puntos de referencia transparentes y centrados en los resultados que son verificados por expertos humanos. Las regulaciones también podrían hacer cumplir las mejores prácticas, como probar las versiones públicas de los modelos de IA en lugar de las ramas optimizadas, así como garantizar que los puntos de referencia sean transparentes y relevantes.
Pero para que las regulaciones sean efectivas, necesitaremos agencias nuevas y dedicadas para desarrollar y hacer cumplir los estándares, ya que la IA no cae perfectamente en las jurisdicciones de las agencias existentes.
AI es una herramienta poderosa, con el potencial de hacer mucho bien y mucho daño. Los puntos de referencia funcionales y las políticas de evaluación comparativa podrían ayudarnos a empujar la IA en la dirección correcta.
Lu Wang es profesor asociado de informática e ingeniería de la Universidad de Michigan y David Jurgens es profesor asociado de información en la Facultad de Información de la Universidad de Michigan y profesor asociado de Ingeniería Eléctrica e Informática en el Colegio de Ingeniería de la Universidad de Michigan. Son coautores de “Marco de evaluación para sistemas de IA en ‘The Wild'”.