Para la columna de preguntas abiertas de esta semana, Cal Newport está completando Joshua Rothman.
Gran parte de la euforia y el temor girando alrededor de las tecnologías de inteligencia artificial de hoy se remontan a enero de 2020, cuando un equipo de investigadores de OpenAI publicó una página de treinta informe titulado “Leyes de escala para modelos de lenguaje neuronal”. El equipo fue dirigido por el investigador de IA Jared Kaplan, e incluyó a Dario Amodei, quien ahora es el CEO de Anthrope. Investigaron una pregunta bastante nerd: ¿qué sucede con el rendimiento de los modelos de idiomas cuando aumenta su tamaño y la intensidad de su entrenamiento?
En aquel entonces, muchos expertos en aprendizaje automático pensaron que, después de haber alcanzado un cierto tamaño, los modelos de idioma comenzarían a memorizar efectivamente las respuestas a sus preguntas de capacitación, lo que las haría menos útiles una vez implementados. Pero el artículo de Operai argumentó que estos modelos solo mejorarían a medida que crecían, y de hecho que tales mejoras podrían seguir una ley de poder, una curva agresiva que se asemeja a un palo de hockey. La implicación: si sigue construyendo modelos de idiomas más grandes y los capacita en conjuntos de datos más grandes, comenzarán a ser sorprendentemente buenos. Unos meses después del periódico, OpenAi pareció validar la ley de escala al liberar GPT-3, que era diez veces más grande, y salta y límite mejor, que su predecesor, GPT-2.
De repente, la idea teórica de la inteligencia general artificial, que funciona tan bien o mejor que los humanos en una amplia variedad de tareas, parecía tentadoramente cercana. Si la ley de escala se mantenía, las compañías de IA podrían lograr AGI al verter más dinero y calcular el poder en los modelos de idiomas. Dentro de un año, Sam Altman, director ejecutivo de Openai, publicó una publicación de blog titulada “La Ley de Moore para todo”, que argumentó que AI se hará cargo de “cada vez más del trabajo que ahora hacen las personas” y creará una riqueza inimaginable para los propietarios de capital. “Esta revolución tecnológica es imparable”, escribió. “El mundo cambiará tan rápida y drásticamente que se necesitará un cambio igualmente drástico en la política para distribuir esta riqueza y permitir que más personas persigan la vida que desean”.
Es difícil exagerar cuán completamente la comunidad de IA llegó a creer que inevitablemente escalaría su camino a AGI en 2022, Gary Marcus, un emprendedor de IA y un profesor emérito de psicología y ciencia neuronal en NYU, retrocedió el artículo de Kaplan, señalando que “las leyes de escala de escamas que no tienen la gravedad como la gravedad, sino que las observaciones de Mere no tienen una visión de la gravedad, sino que no tienen las observaciones de Mere que no tienen las observaciones de Mere que no tienen para siempre”. La respuesta negativa fue feroz y rápida. “Ningún otro ensayo que haya escrito ha sido ridiculizado por tantas personas, o tantas personas famosas, desde Sam Altman y Greg Brockton hasta Yann Lecun y Elon Musk”, reflexionó Marcus más tarde. Recientemente me dijo que sus comentarios esencialmente lo “excomulgaron” del mundo del aprendizaje automático. Pronto, ChatGPT llegaría a cien millones de usuarios más rápido que cualquier servicio digital en la historia; En marzo de 2023, el próximo lanzamiento de OpenAI, GPT-4, abovedó hasta ahora en la curva de escala que inspiró un documento de investigación de Microsoft titulado “Sparks of Artificial General Intelligence”. Durante el año siguiente, el gasto de capital de riesgo en IA aumentó en un ochenta por ciento.
Después de eso, sin embargo, el progreso pareció disminuir. Operai no presentó un nuevo modelo de éxito de taquilla durante más de dos años, sino que se centró en lanzamientos especializados que se volvieron difíciles de seguir para el público en general. Algunas voces dentro de la industria comenzaron a preguntarse si la ley de escala de IA comenzaba a vacilar. “La década de 2010 fue la era de la escala, ahora estamos de vuelta en la era de las maravillas y el descubrimiento una vez más”, dijo a Reuters Ilya Sutskever, uno de los fundadores de la compañía, en noviembre. “Todos buscan lo siguiente”. Un artículo contemporáneo de TechCrunch resumió el estado de ánimo general: “Todos ahora parecen admitir que no puede usar más cómputo y más datos mientras prevían modelos de lenguaje grandes y esperan que se conviertan en algún tipo de Dios digital que todo lo sabe”. Pero tales observaciones se ahogaron en gran medida por la retórica generadora de titulares de otros líderes de IA. “La IA está empezando a ser mejor que los humanos en casi todas las tareas intelectuales”, dijo recientemente Amodei a Anderson Cooper. En una entrevista con Axios, predijo que la mitad de los trabajos de cuello blanco de nivel de entrada podrían ser “eliminados” en los próximos uno a cinco años. Este verano, tanto Altman como Mark Zuckerberg, de Meta, afirmaron que sus compañías estaban cerca de desarrollar superinteligencia.
Luego, la semana pasada, Openai finalmente lanzó GPT-5, que muchos esperaban que marcaran el próximo salto significativo en las capacidades de IA. Los primeros revisores encontraron algunas características que les gusta. Cuando un YouTuber tecnológico popular, MrwhoSetheboss, le pidió que creara un juego de ajedrez que usara Pokémon como piezas, obtuvo un resultado significativamente mejor que cuando usó GPT-O4-Mini-High, un modelo de codificación líder en la industria; También descubrió que GPT-5 podría escribir un guión más efectivo para su canal de YouTube que GPT-4O. MrWhosetHeboss estaba particularmente entusiasmado de que GPT-5 enrutará automáticamente las consultas a un modelo adecuado para la tarea, en lugar de exigir a los usuarios que elijan manualmente el modelo que desean probar. Sin embargo, también se enteró de que GPT-4O tuvo claramente más éxito en generar una miniatura de YouTube y una invitación de fiesta de cumpleaños, y no tuvo problemas para inducir a GPT-5 a inventar hechos falsos. En cuestión de horas, los usuarios comenzaron a expresar su decepción con el nuevo modelo en el subreddit R/CHATGPT. Una publicación lo llamó la “pieza de basura más grande incluso como usuario pagado”. En una sesión de Ask Me Anything (AMA), Altman y otros ingenieros de Operai se encontraron en la defensiva, abordando las quejas. Marcus resumió el lanzamiento como “vencido, sobrevalorado y decepcionado”.
A raíz del lanzamiento de GPT-5, se ha vuelto más difícil tomar predicciones rimbombantes sobre la IA al valor nominal, y las opiniones de críticos como Marcus parecen cada vez más moderados. Tales voces argumentan que esta tecnología es importante, pero no está a punto de transformar drásticamente nuestras vidas. Nos desafían a considerar una visión diferente para el futuro cercano, uno en el que la IA podría no ser mucho mejor que esto.
Operai no quería esperar casi dos años y medio para lanzar GPT-5. Según la información, en la primavera de 2024, Altman les estaba diciendo a los empleados que su próximo modelo principal, el nombre en código Orion, sería significativamente mejor que GPT-4. En el otoño, sin embargo, quedó claro que los resultados fueron decepcionantes. “Si bien el rendimiento de Orion terminó superando el de los modelos anteriores”, informó la información en noviembre, “el aumento de la calidad fue mucho menor en comparación con el salto entre GPT-3 y GPT-4”.
El fracaso de Orion ayudó a consolidar el temor de la industria de que la ley de escala de IA no era una ley después de todo. Si la construcción de modelos Ever-Bigger estaba produciendo rendimientos decrecientes, las compañías tecnológicas necesitarían una nueva estrategia para fortalecer sus productos de IA. Pronto se decidieron por lo que podría describirse como “mejoras posteriores a la capacitación”. Los principales modelos de idiomas grandes pasan por un proceso llamado pre-entrenamiento en el que esencialmente digeren todo el Internet para volverse inteligente. Pero también es posible refinar modelos más tarde, para ayudarlos a utilizar mejor el conocimiento y las habilidades que han absorbido. Una técnica posterior a la capacitación es aplicar una herramienta de aprendizaje automático, el aprendizaje de refuerzo, para enseñar un modelo previamente capacitado a comportarse mejor en tipos específicos de tareas. Otro permite que un modelo pase más tiempo informático generando respuestas a consultas exigentes.
Una metáfora útil aquí es un automóvil. Se puede decir que la capacitación previa produce el vehículo; después de la capacitación lo soporta. En el papel de la ley de escala, Kaplan y sus coautores predijeron que a medida que expande el proceso de pre-entrenamiento, aumenta la potencia de los autos que produce; Si GPT-3 era un sedán, GPT-4 era un auto deportivo. Sin embargo, una vez que esta progresión vaciló, la industria centró su atención en ayudar a los autos que ya habían construido para funcionar mejor. Las técnicas posteriores a la capacitación convirtieron a los ingenieros en mecánica.
Los líderes tecnológicos expresaron rápidamente la esperanza de que un enfoque posterior a la capacitación mejorara sus productos tan rápido como la escala tradicional. “Estamos viendo el surgimiento de una nueva ley de escala”, dijo Satya Nadella, CEO de Microsoft, en una conferencia el otoño pasado. El capitalista de riesgo, Anjney Midha, habló de manera similar de una “segunda era de leyes de escala”. En diciembre, Openai lanzó O1, que utilizó técnicas posteriores a la capacitación para mejorar el modelo en el razonamiento paso a paso y escribir código de computadora. Pronto, la compañía había presentado O3-Mini, O3-Mini-High, O4-Mini, O4-Mini-High y O3-Pro, cada uno de los cuales se repitió con una combinación a medida de técnicas posteriores a la capacitación.
Otras compañías de IA persiguieron un pivote similar. Anthrope experimentó con mejoras posteriores al entrenamiento en un lanzamiento de febrero del soneto Claude 3.7, y luego las hizo centrales en su familia de modelos Claude 4. El XAI de Elon Musk continuó persiguiendo una estrategia de escala hasta su lanzamiento invernal de Grok 3, que se capacitó previamente en un asombroso 100,000 chips GPU de 100,000 H100, muchas veces el poder computacional que se informó que se usó para entrenar GPT-4. Cuando Grok 3 no superó significativamente a sus competidores, la compañía adoptó enfoques posteriores a la capacitación para desarrollar Grok 4. GPT-5 encaja perfectamente en esta trayectoria. Es menos un modelo nuevo que un intento de refinar productos recientes post-entrenamiento e integrarlos en un solo paquete.