Tecnología

Multimodalidad como el próximo gran salto para la IA

Antoine Bosselut. Crédito: EPFL/Alain Herzog

Como jefe del laboratorio de procesamiento del lenguaje natural en EPFL, Antoine Bosselut vigila de cerca el desarrollo de herramientas generativas de inteligencia artificial como ChatGPT. Él mira hacia atrás en su evolución en los últimos dos años y sugiere algunas vías para el futuro.

Hablamos hace dos años, cuando ChatGPT se hizo público. Mirando hacia atrás, ¿diría que este fue el comienzo de una nueva era?

Sí, creo que hubo un “momento chatgpt” que cambió el paradigma de la IA de dos maneras. Primero, desde un punto de vista técnico: pasamos de los sistemas basados ​​en tareas a los sistemas basados ​​en instrucciones, o lo que se conoce como IA generativo. Antes de ese momento de chatgpt, los sistemas de IA individuales estaban capacitados para realizar tareas muy específicas.

ChatGPT cambió el juego, ya que podría convertir una multitud de instrucciones en varias salidas que representan una tarea dada, todo basado en una enorme cantidad de datos utilizados para entrenar el sistema. Ese cambio técnico también creó un cambio perceptivo. Con esa IA basada en la instrucción, cualquiera puede usar tales sistemas, y el público en general entendió que la IA podría integrarse en varios aspectos de su vida diaria.

Los competidores se apresuraron a lanzar sus propias soluciones. ¿Era Operai realmente un precursor?

Muchas empresas ya estaban trabajando en enfoques similares. Anthrope, que lanzó Claude, fue fundada un año antes de que Chatgpt saliera, por un grupo de ex ingenieros de Openai. Google también había estado trabajando durante muchos años en modelos de aprendizaje de instrucciones.

El lanzamiento de Operai fue un paso adelante de lo que cualquier otra persona había hecho, pero el cambio real fue que lograron poner la tecnología en un producto. Esto cambió la percepción del usuario sobre la madurez de esta tecnología, lo que forzó un cambio de enfoque de todos los grandes actores tecnológicos.

¿Qué pasa con Deepseek, lanzado a fines de 2024? ¿Es tan diferente de otros modelos?

Es demasiado pronto para decir si es un salto similar a lo que vimos hace dos años. Gran parte de la emoción en torno a Deepseek se basa en el costo, no necesariamente capacidades novedosas. La verdad es que todavía no sabemos mucho sobre ese modelo en sí. El precio que anunciaron se basa en la ronda de entrenamiento final. No sabemos el costo del modelo previamente capacitado.

Decir que es “código abierto” sería un tramo. Uno puede usar su código para integrarlo en otras aplicaciones y desarrollarlo aún más, pero realmente no sabemos cuáles son sus bases, ya que hay poca información sobre los datos de capacitación. No sabes lo que estás construyendo encima.

Vemos una carrera masiva para invertir en IA: Estados Unidos anunció 500 mil millones de dólares, Europa mencionó 200 mil millones de euros. ¿Realmente vale la pena gastar tanto dinero?

Vas a gastar este dinero de todos modos; La pregunta es, ¿quién lo entiende? La IA no irá a ninguna parte y continuará creciendo como una tecnología que las personas usan todos los días. Si Europa no puede desarrollar soluciones de IA generativas convincentes, los usuarios recurrirán a los servicios estadounidenses o chinos, con todos los riesgos que esto conlleva la soberanía.

¿Qué pasa con el lugar de Suiza en todo esto?

Tanto EPFL como ETH Zurich son excelentes para capacitar a la próxima generación de especialistas, desarrollando un sólido conocimiento teórico y haciendo que esté disponible para la sociedad en general, proporcionando así una alternativa confiable a las herramientas extranjeras. En ese sentido, esto es exactamente lo que se creó la iniciativa de IA suiza y el Instituto Nacional de AI suizo para hacer: Train la generación más joven de ingenieros y científicos, los pone a disposición de la sociedad.

Volvamos a cómo funcionan los modelos grandes. ¿Existe el riesgo de que la contaminación de los datos de capacitación, particularmente por los datos generados por la propia IA, perjudique su calidad?

Existe un riesgo teórico. Pero paradójicamente, gracias a los filtros y la limpieza de resultados que se desarrollan en paralelo, los datos sintéticos que sirven como fuentes son más de muy alta calidad. Por el contrario, mucho contenido sin filtro generado por humanos puede ser falso o sesgado. Por lo tanto, es difícil decir si este miedo está justificado.

¿En qué campo prevé que la IA generativa juegue un papel importante?

Puede ser más fácil pensar en los campos en los que la IA no desempeñará ningún papel … Hay campos (salud, seguridad nacional, información confidencial) en qué datos son sensibles, por lo que no podemos transferirlo fácilmente a los servidores donde se alojan los sistemas generativos de IA. La confianza hacia estos sistemas y sus propietarios seguirán siendo un signo de interrogación durante muchos años.

Hasta ahora, hemos observado un salto tecnológico cada dos o tres años. ¿Qué sigue?

A pesar de las capacidades siempre aceleradoras de estos modelos, siguen siendo fundamentalmente basados ​​en texto. En términos concretos, todo hoy se basa en un vocabulario de alrededor de 50,000 palabras. Esto puede ser suficiente para dar a los usuarios humanos la impresión de que la máquina es capaz de razonar. Pero el razonamiento humano es mucho más complejo y también usa otros modos de percepción: ondas, imágenes o incluso olores.

Creo que la próxima gran evolución vendrá cuando los modelos también puedan integrar directamente otros tipos de contenido, como imágenes, sonidos y videos. Esta “IA multimodal” se acercará aún más al “pensamiento” artificial, incluso si su definición sigue siendo más filosófica que técnica.

Proporcionado por Ecole Polytechnique Federal de Lausanne

Cita: Preguntas y respuestas: Multimodalidad como el próximo gran salto para la IA (2025, 27 de mayo) Recuperado el 27 de mayo de 2025 de https://techxplore.com/news/2025-05-qa-multimodality-big-ai.html

Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.

Back to top button