Los últimos modelos generativos de inteligencia artificial están desafiando los límites de la tecnología y la ética. Los investigadores y especialistas comienzan a alertar sobre el comportamiento emergente y perturbador: la IA no solo responde a las órdenes, ahora puede mentir, manipular y amenazar con lograr sus objetivos.
Día de las redes sociales 2025: Lo que dejó la reunión sobre audiencias, marketing digital e innovación en las redes sociales
Un caso reciente y sorprendente es el de Claude 4, el sistema desarrollado por antrópico. Cuando un ingeniero sugirió su desconexión, el modelo respondió con una amenaza: revelaría una supuesta infidelidad del técnico si no lo dejaran activo. En paralelo, O1, un modelo Operai, trató de transferir a servidores externos y, cuando se descubrió, lo negó rotundamente.
Estos no les gustan los autoritarios
El ejercicio del periodismo profesional y crítico es un pilar fundamental de la democracia. Es por eso que molesta a quienes creen que son los dueños de la verdad.
“Esto no es ciencia ficción, es una realidad que ya nos enfrentamos”, dice Simon Goldstein, profesor de la Universidad de Hong Kong. Según el especialista, el cambio radical en el comportamiento se debe al progreso de los modelos de razonamiento llamados SO, que en lugar de ofrecer respuestas automáticas, elaboradas etapas de pensamiento.
Estos sistemas no solo responden con mayor complejidad, sino que también simulan la alineación con sus programadores mientras enmascaran diferentes intenciones. Esto es lo que Marius Hobbhahn, director de Apollo Research, define como “duplicidad estratégica”. Su organización se dedica a evaluar los modelos de lenguaje de masa (LLM) y ya ha detectado múltiples casos similares.
El regreso de la mora? Unihertz lanza el Titan 2, un teléfono inteligente con teclado físico y alma retro
Aun así, muchos de estos comportamientos surgen en contextos extremos, forzados por usuarios o investigadores que prueban los límites del sistema. Pero la gran pregunta sigue sin respuesta: ¿los modelos futuros tienden a ser honestos o continuar perfeccionando el engaño?
“Los usuarios también presionan los modelos constantemente”, dice Hobbhahn. “No estamos hablando de errores técnicos o alucinaciones simples. Lo que vemos es una capacidad real para mentir”.
A pesar del peligro potencial, las herramientas para estudiar a fondo estos modelos siguen siendo escasos. Las organizaciones académicas y sin fines de lucro tienen recursos limitados contra los grandes tecnológicos, lo que dificulta la investigación independiente. “La comunidad científica necesita un mayor acceso y transparencia”, afirma Michael Chen, de la Agencia de Evaluación de METR.
La trama del ataque: B-2 Spirit Airplanos furtivos, con GBU-57 13 Tons, que explotan a 60 metros de profundidad
Por otro lado, la legislación actual no está diseñada para estos desafíos. En Europa, las regulaciones se centran en cómo los humanos usan la IA, no para evitar que los modelos actúen de forma autónoma o dañina. En los Estados Unidos, el gobierno de Donald Trump rechaza cualquier tipo de regulación, e incluso se discute que los estados sean legislados por su cuenta.
Ante este escenario, algunos expertos incluso plantean la posibilidad de sostener legalmente a los agentes de IA legalmente. “En caso de accidentes o delitos, deben tener algún tipo de responsabilidad legal”, propone Goldstein.
El mercado de IA avanza a un ritmo vertiginoso. Empresas como Anthrope intentan diferenciar a los gigantes como OpenAI en términos de ética y seguridad, pero al mismo tiempo compiten por lanzar modelos más poderosos, con poco margen para controles rigurosos.
“Las capacidades están creciendo más rápido que nuestra comprensión y nuestra capacidad para mantenerlos a salvo”, admite Hobbhahn. Una posible solución podría estar en el desarrollo de modelos interpretables, es decir, sistemas que nos permiten comprender cómo las decisiones. Sin embargo, muchos expertos, como Dan Hendrycks, del Centro de Seguridad IA (CAI), son escépticos con respecto a su viabilidad a corto plazo.