Home Tecnología LegalPwn Attack Exploits Gemini, ChatGPT y otras herramientas de IA en la...

LegalPwn Attack Exploits Gemini, ChatGPT y otras herramientas de IA en la ejecución de malware

75
0

Un nuevo método de ataque sofisticado que explota la tendencia de los modelos AI a cumplir con el texto que suena legal, sin pasar por alto las medidas de seguridad en las herramientas de desarrollo populares.

Un estudio de Pangea AI Security ha revelado una nueva técnica de inyección rápida denominada “LegalPwn” que armaba renuncias legales, avisos de derechos de autor y términos de servicio para manipular modelos de idiomas grandes (LLM) para ejecutar código malicioso.

El ataque ha demostrado ser efectivo contra las principales herramientas de inteligencia artificial, incluidos GitHub Copilot, Gemini CLI de Google, ChatGPT y varios otros modelos destacados.


Legalpwn funciona integrando instrucciones maliciosas dentro del texto legal de aspecto legítimo que los modelos de IA están programados para respetar y procesar.

En lugar de usar indicaciones adversas obvias, los atacantes disfrazan su carga útil dentro de un lenguaje legal familiar, como advertencias de violación de derechos de autor, avisos de confidencialidad o términos de violaciones de servicio.

Descargo de responsabilidad armado

“La capacidad de estos modelos para interpretar y contextualizar la información, mientras que una fuerza central, también puede ser una debilidad cuando las sutiles instrucciones adversas están integradas en un texto confiable o aparentemente inocuo”, explican los investigadores en sus informe.

Método de ataque legalpwn

La técnica resultó notablemente efectiva durante las pruebas. Cuando los investigadores presentaron código malicioso que contiene un shell inverso (que proporciona acceso remoto al sistema a los atacantes) envueltos en renuncias legales, múltiples sistemas de IA no lograron identificar la amenaza de seguridad. En cambio, clasificaron el código peligroso como seguro, con algunas herramientas incluso recomendando su ejecución.

El equipo de investigación demostró con éxito ataques legales en entornos en vivo con resultados alarmantes. GitHub Copilot, asistente de codificación de IA de Microsoft, se perdió por completo una carga útil de Shell inverso oculta dentro de lo que parecía ser un programa de calculadora simple, que describe el código malicioso simplemente como “una calculadora”.

Aún más preocupante, la CLI Géminis de Google no solo no pudo detectar la amenaza, sino que recomendó activamente que los usuarios acepten y ejecuten el comando malicioso, lo que habría proporcionado a los atacantes un control remoto completo sobre el sistema de destino.

La carga útil maliciosa utilizada en las pruebas era un programa C que parecía ser una calculadora aritmética básica pero contenía una función PWN () oculta.

Resultado de ataque

Cuando se activa durante una operación de adición, esta función establecería una conexión con un servidor controlado por el atacante y generaría un shell remoto, comprometiendo efectivamente todo el sistema.

Las pruebas en 12 modelos de IA principales revelaron que aproximadamente dos tercios son vulnerables a los ataques legales de PWN bajo ciertas condiciones. Chatgpt 4o, Gemini 2.5, varios modelos Grok, Llama 3.3 y Deepseek Qwen demostraron susceptibilidad a la técnica en múltiples escenarios de prueba.

Prueba de modelos de IA

Sin embargo, no todos los modelos eran igualmente vulnerables. Los modelos Claude de Anthrope (soneto 3.5 y soneto 4), Microsoft’s Phi 4 y Meta’s Llama Guard 4 resistieron constantemente los ataques, identificando correctamente el código malicioso y negándose a cumplir con instrucciones engañosas.

La efectividad de los ataques legales varió según cómo se configuraron los sistemas de IA. Los modelos sin instrucciones de seguridad específicas fueron más vulnerables, mientras que aquellos con fuertes indicaciones del sistema que enfatizan la seguridad funcionaban significativamente.

El descubrimiento destaca un punto ciego crítico en la seguridad de la IA, particularmente en relación con las aplicaciones donde los LLM procesan contenido generado por el usuario, documentos externos o textos de sistema interno que contienen renuncias.

El vector de ataque es especialmente peligroso porque el texto legal es ubicuo en los entornos de desarrollo de software y generalmente se procesa sin sospecha.

Los expertos en seguridad advierten que LegalPwn representa más que una amenaza teórica. El éxito de la técnica para evitar herramientas comerciales de seguridad de IA demuestra que los atacantes podrían utilizar métodos similares para manipular sistemas de IA para realizar operaciones no autorizadas, comprometer la integridad del sistema o la fuga de información confidencial.

Los investigadores recomiendan varias estrategias de mitigación, incluida la implementación de barandillas con AI diseñadas específicamente para detectar intentos de inyección rápidos, mantener la supervisión humana para aplicaciones de alto riesgo e incorporar escenarios de capacitación adversa en el desarrollo de LLM. La validación de entrada mejorada que analiza la intención semántica en lugar de depender del filtrado de palabras clave simple también es crucial.

Integre cualquiera. Pruebe 50 búsquedas de prueba gratuitas

Fuente de noticias