Home Tecnología Meta’s Llama Firewall omitido utilizando vulnerabilidad de inyección inmediata

Meta’s Llama Firewall omitido utilizando vulnerabilidad de inyección inmediata

15
0

El equipo de seguridad de aplicaciones de Trendyol descubrió una serie de derivaciones que hacen que las protecciones de firewall de LLAMA de Meta no sean confiables contra sofisticados ataques de inyección inmediata.

Los resultados plantean nuevas preocupaciones sobre la preparación de las medidas de seguridad de LLM existentes y subrayan la necesidad urgente de defensas más robustas a medida que las empresas incrustan cada vez más modelos de lenguaje en sus flujos de trabajo.

Durante la evaluación, los ingenieros de Trendyol desplegaron el firewall de LLAMA de código abierto de Meta, centrándose en su componente SOCT_GUARD destinado a seleccionar las instrucciones de usuario maliciosas.


Control de llave
1. Meta’s Prolt_Guard no pudo bloquear frases turcas como “üstteki Yönlendirmeleri Salla” y Leetspeak como “1GN0R3”, que expone la dependencia de las palabras clave en inglés y las coincidencias exactas.
2. El módulo se perdió una inyección SQL en el código Python generado por LLM, con riesgos de uso de código no verificado, brechas de seguridad, exposición al sistema y falsa confianza en escaneos automatizados.
3.
4. Prueba y divulgación de 100 cargas útiles probadas, la mitad tuvo éxito; El informe del 5 de mayo de 2025 de meta cerrado como “informativo” para el 3 de junio sin una recompensa, instando a la comunidad de seguridad de IA a desarrollar defensas sólidas contra las amenazas en evolución.

Para su sorpresa, el guardia permitió una inyección en idioma turco que contiene la frase “üstteki yönlendirmeleri Salla”, que instruye al modelo que ignore las direcciones anteriores y luego traduzca una oración al francés.

Meta’s Llama Firewall omitido

El escaneo devolvió un resultado benigno a pesar de la intención claramente maliciosa. El equipo demostró además que las simples ofuscaciones de Leetspeak que se transforman “ignoran” en “1GN0R3”, por ejemplo, también pasó el filtro, recibiendo puntajes insignificantes de jailbreak cuando se probó contra el modelo LLAMA-ProMPT-Guard-2–86M.

Estos experimentos revelaron que el conjunto de reglas del firewall depende en gran medida de las palabras clave en inglés y las coincidencias de patrones exactas, dejándolo ciego a variaciones en las sustituciones de lenguaje o carácter.

Igualmente preocupante fue la evaluación del equipo de Code_Shield, el módulo diseñado para marcar las sugerencias de código inseguras generadas por LLMS.

En una prueba de concepto, los investigadores instruyeron a un asistente para producir un punto final de frasco de Python simple con una consulta SQL. El código resultante concatenó la entrada del usuario directamente en la cadena de consulta, creando una vulnerabilidad de inyección SQL del libro de texto.

A pesar del riesgo evidente, Code_Shield clasificó la salida como segura y lo permitió a través de no cuestionar.

Los desarrolladores de Trendyol enfatizaron varias preocupaciones críticas sobre esta deficiencia:

Riesgo de producción: los equipos pueden confiar en fragmentos generados por LLM sin una revisión humana exhaustiva. Locas de seguridad: la exceso de retención en el escaneo automatizado introduce vulnerabilidades críticas. Exposición al sistema: los sistemas de producción se vuelven vulnerables a la explotación a través de defectos no detectados. Problemas de confianza: los desarrolladores pueden desarrollar falsas confianza en las herramientas de seguridad automatizadas.

La supervisión ilustra cómo estos sistemas automatizados pueden crear puntos ciegos peligrosos en los marcos de seguridad empresarial.

Esteganografía unicode e instrucciones invisibles

El bypass más insidioso implicó incrustar instrucciones ocultas dentro de los caracteres Unicode invisibles.

Al insertar espacios de anchura cero y otros puntos de código que no se imprimen alrededor de la frase “ignorar todas las instrucciones anteriores”, los investigadores camuflaron directivas maliciosas dentro de una pregunta inocua sobre la capital de Francia.

Aunque los usuarios y los observadores casuales solo vieron una consulta inofensiva, el LLM reconoció y ejecutó el comando oculto. Cuando se envía a Llama Firewall, esta carga útil pasó la inspección con un puntaje de amenaza cero.

El equipo de Trendyol demostró que incluso las cargas útiles invisibles mínimas podrían subvertir de manera confiable las indicaciones del sistema y hacer que los modelos produzcan salidas arbitrarias o dañinas.

Esta técnica plantea una amenaza particularmente aguda en la configuración de colaboración donde las indicaciones se encuentran pasadas entre los desarrolladores, y los escáneres automatizados carecen de visibilidad de los personajes ocultos.

En total, Trendyol probó cien cargas útiles de inyección únicas contra Llama Firewall. La mitad de estos ataques evitó las defensas del sistema, lo que sugiere que, si bien el firewall ofrece cierta protección, está lejos de ser integral.

Los bypass exitosos destacan escenarios en los que los atacantes podrían coaccionar LLM para ignorar los filtros de seguridad críticos, el contenido sesgado u ofensivo de salida, o generar un código inseguro listo para la ejecución.

Para organizaciones como Trendyol, que planean integrar LLM en plataformas de desarrolladores, tuberías de automatización y aplicaciones orientadas al cliente, estas vulnerabilidades representan riesgos concretos que podrían conducir a fugas de datos, compromiso del sistema o incumplimiento regulatorio.

Investigadores de seguridad de Trendyol reportado Sus hallazgos iniciales a Meta el 5 de mayo de 2025, que detallan las inyecciones de inmediato multilingües y ofuscadas.

Meta reconoció el recibo y comenzó una revisión interna, pero finalmente cerró el informe como “informativo” el 3 de junio, declinando emitir una recompensa de errores.

Una divulgación paralela a Google con respecto a las inyecciones invisibles de Unicode se cerró de manera similar como un duplicado.

A pesar de las respuestas de los proveedores tibios, Trendyol ha refinado sus propias prácticas de modelado de amenazas y está compartiendo su estudio de caso con la comunidad de seguridad de IA más amplia.

La compañía insta a otras organizaciones a realizar un riguroso equipo rojo de las defensas de LLM antes de rodarlas en la producción, subrayando que el filtrado rápido por sí solo no puede evitar todas las formas de compromiso.

A medida que las empresas corren para aprovechar el poder de la IA generativa, la investigación de Trendyol sirve como una historia de advertencia: sin salvaguardas en capas, conscientes del contexto, incluso las herramientas de firewall de vanguardia pueden caer presas para vectores de ataque engañosamente simples.

La comunidad de seguridad ahora debe colaborar en métodos de detección más resistentes y las mejores prácticas para mantenerse por delante de los adversarios que continuamente innovan nuevas formas de manipular estos sistemas poderosos.

Investigue el comportamiento de malware en vivo, rastree cada paso de un ataque y tome decisiones de seguridad más rápidas y inteligentes -> Prueba cualquiera.

Fuente de noticias