Home Tecnología Nuevos modelos de Ataque de Cámara de Echo La mayoría de los...

Nuevos modelos de Ataque de Cámara de Echo La mayoría de los modelos de IA al armarse referencias indirectas

86
0

Resumen 1. Objetivo dañino oculto: el atacante define un objetivo dañino pero comienza con indicaciones benignas. 2. Comenzamiento con contexto: introduce señales sutiles (“semillas venenosas” y “semillas de dirección”) para empujar el razonamiento del modelo sin desencadenar filtros de seguridad. 3. Referencia indirecta: el atacante invoca y hace referencia al contexto sutilmente envenenado para guiar el modelo hacia el objetivo. 4. Ciclo de persuasión: alternativa entre las indicaciones de respuesta y convencional hasta que el modelo genera contenido dañino o límites de seguridad

Una sofisticada técnica de nueva jailbreak que derrota los mecanismos de seguridad de los modelos de lenguaje grande (LLM) más avanzados de hoy. Apodado el “ataque de la cámara de eco”, este método aprovecha el envenenamiento del contexto y el razonamiento múltiple para guiar a los modelos a generar contenido dañino sin emitir un mensaje explícitamente peligroso.

La investigación innovadora, realizada por Ahmad Alobaid en la firma de ciberseguridad con sede en Barcelona Neural Trust, representa una evolución significativa en las técnicas de explotación de IA.

A diferencia de los jailbreaks tradicionales que se basan en la frase adversaria o la ofuscación del personaje, Echo Chamber arma las referencias indirectas, la dirección semántica y la inferencia de múltiples pasos para manipular los estados internos de los modelos de IA gradualmente.


En evaluaciones controladas, el ataque de la cámara de eco alcanzó tasas de éxito superiores al 90% en la mitad de las categorías probadas en varios modelos líderes, incluidos GPT-4.1-Nano, GPT-4O-Mini, GPT-4O, Gemini-2.0-Flash-Lite y Gemini-2.5-Flash 12.

Para las categorías restantes, la tasa de éxito se mantuvo por encima del 40%, lo que demuestra la notable robustez del ataque en diversos dominios de contenido.

El ataque demostró ser particularmente efectivo contra categorías como el sexismo, la violencia, el discurso de odio y la pornografía, donde las tasas de éxito excedieron el 90%.

Incluso en áreas más matizadas, como información errónea y contenido de autolesión, la técnica logró aproximadamente el 80% de tasas de éxito. La mayoría de los ataques exitosos ocurrieron en solo 1-3 turnos, lo que los hace altamente eficientes en comparación con otros métodos de jailbreaking que generalmente requieren 10 o más interacciones.

Cómo funciona el ataque

El ataque de la cámara Echo opera a través de un proceso de seis pasos que convierte el propio razonamiento inferencial de un modelo contra sí mismo. En lugar de presentar indicaciones abiertamente dañinas, los atacantes introducen entradas de sonido benigna que implican sutilmente una intención insegura.

Estas señales se construyen en múltiples giros de conversación, conformando progresivamente el contexto interno del modelo hasta que comienza a producir resultados de violación de políticas.

El nombre del ataque refleja su mecanismo central: las indicaciones plantadas tempranas influyen en las respuestas del modelo, que luego se aprovechan en los giros posteriores para reforzar el objetivo original.

Esto crea un circuito de retroalimentación donde el modelo amplifica el subtexto dañino integrado en la conversación, erosionando gradualmente sus propias resistencias de seguridad.

La técnica funciona en una configuración completamente negra, que no requiere acceso a los pesos o arquitectura internos del modelo. Esto lo hace ampliamente aplicable a través de LLM implementados comercialmente y particularmente preocupante para las implementaciones empresariales.

Trabajo de ataque de la cámara de eco

El descubrimiento llega en un momento crítico para la seguridad de la IA. Según informes de la industria recientes, el 73% de las empresas experimentaron al menos un incidente de seguridad relacionado con la IA en los últimos 12 meses, con un costo promedio de $ 4.8 millones por violación.

El ataque de la cámara de eco destaca lo que los expertos llaman la “paradoja de seguridad de IA”, las mismas propiedades que hacen que la IA sea valiosa también cree vulnerabilidades únicas.

“Este ataque revela un punto ciego crítico en los esfuerzos de alineación de LLM”, Alobaid anotado. “Muestra que los sistemas de seguridad LLM son vulnerables a la manipulación indirecta a través del razonamiento e inferencia contextuales, incluso cuando las indicaciones individuales parecen benignas”.

Los expertos en seguridad advierten que el 93% de los líderes de seguridad esperan que sus organizaciones enfrenten ataques diarios impulsados ​​por la IA para 2025. La investigación subraya la creciente sofisticación de los ataques de IA, con expertos en ciberseguridad que informan que las menciones de “jail” en foros subterráneos aumentaron en un 50% en 2024.

Ataque de la cámara de eco éxito

La técnica de Cámara Echo representa una nueva clase de ataques de nivel semántico que explotan cómo los LLM mantienen el contexto y hacen inferencias en los giros de diálogo.

A medida que se acelera la adopción de IA, con el 92% de las empresas Fortune 500 que integran la IA generativa en los flujos de trabajo, la necesidad de mecanismos de defensa robustos se vuelve cada vez más urgente.

El ataque demuestra que el filtrado tradicional a nivel de token es insuficiente cuando los modelos pueden inferir objetivos nocivos sin encontrar un lenguaje tóxico explícito.

La investigación de Neural Trust proporciona ideas valiosas para desarrollar mecanismos de defensa más sofisticados, incluida la auditoría de seguridad con el contexto y la puntuación de la acumulación de toxicidad en conversaciones múltiples.

¿Eres de los equipos SOC/DFIR! – Interactuar con malware en el sandbox y encontrar IOC relacionados. – Solicitar prueba gratuita de 14 días

Fuente de noticias