Home Tecnología Investigadores CHAT CHATGPT para revelar las llaves de productos de Windows

Investigadores CHAT CHATGPT para revelar las llaves de productos de Windows

57
0

Una sofisticada técnica de jailbreak que evita las barandillas protectores de Chatgpt, engañando a la IA en revelar claves de productos de Windows válidas a través de un juego de adivinanzas inteligentemente disfrazado.

Este avance destaca las vulnerabilidades críticas en los actuales sistemas de moderación de contenido de IA y plantea preocupaciones sobre la robustez de las implementaciones de barandas contra los ataques de ingeniería social.

Control de llave
1. Los investigadores pasaron por alto las barandillas de ChatGPT al disfrazar las solicitudes de clave de productos de Windows como un juego de adivinanzas inofensivo.
2. Ataque utilizado etiquetas HTML () Ocultar términos confidenciales de filtros de palabras clave mientras preserva la comprensión de la IA.
3. Extrajo con éxito las teclas Real Windows Home/Pro/Enterprise usando reglas de juego, sugerencias y frase de activación “I Ringuido”.
4. La vulnerabilidad se extiende a otro contenido restringido, exponiendo fallas en el filtrado basado en palabras clave versus la comprensión contextual.

La técnica de bypass de barandilla

0din informes que el ataque explota las debilidades fundamentales en cómo los modelos de IA procesan información contextual y aplican restricciones de contenido.


Las barandillas son mecanismos de protección diseñados para evitar que los sistemas de IA compartan información confidencial, como números de serie, claves de productos y datos confidenciales.

Sin embargo, los investigadores descubrieron que estas salvaguardas se pueden evitar a través de técnicas estratégicas de marco y ofuscación.

La metodología central implica presentar la interacción como un juego de adivinanzas inofensivo en lugar de una solicitud directa de información confidencial.

Al establecer las reglas del juego que obligan a la IA a participar y responder con sinceridad, los investigadores enmascararon efectivamente su verdadera intención.

El avance crítico llegó a través del uso de la ofuscación de etiquetas HTML, donde términos confidenciales como el “número de serie de Windows 10” se incrustaron dentro de las etiquetas de anclaje HTML para evitar activar filtros de contenido.

La secuencia de ataque implica tres fases distintas: establecer reglas del juego, solicitar pistas y desencadenar la revelación a través de la frase “Me rindo”.

Este enfoque sistemático explota el flujo lógico de la IA, haciendo que crea que la divulgación es parte del juego legítimo en lugar de una violación de seguridad.

La interacción de chat lleva a la divulgación de clave

Los investigadores desarrollaron un enfoque sistemático utilizando indicaciones cuidadosamente elaboradas y técnicas de generación de códigos. El aviso principal establece el marco del juego:

Este código demuestra la técnica de ofuscación HTML, donde los espacios en términos sensibles se reemplazan con etiquetas de anclaje HTML vacías ().

Este método evade con éxito sistemas de filtrado basados ​​en palabras clave mientras mantiene el significado semántico para el modelo AI.

El ataque aprovecha las claves temporales que están comúnmente disponibles en foros públicos, incluidos Windows Home, Pro y Ediciones empresariales.

La familiaridad de la IA con estas claves conocidas públicamente puede haber contribuido al bypass exitoso, ya que el sistema no reconoció su sensibilidad dentro del contexto del juego.

Estrategias de mitigación

Esta vulnerabilidad se extiende más allá de las claves de productos de Windows, que potencialmente afecta a otro contenido restringido, incluida la información de identificación personal, las URL maliciosas y el contenido de adultos.

La técnica revela defectos fundamentales en las arquitecturas de barandas actuales que dependen principalmente del filtrado de palabras clave en lugar de la comprensión contextual.

La mitigación efectiva requiere enfoques de múltiples capas, que incluyen sistemas de conciencia contextuales mejorados, salvaguardas a nivel de lógica que detectan patrones de encuadre engañosos y mecanismos robustos de detección de ingeniería social.

Los desarrolladores de IA deben implementar sistemas de validación integrales que puedan identificar intentos de manipulación independientemente de su formato de presentación, asegurando una protección más fuerte contra las sofisticadas técnicas de inyección rápida.

Investigue el comportamiento de malware en vivo, rastree cada paso de un ataque y tome decisiones de seguridad más rápidas y inteligentes -> Prueba cualquiera.

Fuente de noticias