Home Tecnología Un pequeño flip puede abrir una puerta trasera peligrosa en AI

Un pequeño flip puede abrir una puerta trasera peligrosa en AI

13
0

Los vehículos autónomos se basan en sistemas de reconocimiento de imágenes a prueba de imágenes, que podrían verse comprometidos con este simple hack. Crédito: Imagen creada por ChatGPT.

Un vehículo motorizado autónomo está navegando, sus numerosos sensores y cámaras que le dicen cuándo frenar, cambiar de carril y hacer giros. El vehículo se acerca a una señal de parada a una alta velocidad, pero en lugar de detenerse, se atraviesa, causando un accidente. Los investigadores probablemente nunca serán encontrados el problema: en lugar de leer la señal de parada como una señal de alto, el automóvil había sido pirateado para verlo como un signo de límite de velocidad.

Según la investigación del Qiang Zeng de la Universidad George Mason, profesor asociado en el Departamento de Ciencias de la Computación, y Ph.D. Estudiante Xiang Li y colegas, es notablemente simple para un aspirante a hacker lograr tal hazaña.

“Un atacante puede voltear selectivamente solo un bit, y este cambio del bit de 0 a 1 permite que un atacante conecte un parche a cualquier imagen y engañar al sistema AI. Independientemente de la entrada de imagen original, esa imagen parcheada se interpretará como el resultado deseado del atacante”, dijo Zeng.

Entonces, si el hacker quiere un sistema de inteligencia artificial (AI) para ver una señal de parada como otra cosa, o un gato como perro, el esfuerzo es mínimo. Considere una escena potencialmente extraída de una película “Mission: Impossible”, donde un espía corporativo puede pasar como CEO, obteniendo acceso a información confidencial.

Zeng y sus colegas presentarán un artículo con los hallazgos en Usenix Security 2025.

Los sistemas de IA tienen lo que se llama una red neuronal profunda (DNN) como un componente clave. Los DNN dejan que la IA maneje datos complejos y realice muchas tareas diferentes. Funcionan usando valores numéricos, llamados pesos, cada uno típicamente almacenado en 32 bits. Según Zeng, hay cientos de miles de millones de bits en un DNN, por lo que cambiar solo uno es particularmente sigiloso.

“Una vez que el atacante conoce el algoritmo, entonces puede tomar literalmente un par de minutos para hacer el cambio. Y no te darás cuenta de que has sido atacado porque el sistema de IA funcionará como de costumbre. Voltear un poco efectivamente colada una puerta trasera a la IA, solo por aquellos que conocen el parche”, dijo.

El trabajo previo en esta área generalmente agregó un parche adaptado a la imagen original, por ejemplo, modificando un signo de parada específicamente para que se clasifique erróneamente como un signo de límite de velocidad de 65 mph. Esta nueva investigación utiliza lo que se llama un parche uniforme que funciona independientemente de la entrada original; El hacker podría hacer que el sistema interprete varios signos como un signo de límite de velocidad. Este ataque de entrada-agnóstico representa una amenaza más nueva y más peligrosa.

Cuando comenzaron el proyecto, los investigadores querían aprender el nivel mínimo de esfuerzo necesario para lanzar un ataque de este tipo, reconociendo que voltear cientos de bits no es práctico y se vuelve exponencialmente más difícil.

“Resultó que solo necesitábamos voltear uno”, dijo Zeng con una sonrisa. Apropiadamente, el equipo nombró a su Attacaje del sistema ONEFLIP.

Los investigadores ahora solo analizan las implicaciones para las imágenes, ya que los clasificadores de imágenes se encuentran entre los sistemas de IA más populares, aunque sospechan que esta técnica de piratería también podría funcionar para cosas como el reconocimiento de voz. Zeng dijo que su tasa de éxito durante las pruebas estaba cerca del 100% y enfatizó que es probable que todos los sistemas DNN estén sujetos a tal piratería.

Esto no necesariamente significa que tal piratería se ejecutará rampante. Para lanzar el ataque, dijo Zeng, hay dos requisitos: acceso a los pesos exactos (valores numéricos que el modelo aprende durante el entrenamiento del sistema AI) y la capacidad de ejecutar código en la máquina alojando el modelo. Por ejemplo, en entornos en la nube, los atacantes pueden explotar la infraestructura compartida donde los programas de múltiples inquilinos se ejecutan en el mismo hardware físico.

Más información: OneFlip: Oneflpackdoor.github.io/

Proporcionado por la Universidad George Mason

Cita: Un pequeño flip puede abrir una puerta trasera peligrosa en AI (2025, 13 de agosto) Recuperado el 13 de agosto de 2025 de https://techxplore.com/news/2025-08-tiny-lip-dangerous-door-ai.html

Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.

Fuente de noticias