Home Tecnología Primer ataque de Rowhammer dirigido a las GPU NVIDIA

Primer ataque de Rowhammer dirigido a las GPU NVIDIA

12
0

Los investigadores de ciberseguridad de la Universidad de Toronto han logrado un gran avance en los ataques a nivel de hardware al demostrar con éxito GPUHammer, el primer ataque de Rowhammer se dirige específicamente a las GPU discretas de NVIDIA.

La investigación, que se centra en la popular GPU NVIDIA A6000 con memoria GDDR6, representa una expansión significativa de la vulnerabilidad de Rowhammer de una década más allá de los recuerdos tradicionales de la CPU.

El equipo de investigación, dirigido por Chris S. Lin, Joyce Qu y Gururaj Saileshwar, superó los desafíos técnicos sustanciales para lograr lo que anteriormente se pensaba imposible.


Su ataque GPUHammer indujo con éxito volteos de 8 bits en 4 bancos DRAM en la GPU A6000, lo que demuestra que los recuerdos de Graphics-DDR (GDDR) son realmente vulnerables a los mismos ataques de perturbación que han afectado los recuerdos de la CPU durante años.

“Esta es la primera campaña sistemática de Rowhammer en las GPU de NVIDIA”, declararon los investigadores en su artículo. El ataque requirió desarrollar técnicas novedosas, incluidas las asignaciones de fila GDDR de ingeniería inversa y la creación de optimizaciones de acceso de memoria específicas de GPU para amplificar la intensidad de martillo.

Impacto del mundo real en los sistemas de IA

Las implicaciones se extienden mucho más allá de la investigación académica. El equipo demostró que estas alas de bits pueden causar una degradación de precisión devastadora en los modelos de aprendizaje automático, con caídas de hasta el 80% observadas en redes neuronales populares, incluidas Alexnet, VGG16, ResNet50, Densenet161 e InceptionV31.

Esta vulnerabilidad es particularmente preocupante dado que las GPU alimentan la mayoría de las cargas de trabajo de inferencia de IA en entornos de nubes y empresas.

El ataque se dirige a la parte más significativa del exponente en los pesos de representación FP16, alterando exponencialmente los valores de los parámetros y reduciendo drásticamente la precisión del modelo. En algunos casos, los modelos con el 80% de precisión de línea de base se redujeron a menos del 0.5% de precisión con un solo flip de bits colocados estratégicamente.

Los investigadores enfrentaron obstáculos únicos para adaptar las técnicas tradicionales de Rowhammer a las arquitecturas de GPU. Las GPU tienen una latencia de memoria aproximadamente 4 × más alta en comparación con las CPU y las tasas de actualización más rápidas, lo que hace que los enfoques de martillo convencionales sean ineficaces.

El equipo resolvió esto desarrollando núcleos de martillo paralelo que aprovechan las capacidades de rendimiento de GPU, logrando tasas de activación cerca de 500,000 activaciones por ventana de actualización1.

Además, la naturaleza patentada de las asignaciones de memoria de GPU requirió enfoques innovadores de ingeniería inversa. A diferencia de las CPU donde las direcciones físicas son accesibles, las GPU NVIDIA mantienen estas asignaciones privadas, lo que obliga a los investigadores a desarrollar nuevos métodos para identificar ubicaciones de memoria vulnerables1.

Respuesta y mitigación de Nvidia

Siguiendo el responsable divulgación El 15 de enero de 2025, NVIDIA emitió una seguridad integral consultivo reconociendo la vulnerabilidad. La compañía enfatizó que el ECC a nivel del sistema mitiga efectivamente el ataque cuando está habilitada, aunque esta protección viene con aproximadamente 6.5% de sobrecarga de memoria y 3-10% de impacto de rendimiento1.

El aviso de NVIDIA cubre múltiples generaciones de GPU, incluidas las arquitecturas Blackwell, ADA, Hopper, Ampere, Jetson, Turing y Volta. La compañía recomienda encarecidamente habilitar ECC a nivel de sistema en productos profesionales y de centros de datos, señalando que está habilitado de forma predeterminada en GPU de Hopper y Blackwell Data Center.

Para las generaciones más nuevas de GPU, el ECC (OD-CECC) en muerte proporciona protección adicional. Esta tecnología se habilita automáticamente en dispositivos compatibles, incluidas las tarjetas de consumo de la serie RTX 50 y los últimos productos del centro de datos, que ofrecen resistencia incorporada a los ataques de Rowhammer.

La investigación destaca una brecha crítica en la seguridad de GPU a medida que estos procesadores se vuelven cada vez más centrales para la IA y la computación de alto rendimiento. Con NVIDIA al mando de aproximadamente el 90% de la cuota de mercado de GPU, la vulnerabilidad potencialmente afecta a millones de sistemas en todo el mundo.

El momento es particularmente significativo ya que los proveedores de la nube ofrecen cada vez más servicios de tiempo compartido de GPU, creando entornos de múltiples inquilinos donde los actores maliciosos podrían apuntar a los modelos de IA de otros usuarios o los datos confidenciales que residen en la memoria de GPU.

Si bien los investigadores se centraron en la GPU A6000, pueden existir vulnerabilidades similares en otras arquitecturas de GPU y tipos de memoria. El equipo señaló que las GPU A100 con memoria HBM2E y dispositivos RTX 3080 no mostraron flotas de bits en sus pruebas, aunque esto puede deberse a diferentes niveles de umbral o mitigaciones mejoradas en lugar de inmunidad.

La investigación subraya la importancia de las consideraciones de seguridad a nivel de hardware en el diseño del sistema de IA y la necesidad de estrategias de mitigación sólidas a medida que la informática de GPU continúa expandiéndose a través de aplicaciones críticas.

Investigue el comportamiento de malware en vivo, rastree cada paso de un ataque y tome decisiones de seguridad más rápidas y inteligentes -> Prueba cualquiera.

Fuente de noticias