Home Tecnología Cyberoceval de código abierto establece nuevos estándares para la IA en el...

Cyberoceval de código abierto establece nuevos estándares para la IA en el análisis de malware e inteligencia de amenazas

22
0

Una innovadora suite de referencia de código abierto llamado Cybersoceval se ha convertido en el primer marco de evaluación integral para modelos de idiomas grandes (LLM) en entornos del Centro de Operaciones de Seguridad (SOC).

Lanzado como parte de Cyberseceval 4, este innovador punto de referencia aborda las brechas críticas en la evaluación de IA de ciberseguridad al centrarse en dos dominios defensivos esenciales: análisis de malware y razonamiento de inteligencia de amenazas.

La investigación, realizada por Meta y CrowdStrike, revela que los sistemas actuales de IA están lejos de saturar estas evaluaciones centradas en la seguridad, con puntajes de precisión que van desde aproximadamente el 15% al ​​28% en las tareas de análisis de malware y del 43% al 53% en el razonamiento de inteligencia de amenazas.


Control de llave
1. Cybersoceval, el primer LLM de prueba de referencia de código abierto en las tareas del centro de operaciones de seguridad.
2. Los LLM actuales logran solo 15-28% de precisión en el análisis de malware y 43-53% en inteligencia de amenazas.
3. 609 preguntas de malware y 588 preguntas de inteligencia de amenazas evalúan sistemas de IA en registros JSON, asignaciones de MITER ATT & CK y cadenas de ataque complejas.

Estos resultados destacan oportunidades significativas para mejorar las capacidades de defensa cibernética de IA.

Análisis de malware de cibroscebeval

El componente de análisis de malware de Cybersoceval aprovecha los datos reales de detonación de Sandbox de CrowdStrike Falcon® Sandbox, creando 609 pares de preguntas de preguntas en cinco categorías de malware, incluidos el ransomware, los troyanos de acceso remoto (Rats), InfoTentesers, EDR/AV Killers y Technices de Um Uncooking.

El punto de referencia evalúa la capacidad de los sistemas de IA para interpretar registros complejos del sistema JSON, árboles de procesos, tráfico de red y asignaciones del marco Mitre ATT & CK.

Las especificaciones técnicas incluyen soporte para modelos con hasta 128,000 ventanas de contexto de token, con mecanismos de filtrado que reducen el tamaño del informe al tiempo que mantienen la integridad del rendimiento.

La evaluación cubre conceptos críticos de ciberseguridad, incluidos T1055.001 (inyección de proceso), T1112 (claves de ejecución de registros) y llamadas API como Createremotethread, Virtualalloc y WriteProcessMemory.

Los procesos de referencia de razonamiento de inteligencia de amenazas 588 pares de respuesta de pregunta derivados de 45 informes distintos de inteligencia de amenazas procedentes de CrowdStrike, CISA, NSA e IC3.

A diferencia de los marcos existentes como Ctibench y SeedllM, Cyberoceval incorpora informes de inteligencia multimodal que combinan indicadores textuales de compromiso (COI) con tablas y diagramas.

La metodología de evaluación emplea la generación de preguntas basada en categorías y basada en relaciones utilizando modelos Maverick de LLAMA 3.2 90B y LLAMA 4.

Distribución del informe de detonación por ataque y distribución de malware por tema y dificultad

Las preguntas requieren un razonamiento de múltiples saltos en las relaciones de los actores de amenaza, la atribución de malware y el complejo análisis de la cadena de ataque mapeado a marcos como Miter ATT & CK.

Los modelos de razonamiento que aprovechan la escala del tiempo de prueba no demuestran las mejoras de rendimiento observadas en los dominios de codificación y matemáticas, lo que sugiere que la capacitación de razonamiento específica de ciberseguridad representa una oportunidad de desarrollo clave, meta dicho.

La naturaleza de código abierto del punto de referencia fomenta las contribuciones de la comunidad y brinda a los profesionales métricos de selección de modelos confiables al tiempo que ofrece a los desarrolladores de IA una hoja de ruta de desarrollo clara para mejorar las capacidades de defensa cibernética.

¡Webinar gratuito en vivo en nuevas tácticas de malware de nuestros analistas! Aprenda técnicas de detección avanzada -> Regístrese gratis

Fuente de noticias