Home Tecnología NPU Core mejora el rendimiento de la inferencia en más del 60%

NPU Core mejora el rendimiento de la inferencia en más del 60%

10
0

El algoritmo de cuantización de Oaken que consta de tres componentes: (a) cuantificación híbrida en línea influye basada en umbral, (b) cuantificación de cambio de grupo y (c) codificación densa y espada fusionada. Crédito: Actas del 52º Simposio Internacional Anual sobre Arquitectura de Computadora (2025). Doi: 10.1145/3695053.3731019

Los últimos modelos de IA generativos, como ChatGPT-4 de Openai, Gemini 2.5 de Google requieren no solo un alto ancho de banda de memoria sino también una gran capacidad de memoria. Esta es la razón por la cual las compañías operativas de operaciones de AI Cloud como Microsoft y Google compran cientos de miles de GPU NVIDIA.

Como una solución para abordar los desafíos centrales de construir dicha infraestructura de IA de alto rendimiento, los investigadores coreanos han logrado desarrollar una tecnología central de NPU (unidad de procesamiento neural) que mejora el rendimiento de inferencia de los modelos de IA generativos en un promedio de más del 60%, mientras consume aproximadamente 44% menos de energía en comparación con el último GPU.

El equipo de investigación del profesor Jongse Park de Kaist School of Computing, en colaboración con Hyperaccel Inc., desarrolló una tecnología central NPU de alta potencia y baja potencia especializada para nubes de IA generativas como ChatGPT.

La tecnología propuesta por el equipo de investigación fue presentada por Ph.D. Estudiante Minsu Kim y el Dr. Seongmin Hong de Hyperaccel Inc. como autores co-primero en el Simposio Internacional de Cómodos de 2025 (Cebo 2025), celebrado en Tokio, del 21 al 25 de junio.

El objetivo clave de este investigación Es para mejorar el rendimiento de los servicios de IA generativos a gran escala mediante la luz de la luz del proceso de inferencia, al tiempo que minimiza la pérdida de precisión y la resolución de problemas de cuello de botella de memoria. Esta investigación es altamente reconocida por su diseño integrado de semiconductores de IA y software del sistema de IA, que son componentes clave de la infraestructura de IA.

Si bien la infraestructura de IA basada en GPU existente requiere múltiples dispositivos de GPU para satisfacer las altas demandas de capacidad y la capacidad, esta tecnología permite la configuración del mismo nivel de infraestructura de IA utilizando menos dispositivos NPU a través de la cuantificación de caché de KV. El caché de KV representa la mayor parte del uso de la memoria, por lo tanto, su cuantificación reduce significativamente el costo de construir nubes de IA generativas.

Arquitectura general del acelerador Oaken. Crédito: Actas del 52º Simposio Internacional Anual sobre Arquitectura de Computadora (2025). Doi: 10.1145/3695053.3731019

El equipo de investigación lo diseñó para integrarse con las interfaces de memoria sin cambiar la lógica operativa de las arquitecturas NPU existentes. Esta arquitectura de hardware no solo implementa el algoritmo de cuantización propuesto, sino que también adopta técnicas de gestión de memoria a nivel de página para una utilización eficiente de ancho de banda y capacidad de memoria limitados, e introduce nuevas técnicas de codificación optimizadas para el caché KV cuantificado.

Además, al construir una nube de IPU basada en NPU con costo superior y eficiencia energética en comparación con las últimas GPU, se espera que la naturaleza de alta potencia y baja potencia de las NPU reduzca significativamente los costos operativos.

Professor Jongse Park said, “This research, through joint work with HyperAccel Inc., found a solution in generative AI inference light-weighting algorithms and succeeded in developing a core NPU technology that can solve the memory problem. Through this technology, we implemented an NPU with over 60% improved performance compared to the latest GPUs by combining quantization techniques that reduce memory requirements while maintaining inference accuracy, and hardware designs optimized for este.

“Esta tecnología ha demostrado la posibilidad de implementar una infraestructura de bajo rendimiento y baja potencia especializada para IA generativa, y se espera que desempeñe un papel clave no solo en los centros de datos de nubes de IA sino también en el entorno de transformación de IA (AX) representado por una IA dinámica y ejecutable como la IA Agentic”.

Más información: Minsu Kim et al, Oaken: LLM rápido y eficiente que sirve con cuantificación de caché de KV híbrido en línea sinritante, Actas del 52º Simposio Internacional Anual sobre Arquitectura de Computadora (2025). Doi: 10.1145/3695053.3731019

Proporcionado por el Instituto Avanzado de Ciencia y Tecnología de Corea (KAIST)

Cita: la infraestructura de la nube de IA se vuelve más rápida y verde: el núcleo de NPU mejora el rendimiento de la inferencia en más del 60% (2025, 7 de julio) recuperó el 7 de julio de 2025 de https://techxplore.com/news/2025-07-aicloud-infrastructure-faster-greener.html

Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.

Fuente de noticias