Crédito: Dispositivo (2025). Doi: 10.1016/j.device.2025.100834
La promesa de un nuevo tipo de chip de computadora que podría remodelar el futuro de la inteligencia artificial y ser más amigable con el medio ambiente se explora en un documento de revisión de tecnología publicado por UC Riverside Engine en la revista Dispositivo.
Conocidos como aceleradores a escala de obleas, estos chips masivos hechos por cerebras se basan en obleas de silicio del tamaño de un plato, en marcado contraste con las unidades de procesamiento de gráficos tradicionales, o GPU, que no son más grandes que un sello de postales.
El documento de un equipo de UCR interdisciplinario concluye que los procesadores a escala de obleas pueden ofrecer mucho más potencia informática con una eficiencia energética mucho mayor, los tratos que se necesitan a medida que los modelos de IA se vuelven cada vez más grandes y más exigentes.
“La tecnología a escala de obleas representa un gran avance hacia adelante”, dijo Mihri Ozkan, profesora de ingeniería eléctrica e informática en la Facultad de Ingeniería Bourns de UCR y la autora principal del documento. “Permite que los modelos de IA con billones de parámetros se ejecuten más rápido y de manera más eficiente que los sistemas tradicionales”.
Además de Ozkan, los coautores incluyen a los estudiantes de posgrado de la UCR Lily Pompa, Md Shaihan bin Iqbal, Yiu Chan, Daniel Morales, Zixun Chen, entregando a Wang, Lusha Gao y Sandra Hernández González.
Las GPU se convirtieron en herramientas esenciales para el desarrollo de la IA porque pueden realizar muchos cálculos a la vez: ideales para procesar imágenes, lenguaje y flujos de datos en paralelo. La ejecución de miles de operaciones paralelas simultáneamente permite que los autos sin conductor interpreten el mundo que las rodea para evitar colisiones, para que se generen imágenes a partir de texto y para que ChatGPT sugiera docenas de recetas de comidas de una lista específica de ingredientes.
Pero a medida que aumenta la complejidad del modelo AI, incluso las GPU de alta gama están comenzando a alcanzar el rendimiento y los límites de energía.
“La computación de IA ya no es solo la velocidad”, dijo Ozkan. “Se trata de diseñar sistemas que puedan mover cantidades masivas de datos sin sobrecalentarse o consumir electricidad excesiva”.
El análisis de UCR compara los chips de GPU estándar de hoy con sistemas a escala de obleas como el motor a escala de obleas de cerebras 3 (WSE-3), que contiene 4 billones de transistores y 900,000 núcleos específicos de IA en una sola oblea. Dojo D1 de Tesla, otro ejemplo, incluye 1.25 billones de transistores y casi 9,000 núcleos por módulo. Estos sistemas están diseñados para eliminar los cuellos de botella de rendimiento que ocurren cuando los datos deben viajar entre múltiples chips más pequeños.
“Al mantener todo en una oblea, evita los retrasos y las pérdidas de potencia de la comunicación de chip a chip”, dijo Ozkan.
El documento también destaca las tecnologías como el empaque chip-on-wafer-on-sustrato, lo que podría hacer que los diseños a escala de obleas sean más compactos y más fáciles de escalar, con un aumento potencial de 40 veces en la densidad computacional.
Si bien estos sistemas ofrecen ventajas sustanciales, no son adecuados para cada aplicación. Los procesadores a escala de obleas son costosos de fabricar y menos flexibles para tareas a menor escala. Las GPU convencionales, con su modularidad y asequibilidad, siguen siendo esenciales en muchos entornos.
“Las GPU de un solo chip no desaparecerán”, dijo Ozkan. “Pero los aceleradores a escala de obleas se están volviendo indispensables para capacitar a los modelos de IA más avanzados”.
El documento también aborda una preocupación creciente en la IA: la sostenibilidad. Los centros de datos con GPU utilizan enormes cantidades de electricidad y agua para mantenerse frescos. Los procesadores a escala de obleas, al reducir el tráfico de datos internos, consumen mucha menos energía por tarea.
Por ejemplo, las cerebras WSE-3 pueden realizar hasta 125 cuadrillones de operaciones por segundo mientras usa una fracción de la potencia requerida por los sistemas de GPU comparables. Su arquitectura mantiene los datos locales, reduciendo el sorteo de energía y la salida térmica.
Mientras tanto, la GPU H100 de Nvidia, la columna vertebral de muchos centros de datos modernos, ofrece flexibilidad y alto rendimiento, pero a un mayor costo de energía. Con una tasa de eficiencia de aproximadamente 7.9 billones de operaciones por segundo por vatio, también requiere una infraestructura de enfriamiento extensa, que a menudo implica grandes volúmenes de agua.
“Piense en las GPU como carreteras ocupadas, efectivas, pero los atascos desperdician energía”, dijo Ozkan. “Los motores a escala de obleas son más como monorraíles: directo, eficiente y menos contaminante”.
Cerebras informa que las cargas de trabajo de inferencia en su sistema WSE-3 usan un sexto la potencia de configuraciones de nubes basadas en GPU equivalentes. La tecnología ya se está utilizando en simulaciones climáticas, ingeniería sostenible y modelado de captura de carbono.
“Estamos viendo que los sistemas a escala de obleas aceleran la investigación de sostenibilidad en sí misma”, dijo Ozkan. “Esa es una victoria para la informática y una victoria para el planeta”.
Sin embargo, el calor sigue siendo un desafío. Con una potencia de diseño térmico que alcanza los 10,000 vatios, los chips a escala de obleas requieren enfriamiento avanzado. Las cerebras emplean un bucle basado en glicol integrado en el paquete de chips, mientras que Tesla utiliza un sistema de refrigerante que distribuye líquido de manera uniforme a través de la superficie del chip.
Los autores también enfatizan que hasta el 86% de la huella de carbono total de un sistema puede provenir de las cadenas de fabricación y suministro, no solo el uso de energía. Abogan por materiales reciclables y aleaciones de baja emisión, junto con prácticas completas de diseño de ciclo de vida.
“La eficiencia comienza en la fábrica”, dijo Ozkan. “Para reducir realmente el impacto de la informática, necesitamos repensar todo el proceso, desde la oblea hasta el desperdicio. Esta revisión es el resultado de una colaboración interdisciplinaria profunda. Esperamos que sirva como una hoja de ruta para investigadores, ingenieros y formuladores de políticas que navegan por el futuro del hardware AI”.
Más información:
Mihrimah Ozkan et al, rendimiento, eficiencia y análisis de costos de los aceleradores de IA a escala de obleas versus GPU de un solo chip, Dispositivo (2025). Doi: 10.1016/j.device.2025.100834
Proporcionado por la Universidad de California – Riverside
Citación: Los aceleradores a escala de obleas podrían redefinir la IA (2025, 17 de junio) recuperado el 17 de junio de 2025 de
Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.