Logotipo de Zephyrnet

Transporte continuo de partículas de energía Monte Carlo en aceleradores AI HW

Fecha:

Investigadores del Laboratorio Nacional Argonne, la Universidad de Chicago y Cerebras Systems publicaron un artículo técnico titulado “Algoritmos eficientes para el transporte de partículas de Monte Carlo en hardware de acelerador de IA”.

Abstracto:

“La reciente tendencia hacia el aprendizaje profundo ha llevado al desarrollo de una variedad de arquitecturas de aceleradores de IA altamente innovadoras. Una de esas arquitecturas, Cerebras Wafer-Scale Engine 2 (WSE-2), cuenta con 40 GB de SRAM en el chip, lo que la convierte en una plataforma potencialmente atractiva para cargas de trabajo de simulación HPC con latencia o ancho de banda. En este estudio, examinamos la viabilidad de realizar un transporte continuo de partículas Monte Carlo (MC) de energía en el WSE-2 transfiriendo un núcleo clave del algoritmo de transporte MC al modelo de programación CSL de Cerebras. Se desarrollan y prueban nuevos algoritmos para minimizar los costos de comunicación y manejar el equilibrio de carga. Se ha descubierto que el WSE-2 se ejecuta 130 veces más rápido que una versión CUDA altamente optimizada del kernel ejecutada en una GPU NVIDIA A100, superando significativamente el aumento de rendimiento esperado dada la diferencia en el número de transistores entre las arquitecturas”.

Encuentra los documento técnico aquí. Publicado en noviembre de 2023 (preimpresión).

Tramm, John, Bryce Allen, Kazutomo Yoshii, Andrew Siegel y Leighton Wilson. "Algoritmos eficientes para el transporte de partículas de Monte Carlo en hardware de acelerador de IA". Preimpresión de arXiv arXiv:2311.01739 (2023).

Lectura relacionada
Procesadores de partición para cargas de trabajo de IA
El procesamiento de propósito general y la falta de flexibilidad están lejos de ser ideales para cargas de trabajo de IA/ML.
Compensaciones de procesador para cargas de trabajo de IA
Las brechas entre los avances y las demandas tecnológicas se están ampliando, y cerrarlas es cada vez más difícil.
Especialización vs. Generalización en procesadores
¿Qué se necesitará para lograr una personalización masiva en el borde, con alto rendimiento y bajo consumo?

punto_img

Información más reciente

punto_img