Logotipo de Zephyrnet

El chip de inteligencia artificial de próxima generación de Meta muestra anuncios mientras consume energía

Fecha:

Después de mostrar su acelerador de IA de segunda generación en febrero, Meta está listo para hablar sobre este silicio de cosecha propia, que ya se dice que impulsa las recomendaciones publicitarias en 16 regiones.

El gigante de Facebook ha estado diseñando aceleradores personalizados para todo tipo de cargas de trabajo, desde transmisión de video hasta aprendizaje automático, para impulsar los modelos de recomendación detrás de su imperio publicitario.

El última incorporación a la familia Meta Training Inference Accelerator (MTIA) afirma un rendimiento 3 veces mayor y una ventaja de eficiencia energética 1.5 veces mayor que la parte de primera generación, que nuestros amigos de The Next Platform analizo el año pasado.

Según Meta, el chip de segunda generación, al que llamaremos MTIA v2 en aras de la coherencia, fue diseñado para equilibrar la computación, la capacidad de memoria y el ancho de banda para obtener el mejor rendimiento posible para los modelos de recomendación y clasificación interna del hiperescalador. .

Profundizando en el diseño, el acelerador presenta una cuadrícula de elementos de procesamiento (PE) de 8 × 8 que en conjunto ofrecen un rendimiento informático denso 3.5 veces mayor o un rendimiento 7 veces mayor con la dispersión habilitada en comparación con MTIA v1.

Los aceleradores de IA de Meta ya están impulsando los modelos de clasificación y recomendación del hiperescalador.

El último acelerador de IA de Meta, arriba, ya está impulsando los modelos de recomendación y clasificación del hiperescalador. Haga clic para ampliar. Fuente: Meta

Más allá de utilizar un nodo de proceso TSMC de 5 nm más pequeño y aumentar la velocidad del reloj de 800 MHz a 1.35 GHz, Meta señala varias mejoras arquitectónicas y de diseño que contribuyeron a las ganancias de rendimiento de la última pieza. Estos incluyen soporte para computación dispersa, más memoria interna y externa y una red en chip (NoC) mejorada con el doble de ancho de banda que el modelo anterior. Así es como se comparan la primera y la segunda generación:

  MTI v1 MTI v2
tecnología de proceso TSMC de 7 nm TSMC de 5 nm
área de troquel 373 mm2 421 mm2
PE Cuadrícula 8 × 8 Cuadrícula 8 × 8
Velocidad de reloj 800MHz 1.35GHz
Rendimiento INT8 102 TOPS 354/708* ENCIMERAS
Rendimiento FP16/BF16 51.2 TFLOPS 177/354* TFLOPS
miembro de educación física 128 KB por PE 384 KB por PE
Memoria en chip 128MB 256MB
Memoria fuera del chip 64GB 128GB
Memoria BW fuera del chip 176GB / s 204GB / s
Conectividad 8x PCIe Generación 4.0 – 16 GB/s 8x PCIe Generación 5.0 – 32 GB/s
TDP 25W 90W

* Escaso rendimiento. Puede encontrar un desglose completo de ambos chips. esta página.

Cabe señalar que MTIA v2 no eliminará la necesidad de GPU del gigante web. El meta supremo Mark Zuckerberg ha dicho anteriormente que su megacorporación desplegará 350,000 aceleradores Nvidia H100 y tendrá el equivalente a 600,000 H100 operativos a finales de año.

En cambio, MTIA sigue un patrón cada vez más familiar para Meta (y otros) de desarrollar silicio personalizado adaptado a tareas específicas. La idea es que, si bien el kit puede no ser tan flexible como las CPU y GPU, un ASIC cuando se implementa a escala puede ser más eficiente.

Si bien el último chip consume casi cuatro veces más energía que su predecesor, es capaz de producir hasta 7 veces el rendimiento de punto flotante. Comparado con una GPU, el último acelerador de Meta logra 7.8 TOPS por vatio (TOPS/W), que como sabemos discutido en nuestra cobertura de Blackwell, supera al H100 SXM de Nvidia con 5.65 TOPS/W y es más del doble que el A100 SXM con 3.12 TOPS/W.

Dicho esto, está claro que Meta ha hecho todo lo posible para dimensionar el chip para sus cargas de trabajo internas, es decir, hacer inferencias en modelos recomendadores. Estos están diseñados para brindar sugerencias personalizadas, como personas que quizás conozca o, lo que es más importante para el modelo comercial de Meta, qué anuncios probablemente sean relevantes para usted.

Los chips también están diseñados para ampliarse según sea necesario y pueden implementarse en un sistema basado en rack que contenga 72 aceleradores en total: cada sistema combina tres chasis, cada uno con 12 placas de cómputo con dos chips MTIA v2 por placa.

Cada chasis MTIA v2 contiene 12 placas de cálculo, cada una con un par de aceleradores.

Cada chasis MTIA v2 contiene 12 placas de cálculo, cada una con un par de aceleradores... Haga clic para ampliar. Fuente: Meta.

En términos de implementación de cargas de trabajo, Meta se apoya en gran medida en el marco PyTorch y el compilador Triton. Hemos visto que esta combinación se utiliza para realizar tareas en varias GPU y aceleradores, en parte porque elimina en gran medida la necesidad de desarrollar código optimizado para hardware específico.

Meta, ha sido un importante proponente de PyTorch, que desarrolló antes de entregar las riendas a la Fundación Linux, ya que brinda a los ingenieros la flexibilidad para desarrollar aplicaciones de inteligencia artificial que pueden ejecutarse en una variedad de hardware GPU de Nvidia y AMD. Por tanto, tiene sentido que Meta quiera emplear las mismas tecnologías con sus propios chips.

De hecho, Meta afirma que al desarrollar conjuntamente su software y hardware pudo lograr una mayor eficiencia en comparación con las plataformas de GPU existentes y espera obtener aún más rendimiento a través de futuras optimizaciones.

MTIA v2 ciertamente no será el último silicio que veamos de Meta. El gigante de las redes sociales dice que tiene varios programas de diseño de chips en marcha, incluido uno que respaldará futuros sistemas de inteligencia artificial generativa. ®

punto_img

Información más reciente

punto_img