Logotipo de Zephyrnet

TensorWave, startup de IA en la nube, apuesta a que AMD puede vencer a Nvidia

Fecha:

Están surgiendo operadores de nube especializados en ejecutar GPU que consumen mucha energía y otras infraestructuras de inteligencia artificial, y aunque algunos de estos jugadores, como CoreWeave, Lambda o Voltage Park, han construido sus clústeres utilizando decenas de miles de GPU de Nvidia, otros están recurriendo a AMD en su lugar.

Un ejemplo de esto último es la startup TensorWave, que a principios de este mes comenzó a acumular sistemas impulsados ​​por Instinct MI300X de AMD, y planea alquilar los chips a una fracción del costo cobrado para acceder a los aceleradores de Nvidia.

El cofundador de TensorWave, Jeff Tatarchuk, cree que los últimos aceleradores de AMD tienen muchas cualidades excelentes. Para empezar, puedes comprarlos. TensorWave se ha asegurado una gran asignación de piezas.

Para finales de 2024, TensorWave pretende tener 20,000 aceleradores MI300X implementados en dos instalaciones y planea poner en funcionamiento sistemas adicionales refrigerados por líquido el próximo año.

El último silicio AI de AMD también es más rápido que el tan codiciado H100 de Nvidia. "Sólo en especificaciones básicas, el MI300x domina al H100", dijo Tatarchuk.

Lanzado en el evento Advancing AI de AMD en diciembre, el MI300X es el acelerador más avanzado de la firma de diseño de chips hasta la fecha. El chip de 750W utiliza una combinación de paquetes avanzados para unir 12 chiplets (20 si contamos los módulos HBM3) en una sola GPU que, según se afirma, es un 32 por ciento más rápida que la H100 de Nvidia.

Además de un mayor rendimiento de punto flotante, el chip también cuenta con una memoria HBM192 más grande de 3 GB capaz de ofrecer 5.3 TB/s de ancho de banda frente a los 80 GB y 3.35 TB/s que afirma el H100.

Como hemos visto en la H200 de Nvidia (una versión de la H100 potenciada por la inclusión de HBM3e), el ancho de banda de la memoria es un principal contribuyente al rendimiento de la IA, particularmente en la inferencia en grandes modelos de lenguaje.

Al igual que los diseños HGX de Nvidia y OAM de Intel, las configuraciones estándar de la última GPU de AMD requieren ocho aceleradores por nodo.

Esa es la configuración que la gente de TensorWave está ocupada apilando y apilando.

“Tenemos cientos de personas ingresando ahora y miles en los próximos meses”, dijo Tatarchuk.

Acumulándolos

en una foto publicado En las redes sociales, el equipo de TensorWave mostró lo que parecían ser tres Supermicro AS-8GS-TNMR8125 de 2U. sistemas acumulado. Esto nos llevó a preguntarnos si los racks de TensorWave tenían limitaciones energéticas o térmicas; después de todo, no es inusual que estos sistemas consuman más de 10 kW cuando están completamente cargados.

Resulta que la gente de TensorWave no había terminado de instalar las máquinas y que la empresa apunta a cuatro nodos con una capacidad total de alrededor de 40kW por rack. Estos sistemas se enfriarán mediante intercambiadores de calor de puerta trasera (RDHx). como lo hemos hecho discutido Antiguamente se trataba de radiadores del tamaño de una rejilla por los que circulaba agua fría. Cuando el aire caliente sale de un servidor convencional, pasa a través del radiador que lo enfría a niveles aceptables.

Esta tecnología de refrigeración se ha convertido en un producto de moda entre los operadores de centros de datos que buscan soportar grupos de GPU más densos y ha generado algunos desafíos en la cadena de suministro, dijo el director de operaciones de TensorWave, Piotr Tomasik.

"Hay muchos problemas de capacidad, incluso en los equipos auxiliares alrededor de los centros de datos en este momento", dijo, refiriéndose específicamente a RDHx como un punto débil. "Hemos tenido éxito hasta ahora y éramos muy optimistas sobre nuestra capacidad para implementarlos".

Sin embargo, a largo plazo, TensorWave tiene la vista puesta en el enfriamiento directo al chip, que puede ser difícil de implementar en centros de datos que no fueron diseñados para albergar GPU, dijo Tomasik. “Estamos entusiasmados de implementar la refrigeración directa del chip en la segunda mitad del año. Creemos que será mucho mejor y más fácil con la densidad”.

La ansiedad de desempeño

Otro desafío es la confianza en el desempeño de AMD. Según Tatarchuk, si bien hay mucho entusiasmo en torno a que AMD ofrezca una alternativa a Nvidia, los clientes no están seguros de poder disfrutar del mismo rendimiento. "También hay muchos comentarios de 'No estamos 100 por ciento seguros de si va a ser tan bueno como a lo que estamos acostumbrados actualmente en Nvidia'", dijo.

Con el fin de poner los sistemas en funcionamiento lo más rápido posible, TensorWave lanzará sus nodos MI300X utilizando RDMA sobre Ethernet convergente (RoCE). Estos sistemas bare metal estarán disponibles durante períodos de arrendamiento fijos, aparentemente por tan solo $1/hora/GPU.

Ampliar

Con el tiempo, el equipo pretende introducir una capa de orquestación más similar a la nube para el aprovisionamiento de recursos. También está en la agenda la implementación de la tecnología FabreX basada en PCIe 5.0 de GigaIO para unir hasta 5,750 GPU en un solo dominio con más de un petabyte de memoria de alto ancho de banda.

Estos llamados TensorNODE se basan en la arquitectura SuperNODE de GigaIO. mostró el año pasado, que utilizó un par de dispositivos de conmutación PCIe para conectar hasta 32 GPU AMD MI210 juntas. En teoría, esto debería permitir que un solo nodo principal de CPU aborde muchos más que los ocho aceleradores que normalmente se ven en los nodos de GPU en la actualidad.

Este enfoque difiere del diseño preferido de Nvidia, que utiliza NVLink para unir múltiples superchips en una gran GPU. Si bien NVLink es considerablemente más rápido y alcanza un máximo de 1.8 TB/s de ancho de banda en su última iteración en comparación con solo 128 GB/s en PCIe 5.0, solo admite configuraciones de hasta 576 GPU.

TensorWave financiará la construcción de su granero de bits utilizando sus GPU como garantía para una gran ronda de financiación de deuda, un enfoque utilizado por otros operadores de centros de datos. La semana pasada, Lambda revelado Había obtenido un préstamo de 500 millones de dólares para financiar el despliegue de “decenas de miles” de los aceleradores más rápidos de Nvidia.

Mientras tanto, CoreWeave, uno de los mayores proveedores de GPU en alquiler, pudo seguro un enorme préstamo de 2.3 millones de dólares para ampliar la huella de su centro de datos.

“Deberíamos esperar que tengamos el mismo tipo de anuncio aquí a finales de este año”, dijo Tomasik. ®

punto_img

Información más reciente

punto_img