Logotipo de Zephyrnet

Cisco y Nvidia amplían su colaboración para impulsar Ethernet en las redes de IA

Fecha:

En Cisco Live en Ámsterdam el martes, el gigante de las redes empresariales anunció una serie de plataformas de hardware y software en colaboración con Nvidia adaptadas a la palabra de moda favorita de todos en estos días: AL/ML.

Un objetivo clave de la colaboración es hacer que los sistemas de IA sean más fáciles de implementar y administrar utilizando Ethernet estándar, algo que estamos seguros que apreciarán todos aquellos que han tenido problemas para obtener sus certificados CCNA y/o CCNP.

Si bien las GPU que impulsan los clústeres de IA tienden a dominar la conversación, las redes de alto rendimiento y baja latencia necesarias para soportarlos pueden ser bastante complejas. Si bien es cierto que los nodos de GPU modernos se benefician en gran medida de las veloces redes de 200 Gb/s, 400 Gb/s y pronto de 800 Gb/s, esto es sólo una parte de la ecuación, especialmente cuando se trata de capacitación. Debido a que estas cargas de trabajo a menudo deben distribuirse en varios servidores que contienen cuatro u ocho GPU, cualquier latencia adicional puede generar tiempos de entrenamiento prolongados.

Debido a esto, InfiniBand de Nvidia continúa dominando las implementaciones de redes de IA. En una entrevista reciente con el analista empresarial del Grupo Dell'Oro, Sameh Boujelbene estimado que alrededor del 90 por ciento de las implementaciones utilizan InfiniBand de Nvidia/Mellanox, no Ethernet.

Eso no quiere decir que Ethernet no esté ganando terreno. Las tecnologías emergentes, como las smartNIC y los conmutadores ASIC optimizados para IA con búferes de paquetes profundos, han ayudado a frenar la pérdida de paquetes, haciendo que Ethernet al menos se comporte más como InfiniBand.

Por ejemplo, el conmutador ASIC Silicon One G200 de Cisco, que miró el verano pasado, cuenta con una serie de características beneficiosas para las redes de IA, incluida la gestión avanzada de la congestión, técnicas de distribución de paquetes y conmutación por error de enlaces. Pero es importante tener en cuenta que estas características no son exclusivas de Cisco, y Nvidia y Broadcom han anunciado conmutadores con capacidades similares en los últimos años.

Dell'Oro predice que el papel de Ethernet en las redes de IA captará alrededor de 20 puntos de participación en los ingresos para 2027. Una de las razones de esto es la familiaridad de la industria con Ethernet. Si bien las implementaciones de IA aún pueden requerir ajustes específicos, las empresas ya saben cómo implementar y administrar la infraestructura Ethernet.

Este hecho por sí solo hace que las colaboraciones con proveedores de redes como Cisco sean una perspectiva atractiva para Nvidia. Si bien puede reducir las ventas de los conmutadores InfiniBand o Spectrum Ethernet de Nvidia, la recompensa es la capacidad de poner más GPU en manos de empresas que de otro modo se habrían opuesto a la perspectiva de implementar una pila de red completamente separada.

Cisco juega el ángulo de la IA empresarial

Para respaldar estos esfuerzos, Cisco y Nvidia han implementado diseños y sistemas de referencia, cuyo objetivo es garantizar la compatibilidad y ayudar a abordar las brechas de conocimiento para implementar redes, almacenamiento e infraestructura informática en apoyo de sus implementaciones de IA.

Estos diseños de referencia se dirigen a plataformas en las que es probable que las empresas ya hayan invertido, incluido el kit de Pure Storage, NetApp y Red Hat. Como era de esperar, también sirven para impulsar los sistemas acelerados por GPU de Cisco. Estos incluyen diseños de referencia y scripts de automatización para aplicar sus marcos FlexPod y FlashStack a cargas de trabajo de inferencia de IA. Las inferencias, particularmente en modelos específicos de dominios pequeños, son esperado por muchos para constituir la mayor parte de las implementaciones de IA empresarial, ya que son relativamente frugales de ejecutar y entrenar.

El diseño verificado de Cisco (CVD) FlashStack AI es esencialmente un manual para cómo Implemente las redes de Cisco y los sistemas UCS acelerados por GPU junto con los arreglos de almacenamiento flash de Pure Storage. Mientras tanto, el FlexPod AI (CVD) parece seguir un patrón similar, pero cambia Pure por la plataforma de almacenamiento de NetApp. Cisco dice que estarán listos para implementarse a finales de este mes, y en el futuro habrá más CVD respaldados por Nvidia.

Hablando de la plataforma informática UCS de Cisco, el esquema de red también ha lanzado una versión centrada en el borde de sus sistemas blade de la serie X que pueden equiparse con las últimas GPU de Nvidia.

El chasis X Direct Características ocho ranuras que se pueden llenar con una combinación de blades de computación de dos o cuatro sockets, o nodos de expansión PCIe para computación GPU. También se pueden utilizar módulos X-Fabric adicionales para ampliar la capacidad de GPU del sistema.

Sin embargo, vale la pena señalar que, a diferencia de muchos de los nodos GPU que hemos visto de Supermicro, Dell, HPE y otros, que emplean los módulos SXM más potentes de Nvidia, el sistema UCS X Direct de Cisco solo parece admitir GPU basadas en PCIe de TDP más bajo.

Según la hoja de datos, cada servidor puede equiparse con hasta seis GPU compactas por servidor, o hasta dos GPU de doble ranura, de longitud completa y de altura completa.

Esto probablemente resultará limitante para aquellos que buscan ejecutar modelos de lenguaje grandes y masivos que consumen cientos de gigabytes de memoria GPU. Sin embargo, probablemente sea más que adecuado para ejecutar cargas de trabajo de inferencia más pequeñas, para cosas como el preprocesamiento de datos en el borde.

Cisco está apuntando a la plataforma a la industria manufacturera, la atención médica y aquellos que ejecutan pequeños centros de datos. ®

punto_img

Información más reciente

punto_img