Logotipo de Zephyrnet

Conmutadores ópticos de demostración coherentes para clústeres de IA aún más grandes

Fecha:

El negocio de redes Coherent presentó un conmutador de circuito óptico diseñado para admitir clústeres de IA de alta densidad en la Conferencia de Comunicación de Fibra Óptica el lunes.

El interruptor no es como los que normalmente se encuentran en los grupos de IA, ya que el cambio real se maneja completamente de forma óptica, en lugar de usar transceptores para convertir fotones en electrones y viceversa. La luz láser simplemente entra por un puerto y sale por otro, con un poco de atenuación, por supuesto.

El aparato, que está previsto que se envíe en volumen el próximo año, cuenta con 300 puertos de entrada y 300 de salida y se basa en la tecnología Datacenter Light Wave Cross Connect de Coherent. Tal como lo entendemos, funciona manipulando células de cristal líquido para controlar qué longitud de onda de luz va a dónde.

El último conmutador de circuito óptico de Coherent expuesto en la OFC cuenta con 300 puertos de entrada y 300 de salida.

El último conmutador de circuito óptico de Coherent expuesto en la OFC cuenta con 300 puertos de entrada y 300 de salida. Haga clic para ampliar

El analista del Grupo Dell'Oro, Sameh Boujelbene, dijo El registro que los interruptores de circuitos ópticos ofrecen un par de beneficios. Además de un gran ancho de banda y una red de baja latencia, los conmutadores de este tipo tienden a ser menos costosos de operar, ya que requieren sustancialmente menos conmutadores eléctricos y transceptores ópticos.

Además, Coherent señala que este tipo de conmutación óptica tiende a ser más confiable, algo que dará dividendos en grupos muy grandes en los que el tiempo medio hasta la falla tiende a ser bastante bajo.

Esta es una de las razones por las que Google desarrolló sus propios conmutadores de circuitos ópticos para sus módulos TPUv4. Hablando en Hot Chips el año pasado, Andy Swing, líder técnico del grupo TPU de Google, explicado [Video] que usando OCS Google pudo combinar cantidades muy grandes de aceleradores.

Estos módulos constan de 64 bastidores, cada uno de los cuales contiene 64 unidades de procesamiento de tensores (TPU). Cada uno de estos bastidores se conectó ópticamente a uno de los conmutadores OCS desarrollados internamente por Google, para una malla de todos con todos.

Swing explicó que este enfoque tiene un par de beneficios, incluida la capacidad de reconfigurar dinámicamente el tamaño del clúster. Otra es que todos los aceleradores están conectados entre sí, lo que mejora la confiabilidad, una cualidad deseable ya que las cargas de trabajo de entrenamiento pueden durar meses dependiendo del recuento de parámetros del modelo y el tamaño del conjunto de datos.

En el caso de los pods TPUv4 de Google, si uno de los nodos fallara, el conmutador podría reconfigurarse para solucionar el problema.

Swing también señaló que el enfoque permite utilizar varias topologías de red según el modelo. Por ejemplo, en las pruebas, Google vio un aumento considerable en el ancho de banda de la red mediante el uso de una topología de toro retorcido, en la que los aceleradores están entrelazados en algo parecido a un bucle retorcido.

Pero si bien los nuevos dispositivos OCS de Coherent pueden permitir a otros construir clusters conmutados ópticamente similares a los de Google, Boujelbene de Dell Oro señaló que OCS sigue siendo una tecnología relativamente nueva en el centro de datos.

“Hasta ahora sólo Google, después de muchos años de desarrollo, ha podido implementarlo. en masa en sus redes de centros de datos”, dijo. "Además, los conmutadores OCS pueden requerir un cambio en la base instalada de fibra dependiendo del proveedor de servicios en la nube". ®

punto_img

Información más reciente

punto_img