Logotipo de Zephyrnet

Con AI, necesita ver la imagen más grande de hardware y software

Fecha:

imagen

Característica patrocinada Ha pasado una década y media desde que los investigadores deslumbraron al mundo de la tecnología al demostrar que las unidades de procesamiento gráfico podrían usarse para acelerar drásticamente las operaciones clave de IA.

Esa realización continúa atrapando la imaginación de las empresas. IDC ha informado que, en lo que respecta a la infraestructura, la computación acelerada por GPU y la ampliación tipo HPC se encuentran entre las principales consideraciones para los líderes tecnológicos y los arquitectos que buscan desarrollar su infraestructura de IA.

Pero para todas las organizaciones que han aplicado con éxito la IA a los problemas del mundo real, muchas más luchan por ir más allá de la etapa de experimentación o piloto. Investigación de IDC de 2021 descubrió que menos de un tercio de los encuestados había puesto en producción sus proyectos de IA, y solo un tercio de ellos había alcanzado una "etapa madura de producción".

Los obstáculos citados incluyen problemas con el procesamiento y la preparación de datos y el refuerzo de la infraestructura para respaldar la IA a escala empresarial. Las empresas necesitaban invertir en "infraestructura especialmente diseñada y del tamaño adecuado", dijo IDC.

¿Cuál es el problema de la IA aquí?

Entonces, ¿dónde se equivocan esas organizaciones con la IA? Un factor podría ser que los líderes tecnológicos y los especialistas en IA no estén teniendo una visión holística de la tubería de IA más amplia y presten demasiada atención a las GPU en comparación con otros motores de cómputo, en particular la venerable CPU.

Porque, en última instancia, no se trata de respaldar CPU frente a GPU frente a ASIC. Más bien, se trata de encontrar la manera óptima de construir una canalización de IA que pueda llevarlo desde ideas y datos y construcción de modelos hasta implementación e inferencia. Y eso significa apreciar las fortalezas respectivas de las diferentes arquitecturas de procesador, para que pueda aplicar el motor de cómputo adecuado en el momento adecuado.

Como explica Shardul Brahmbhatt, director senior de Datacenter AI Strategy and Execution de Intel, “La CPU se ha utilizado para microservicios e instancias informáticas tradicionales en la nube. Y las GPU se han utilizado para computación paralela, como transmisión de medios, juegos y cargas de trabajo de IA”.

Entonces, a medida que los hiperescaladores y otros jugadores de la nube han centrado su atención en la IA, queda claro que están aprovechando estas mismas fortalezas para diferentes tareas.

Las capacidades de las GPU en torno al cómputo paralelo las hacen muy adecuadas para entrenar algoritmos de IA, por ejemplo. Mientras tanto, las CPU tienen una ventaja cuando se trata de inferencia en tiempo real de baja latencia y bajo lote, y el uso de esos algoritmos para analizar datos en vivo y entregar resultados y predicciones.

Una vez más, hay advertencias, explica Brahmbhatt: “Hay lugares en los que desea hacer más inferencia por lotes. Y esa inferencia por lotes también es algo que se está haciendo a través de GPU o ASIC”.

Mirando hacia abajo de la tubería

Pero la tubería de IA se extiende más allá del entrenamiento y la inferencia. En el lado izquierdo de la canalización, los datos deben preprocesarse y desarrollarse algoritmos. La CPU generalista tiene un papel importante que desempeñar aquí.

De hecho, las GPU representan una proporción relativamente pequeña de la actividad total del procesador en toda la tubería de IA, con cargas de trabajo de "etapa de datos" alimentadas por CPU que representan dos tercios en general, según Intel (puede leer un resumen de la solución: Optimice la inferencia con la tecnología Intel CPU aquí).

Y Brahmbhatt nos recuerda que la arquitectura de la CPU tiene otras ventajas, incluida la programabilidad.

“Debido a que las CPU se han utilizado de manera tan amplia, ya existe un ecosistema existente de desarrolladores y aplicaciones disponibles, además de herramientas que brindan facilidad de uso y capacidad de programación para computación de propósito general”, dice.

“En segundo lugar, las CPU brindan un acceso más rápido al espacio de memoria más grande. Y luego, la tercera cosa es que se trata de un cómputo más no estructurado en comparación con las GPU [que] son ​​más un cómputo paralelo. Por estas razones, las CPU funcionan como transportadores de datos que alimentan las GPU, lo que ayuda con los modelos de sistemas de recomendación y con las cargas de trabajo en evolución, como Graph Neural Networks”.

Un plan abierto para el desarrollo de la IA

Entonces, ¿cómo debemos ver los roles de las CPU y las GPU, respectivamente, al planificar una canalización de desarrollo de IA, ya sea en las instalaciones, en la nube o entre ambos?

Las GPU revolucionaron el desarrollo de la IA porque ofrecían un método de aceleración que descarga las operaciones de la CPU. Pero no se sigue que esta sea la opción más sensata para un trabajo dado.

Como explica el arquitecto de la plataforma Intel, Sharath Raghava, “las aplicaciones de IA tienen cálculos vectorizados. Los cálculos vectoriales son paralelizables. Para ejecutar cargas de trabajo de IA de manera eficiente, se podrían aprovechar las capacidades de las CPU y las GPU teniendo en cuenta el tamaño de los cálculos vectoriales, la latencia de descarga, la paralelización y muchos otros factores”. Pero continúa, para una tarea "más pequeña", el "costo" de la descarga será excesivo y puede que no tenga sentido ejecutarlo en una GPU o acelerador.

Las CPU también pueden beneficiarse de una integración más estrecha con otros componentes del sistema que les permitan completar el trabajo de IA más rápidamente. Obtener el máximo valor de las implementaciones de IA implica más que ejecutar solo los modelos en sí: la información buscada depende de operaciones eficientes de preprocesamiento, inferencia y posprocesamiento. El preprocesamiento requiere que los datos estén preparados para que coincidan con las expectativas de entrada del modelo entrenado antes de alimentarlos para generar inferencias. Luego, la información útil se extrae de los resultados de la inferencia en la etapa de posprocesamiento.

Si pensamos en un sistema de detección de intrusos (IDS) en un centro de datos, por ejemplo, es importante actuar sobre la salida del modelo para proteger y prevenir cualquier daño de un ataque cibernético de manera oportuna. Y, por lo general, los pasos de preprocesamiento y posprocesamiento son más eficientes cuando se llevan a cabo en las CPU del sistema host porque se integran más estrechamente con el resto del ecosistema arquitectónico.

Aumento del rendimiento bajo las órdenes de principiantes

Entonces, ¿eso significa renunciar por completo a los beneficios de la aceleración de GPU? No necesariamente. Intel ha estado incorporando aceleración de IA en sus CPU escalables Xeon durante algunos años. La gama ya incluye Deep Learning Boost para inferencia de alto rendimiento en modelos de aprendizaje profundo, mientras que Advanced Vector Extensions 512 (AVX 512) y Vector Neural Network Extensions (VNNI) de Intel aceleran el rendimiento de inferencia INT8. Pero DL Boost también utiliza el formato de punto flotante cerebral (BF16) para mejorar el rendimiento en cargas de trabajo de entrenamiento que no requieren altos niveles de precisión.

Las próximas CPU Xeon Scalable de cuarta generación de Intel agregarán multiplicación de matriz avanzada o AMX. Esto dará un impulso adicional de 8 veces sobre las extensiones AVX-512 VNNI x86 implementadas en procesadores anteriores de acuerdo con los cálculos de Intel, y permitirá que los procesadores escalables Intel Xeon de cuarta generación "manejen cargas de trabajo de entrenamiento y algoritmos DL como lo hace una GPU". Pero esos mismos aceleradores también se pueden aplicar a la computación general de la CPU para cargas de trabajo de IA y no IA.

Eso no significa que Intel espere que las canalizaciones de IA sean x86 de principio a fin. Cuando tiene más sentido descargar por completo las cargas de trabajo de entrenamiento que se beneficiarán de la paralelización, Intel ofrece su procesador de entrenamiento Habana Gaudi AI. Las pruebas comparativas sugieren que estas últimas potencian las instancias DL2 de Amazon EC1, que pueden ofrecer una relación precio-rendimiento hasta un 40 % mejor que las instancias de capacitación comparables basadas en GPU de Nvidia, también alojadas en la nube.

Al mismo tiempo, la serie Flex de GPU para centros de datos de Intel está orientada a cargas de trabajo y operaciones que se benefician de la paralelización, como la inferencia de IA, con diferentes implementaciones dirigidas a modelos de IA "más ligeros" y más complejos. Otra GPU Intel® Data Center, cuyo nombre en código es Ponte Vecchio (PVC), pronto comenzará a alimentar la supercomputadora Aurora en el Laboratorio Nacional de Argonne.

¿Podemos ir de punta a punta?

Potencialmente, entonces, el silicio de Intel puede respaldar toda la tubería de IA, al tiempo que minimiza la necesidad de descargar datos entre diferentes motores de cómputo innecesariamente. Los procesadores de la empresa, ya sean GPU o CPU, también admiten un modelo de software común basado en marcos y herramientas de código abierto con optimizaciones de Intel a través de su programa OneAPI.

Brahmbhatt cita la herencia de Intel en la construcción de un ecosistema de software x86 basado en la comunidad y el código abierto como otra ventaja. “La filosofía que tiene Intel es… 'dejar que el ecosistema impulse la adopción'. Y debemos asegurarnos de que seamos justos y abiertos al ecosistema, y ​​que le devolvamos nuestra salsa secreta al ecosistema”.

“Estamos utilizando una pila de software común, básicamente para asegurarnos de que los desarrolladores no tengan que preocuparse por la diferenciación subyacente de IP entre CPU y GPU para IA”.

Esta combinación de una pila de software común y un enfoque en el uso del motor de cómputo correcto para la tarea correcta es aún más importante en la empresa. Las empresas confían en la IA para que les ayude a resolver algunos de sus problemas más apremiantes, ya sea que residan en la nube o en las instalaciones. Pero las cargas de trabajo mixtas requieren un software completo, así como el mantenimiento y la gestión de la pila del sistema, para ejecutar el código no incluido en el kernel que se encuentra en el acelerador.

Por lo tanto, cuando se trata de responder a la pregunta "¿cómo llevamos la IA a escala empresarial?", la respuesta puede depender de observar el panorama general y asegurarse de utilizar el complemento completo del kit de hardware y software a su disposición.

Patrocinado por Intel.

punto_img

Información más reciente

punto_img