Logotipo de Zephyrnet

Una tubería RISC-V más profunda atraviesa bucles vectoriales escalares – Semiwiki

Fecha:

Muchos puntos de referencia de rendimiento de procesadores modernos se basan en hasta tres niveles de caché que se alimentan continuamente. Sin embargo, las nuevas aplicaciones con uso intensivo de datos, como la IA generativa multiproceso y el procesamiento de imágenes 4K, a menudo rompen el almacenamiento en caché convencional, dejando paralizadas las costosas unidades de ejecución. Hace un tiempo, Semidynamics nos presentó su nuevo núcleo RISC-V altamente personalizable, Atrevido, con su tecnología de recuperación de memoria Gazillion diseñada para resolver más problemas de big data con un enfoque diferente a la recuperación en paralelo. Recientemente conversamos con el CEO y fundador Roger Espasa para obtener más información sobre lo que el proceso RISC-V más profundo y el núcleo personalizable pueden hacer por los clientes.

Minimiza quitar el pie del acelerador vectorial

Comenzamos con una inmersión más profunda en la capacidad vectorial. Es fácil pensar que los errores de caché causan una parada total de la canalización, donde todas las operaciones deben esperar hasta que los movimientos de datos rellenen la canalización. Una metáfora que encaja mejor para un largo proceso con uso intensivo de datos, como en Atrevido, podría ser un auto de carreras de Fórmula 1. Es posible que las curvas cerradas aún requieran frenar, pero los giros más suaves en la mayoría de los circuitos presentan una oportunidad para permanecer en el acelerador, retrocediendo lo menos posible.

Pocas aplicaciones utilizan exclusivamente matemáticas vectoriales; Las instrucciones escalares esparcidas en el bucle pueden hacer que una tubería vectorial finamente ajustada chisporrotee sin un manejo adecuado. “Nuestra obsesión es mantener ocupado en todo momento un pipeline RISC-V más profundo”, afirma Espasa. "Entonces, hacemos lo que la canalización de memoria necesita y, en algunos casos, eso puede generar un rendimiento un poco más escalar".

El núcleo Atrevido 423 agrega una arquitectura de decodificación, cambio de nombre y emisión/retirada de 4 anchos diseñada para acelerar principalmente las matemáticas vectoriales con algo de matemáticas escalares mezcladas. “La canalización fuera de orden junto con 128 recuperaciones simultáneas realmente ayuda a obtener instrucciones escalares apartarse rápidamente: 4 de ancho ayuda con ese último extra de rendimiento”, continúa Espasa. "Podemos volver a la parte superior del bucle, encontrar más cargas vectoriales y comenzar a incorporarlas mientras termina el material escalar al final".

Unidad vectorial Atrevido 423 + V16 con su tecnología de tubería RISC-V más profunda, Gazillion

Vale la pena señalar que todo sucede sin gestionar los pedidos en el software; el código simplemente emite primitivas de instrucción y la ejecución se produce cuando llegan los datos. Espasa señala que uno de los puntos fuertes de la comunidad RISC-V es que su firma no necesita trabajar en un compilador; Hay muchos expertos trabajando en ese lado y el código es estándar.

Las unidades vectoriales pueden parecer mucho más pequeñas de lo que son

Después de ver esa unidad vectorial en el diagrama, no pudimos resistirnos a hacerle una pregunta a Espasa: ¿qué tamaño tiene la unidad vectorial de Atrevido en términos de área? El tamaño del troquel es una cuestión que puede variar con tanta personalización y diferentes nodos de proceso. Y cuando dicen personalización, lo dicen en serio. En lugar de una configuración (digamos, ELEN=64 y ocho Vcores para un motor DLEN de 512 bits estándar en algunas otras arquitecturas de CPU de gama alta), los clientes pueden elegir su escala vectorial. La longitud del registro vectorial también se puede personalizar desde 1x hasta 8x.

Atrevido 423 núcleo vectorial personalizable

"No revelamos públicamente el área del troquel, pero nuestras configuraciones de unidades vectoriales más grandes están ocupando alrededor de 2/3 del área", dice Espasa. "Comenzamos a llamarlos Vcores porque es más fácil trasladar el pensamiento del cliente de los núcleos CUDA a las GPU". Luego interviene: algunos clientes piden más de una unidad vectorial conectada a cada núcleo Atrevido (!). El mensaje sigue siendo el mismo: Semidynamics puede configurar y dimensionar elementos de un RISC-V Atrevido para cumplir con los requisitos de rendimiento del cliente de manera más eficiente que lanzar CPU o GPU de alta gama en escenarios de big data.

Algunos casos de uso emergentes para una tubería RISC-V más profunda

También le preguntamos a Espasa qué sucedió que tal vez no esperaba con las primeras interacciones con los clientes en torno al núcleo de Atrevido. Su respuesta indica que está tomando forma un caso de uso: muchos subprocesos que se ejecutan en modelos más simples.

"Recibimos continuamente solicitudes de nuevos tipos de datos y nuestra respuesta siempre es sí, podemos agregarlos con algo de tiempo de ingeniería", señala Espasa. Las adiciones de int4 y fp8 dicen mucho sobre el tipo de aplicación que están viendo: modelos de inferencia de IA más simples y que requieren menos entrenamiento, pero cientos o miles de subprocesos simultáneos. Considere algo así como un servidor de consultas de IA generativo donde los usuarios lo envían de forma asincrónica con solicitudes. Un flujo no es gran cosa, pero 100 pueden saturar un esquema de almacenamiento en caché convencional. Millones de recuperaciones ayudan a lograr una escala de canalización RISC-V más profunda que no se ve en otras arquitecturas.

También está el problema de las imágenes cercanas y lejanas: tener que atravesar altas velocidades de fotogramas de imágenes 4K en busca de fluctuaciones de pequeños píxeles que puedan convertirse en objetivos de interés. La mayoría de los motores de inferencia de IA son buenos una vez que las regiones de interés toman forma, pero tener que procesar todo el campo de la imagen ralentiza las cosas. Cuando mencionamos uno de los proveedores de IP de inferencia de IA más populares y su motor de 24 núcleos, Espasa se sonrojó un poco. "Digamos que trabajamos con los clientes para adaptar Atrevido a lo que necesitan en lugar de decirles cómo debe ser".

Es un tema recurrente en la historia de Semidynamics: la personalización dentro de los límites de la especificación RISC-V lleva a los clientes a donde necesitan ir con soluciones diferenciadas y eficientes. Y la misma arquitectura básica de Atrevido puede pasar desde dispositivos periféricos hasta centros de datos HPC con opciones de escalabilidad de canalización RISC-V más profundas, ahorrando energía o agregando rendimiento. Obtenga más información sobre las noticias recientes de Semidynamics en:

https://semidynamics.com/newsroom

Comparte esta publicación a través de:

punto_img

Información más reciente

punto_img