Logotipo de Zephyrnet

Repensar la memoria

Fecha:

Expertos en la mesa: Semiconductor Engineering se sentó a hablar sobre el camino a seguir para la memoria en sistemas cada vez más heterogéneos, con Frank Ferro, director de grupo, gestión de productos en Cadencia; Steven Woo, colega y distinguido inventor de Rambus; Jongsin Yun, tecnólogo de la memoria en EDA de Siemens; Randy White, director del programa de soluciones de memoria de Keysight; y Frank Schirrmeister, vicepresidente de soluciones y desarrollo empresarial de arterisa. Lo que sigue son extractos de esa conversación.

[ID]: Frank Ferro, Cadencia; Steven Woo, Rambus; Jongsin Yun, Siemens EDA; Randy White, Keysight; y Frank Schirrmeister, Arteris.

[ID]: Frank Ferro, Cadencia; Steven Woo, Rambus; Jongsin Yun, Siemens EDA; Randy White, Keysight; y Frank Schirrmeister, Arteris

SE: Mientras luchamos con la IA/ML y las demandas de energía, ¿qué configuraciones deben repensarse? ¿Veremos un alejamiento de la arquitectura de Von Neumann?

Woo: En términos de arquitecturas de sistemas, se está produciendo una bifurcación en la industria. Las aplicaciones tradicionales que son los caballos de batalla dominantes, que ejecutamos en la nube en servidores basados ​​en x86, no van a desaparecer. Hay décadas de software que se ha desarrollado y evolucionado y que dependerán de esa arquitectura para funcionar bien. Por el contrario, AI/ML es una clase nueva. La gente ha repensado las arquitecturas y ha construido procesadores muy específicos de dominio. Estamos viendo que alrededor de dos tercios de la energía se gasta simplemente en mover los datos entre un procesador y un dispositivo HBM, mientras que solo alrededor de un tercio se gasta en acceder a los bits en los núcleos DRAM. El movimiento de datos es ahora mucho más desafiante y costoso. No nos vamos a deshacer de la memoria. Lo necesitamos porque los conjuntos de datos son cada vez más grandes. Entonces la pregunta es: '¿Cuál es el camino correcto a seguir?' Ha habido mucha discusión sobre el apilamiento. Si tomáramos esa memoria y la pusiéramos directamente encima del procesador, haría dos cosas por usted. En primer lugar, el ancho de banda actual está limitado por la costa o el perímetro del chip. Ahí es donde van las E/S. Pero si lo apilaras directamente encima del procesador, ahora puedes hacer uso de toda el área del chip para interconexiones distribuidas, y puedes obtener más ancho de banda en la memoria misma, y ​​puede alimentarse directamente a el procesador. Los enlaces se vuelven mucho más cortos y la eficiencia energética probablemente aumenta del orden de 5 a 6 veces. En segundo lugar, la cantidad de ancho de banda que puede obtener debido a esa mayor área de interconexión de la matriz a la memoria también aumenta en un factor de varios enteros. Hacer esas dos cosas juntas puede proporcionar más ancho de banda y hacerlo más eficiente energéticamente. La industria evoluciona según las necesidades, y esa es definitivamente una de las formas en que veremos que los sistemas de memoria comiencen a evolucionar en el futuro para volverse más eficientes energéticamente y proporcionar más ancho de banda.

Hierro: Cuando comencé a trabajar en HBM allá por 2016, algunos de los clientes más avanzados me preguntaron si se podía apilar. Han estado buscando cómo apilar la DRAM encima durante bastante tiempo porque hay claras ventajas. Desde la capa física, la PHY se vuelve básicamente insignificante, lo que ahorra mucha energía y eficiencia. Pero ahora tienes un procesador de varios 100 W que tiene una memoria encima. La memoria no puede soportar el calor. Probablemente sea el eslabón más débil de la cadena de calor, lo que crea otro desafío. Hay beneficios, pero todavía tienen que descubrir cómo lidiar con las térmicas. Ahora hay más incentivos para hacer avanzar ese tipo de arquitectura, porque realmente le ahorra en términos generales de rendimiento y potencia, y mejorará su eficiencia informática. Pero hay algunos desafíos de diseño físico que deben abordarse. Como decía Steve, vemos todo tipo de arquitecturas que están surgiendo. Estoy totalmente de acuerdo en que las arquitecturas GPU/CPU no van a ninguna parte, seguirán siendo dominantes. Al mismo tiempo, todas las empresas del planeta están intentando crear una mejor trampa para ratones para utilizar su IA. Vemos SRAM en chip y combinaciones de memoria de gran ancho de banda. LPDDR ha estado levantando bastante cabeza estos días en cuanto a cómo aprovechar LPDDR en el centro de datos debido a la potencia. Incluso hemos visto el uso de GDDR en algunas aplicaciones de inferencia de IA, así como en todos los sistemas de memoria antiguos. Ahora están tratando de exprimir la mayor cantidad posible de DDR5 en un espacio. He visto todas las arquitecturas que se te ocurran, ya sea DDR, HBM, GDDR u otras. Depende del núcleo de su procesador en términos de cuál es su valor agregado general y luego de cómo puede superar su arquitectura particular. El sistema de memoria que lo acompaña, para que puedas esculpir tu CPU y tu arquitectura de memoria, dependiendo de lo que esté disponible.

Que: Otro problema es la no volatilidad. Si la IA tiene que lidiar con el intervalo de potencia entre la ejecución de una IA basada en IoT, por ejemplo, entonces necesitamos mucha energía apagada y encendida, y toda esta información para el entrenamiento de la IA tiene que rotar una y otra vez. Si tenemos algún tipo de solución donde podamos almacenar esos pesos en el chip para no tener que movernos siempre hacia adelante y hacia atrás para obtener el mismo peso, entonces supondrá un gran ahorro de energía, especialmente para la IA basada en IoT. Habrá otra solución para ayudar a esas demandas de energía.

Schirrmeister: Lo que encuentro fascinante, desde la perspectiva de NoC, es dónde hay que optimizar estas rutas desde un procesador que pasa por un NoC, accediendo a una interfaz de memoria con un controlador que potencialmente pasa por UCIe para pasar un chiplet a otro chiplet, que luego tiene memoria en él. No es que las arquitecturas de Von Neumann estén muertas. Pero ahora existen muchas variaciones, dependiendo de la carga de trabajo que desee calcular. Es necesario considerarlos en el contexto de la memoria, y la memoria es sólo un aspecto. ¿De dónde se obtienen los datos de la localidad de datos? ¿Cómo se organizan en esta DRAM? Estamos trabajando en todas estas cosas, como el análisis del rendimiento de las memorias y luego optimizando la arquitectura del sistema. Está estimulando mucha innovación para nuevas arquitecturas, algo en lo que nunca pensé cuando estaba en la universidad aprendiendo sobre Von Neumann. En el otro extremo, tienes cosas como mallas. Ahora hay muchas más arquitecturas intermedias para considerar, y esto está impulsado por el ancho de banda de la memoria, las capacidades de cómputo, etc., que no crecen al mismo ritmo.

Blanco: Existe una tendencia que involucra computación desagregada o computación distribuida, lo que significa que el arquitecto necesita tener más herramientas a su disposición. La jerarquía de la memoria se ha ampliado. Se incluyen semánticas, así como CXL y diferentes memorias híbridas, que están disponibles para flash y en DRAM. Una aplicación paralela al centro de datos es la automoción. La automoción siempre ha tenido este sensor calculado con ECU (unidades de control electrónico). Me fascina cómo ha evolucionado hasta llegar al centro de datos. Avance rápido y hoy tenemos nodos informáticos distribuidos, llamados controladores de dominio. Es lo mismo. Está tratando de abordar el hecho de que tal vez la potencia no sea tan importante porque la escala de las computadoras no es tan grande, pero la latencia es sin duda un gran problema en el sector automotriz. ADAS necesita un ancho de banda súper alto y hay diferentes compensaciones. Y luego tienes más sensores mecánicos, pero limitaciones similares en un centro de datos. Tienes almacenamiento en frío que no necesita tener baja latencia y luego tienes otras aplicaciones de gran ancho de banda. Es fascinante ver cuánto han evolucionado las herramientas y las opciones del arquitecto. La industria ha hecho un muy buen trabajo respondiendo y todos nosotros brindamos diversas soluciones que alimentan el mercado.

SE: ¿Cómo han evolucionado las herramientas de diseño de memoria?

Schirrmeister: Cuando comencé con mis primeros chips en los años 90, la herramienta del sistema más utilizada era Excel. Desde entonces, siempre he esperado que pudiera fallar en algún momento por las cosas que hacemos a nivel del sistema, memoria, análisis de ancho de banda, etc. Esto afectó bastante a mis equipos. En ese momento, era algo muy avanzado. Pero, según lo que señala Randy, ahora es necesario simular ciertas cosas complejas con un nivel de fidelidad que antes no era posible sin el cálculo. Para dar un ejemplo, asumir una cierta latencia para un acceso a DRAM puede llevar a malas decisiones de arquitectura y, potencialmente, a diseñar arquitecturas de transporte de datos incorrectas en el chip. La otra cara también es cierta. Si siempre asume el peor de los casos, sobrediseñará la arquitectura. Tener herramientas que realicen la DRAM y el análisis de rendimiento, y tener los modelos adecuados disponibles para los controladores le permite a un arquitecto simularlo todo, es un entorno fascinante. Mi esperanza desde los años 90 es que Excel en algún momento pueda romperse como un La herramienta a nivel de sistema podría hacerse realidad, porque algunos de los efectos dinámicos ya no se pueden hacer en Excel porque es necesario simularlos, especialmente cuando se incluye una interfaz de matriz a matriz con características PHY y luego se vincula la capa. características como toda la comprobación de si todo estaba correcto y potencialmente el reenvío de datos. No realizar esas simulaciones dará como resultado una arquitectura subóptima.

Hierro: El primer paso en la mayoría de las evaluaciones que hacemos es brindarles el banco de pruebas de memoria para comenzar a observar la eficiencia de la DRAM. Ese es un gran paso, incluso hacer cosas tan simples como ejecutar herramientas locales para realizar una simulación DRAM, y luego pasar a simulaciones completas. Vemos que más clientes solicitan ese tipo de simulación. Asegurarse de que la eficiencia de su DRAM esté por encima de los 90 es un primer paso muy importante en cualquier evaluación.

Woo: Parte de la razón por la que se ve el aumento de las herramientas de simulación de sistemas completos es que las DRAM se han vuelto mucho más complicadas. Ahora es muy difícil estar a la altura de algunas de estas cargas de trabajo complejas utilizando herramientas simples como Excel. Si miras la hoja de datos de DRAM en los años 90, esas hojas de datos tenían como 40 páginas. Ahora son cientos de páginas. Eso simplemente habla de la complejidad del dispositivo para poder aprovechar los anchos de banda elevados. A eso se suma el hecho de que la memoria es un factor importante en el costo del sistema, así como en el ancho de banda y la latencia relacionados con el rendimiento del procesador. También es un gran factor de potencia, por lo que ahora es necesario simular a un nivel mucho más detallado. En términos de flujo de herramientas, los arquitectos de sistemas entienden que la memoria es un factor importante. Por lo tanto, las herramientas deben ser más sofisticadas y deben interactuar muy bien con otras herramientas para que el arquitecto del sistema obtenga la mejor visión global de lo que está sucediendo, especialmente de cómo la memoria afecta el sistema.

Que: A medida que avanzamos hacia la era de la IA, se utilizan muchos sistemas multinúcleo, pero no sabemos qué datos van a dónde. También va más paralelo al chip. El tamaño de la memoria es mucho mayor. Si utilizamos el tipo de IA ChatGPT, entonces el manejo de datos para los modelos requiere alrededor de 350 MB de datos, que es una gran cantidad de datos solo para un peso, y la entrada/salida real es mucho mayor. Ese aumento en la cantidad de datos requeridos significa que hay muchos efectos probabilísticos que no hemos visto antes. Es una prueba extremadamente desafiante ver todos los errores relacionados con esta gran cantidad de memoria. Y ECC se usa en todas partes, incluso en SRAM, que tradicionalmente no usaba ECC, pero ahora es muy común para los sistemas más grandes. Probar todo esto es un gran desafío y debe contar con el respaldo de soluciones EDA para probar todas esas condiciones diferentes.

SE: ¿A qué desafíos se enfrentan los equipos de ingeniería en el día a día?

Blanco: Cualquier día me encontrarás en el laboratorio. Me arremango y tengo las manos sucias, pinchando cables, soldando y todo eso. Pienso mucho en la validación post-silicio. Hablamos sobre simulación temprana y herramientas integradas: BiST y cosas así. Al final del día, antes de realizar el envío, queremos realizar algún tipo de validación del sistema o pruebas a nivel de dispositivo. Hablamos de cómo superar el muro de la memoria. Colocamos memoria, HBM y cosas así. Si observamos la evolución de la tecnología de envasado, comenzamos con envases con plomo. No eran muy buenos para la integridad de la señal. Décadas más tarde, pasamos a una integridad de señal optimizada, como los conjuntos de rejillas de bolas (BGA). No pudimos acceder a eso, lo que significaba que no podías probarlo. Entonces se nos ocurrió este concepto llamado intercalador de dispositivo (un intercalador BGA) y eso nos permitió intercalar un dispositivo especial que enrutaba las señales. Entonces podríamos conectarlo al equipo de prueba. Un avance rápido hasta el día de hoy, y ahora tenemos HBM y chiplets. ¿Cómo intercalo mi dispositivo en el intercalador de silicio? No podemos, y esa es la lucha. Es un desafío que me mantiene despierto por la noche. ¿Cómo realizamos análisis de fallas en el campo con un OEM o cliente de sistemas, donde no obtienen el 90% de eficiencia? Hay más errores en el enlace, no se pueden inicializar correctamente y la capacitación no funciona. ¿Es un problema de integridad del sistema?

Schirrmeister: ¿No preferiría hacer esto desde casa con una interfaz virtual en lugar de caminar hasta el laboratorio? ¿La respuesta no es más análisis integrados en el chip? Con los chiplets integramos todo aún más. Colocar su soldador allí no es realmente una opción, por lo que debe haber una forma de realizar análisis en el chip. Tenemos el mismo problema para el NoC. La gente mira el NoC, envías los datos y luego desaparecen. Necesitamos implementar análisis para que las personas puedan realizar depuraciones, y eso se extiende al nivel de fabricación, para que finalmente se pueda trabajar desde casa y hacerlo todo basándose en análisis de chips.

Hierro: Especialmente con memoria de gran ancho de banda, no puedes entrar físicamente allí. Cuando otorgamos la licencia de PHY, también tenemos un producto que lo acompaña para que pueda observar cada uno de esos 1,024 bits. Puede comenzar a leer y escribir DRAM desde la herramienta para no tener que ingresar físicamente allí. Me gusta la idea del intercalador. Sacamos algunos pines del intercalador durante las pruebas, lo cual no se puede hacer en el sistema. Es realmente un desafío entrar en estos sistemas 3D. Incluso desde el punto de vista del flujo de herramientas de diseño, parece que la mayoría de las empresas realizan su propio flujo individual en muchas de estas herramientas 2.5D. Estamos empezando a idear una forma más estandarizada de construir un sistema 2.5D, desde la integridad de la señal, la potencia y todo el flujo.

Blanco: A medida que las cosas avanzan, espero que podamos mantener el mismo nivel de precisión. Estoy en el grupo de cumplimiento del factor de forma de UCIe. Estoy buscando cómo caracterizar un dado bueno conocido, un dado dorado. Con el tiempo, esto llevará mucho más tiempo, pero encontraremos un punto medio entre el rendimiento y la precisión de las pruebas que necesitamos y la flexibilidad incorporada.

Schirrmeister: Si analizo los chiplets y su adopción en un entorno de producción más abierto, las pruebas son uno de los mayores desafíos para lograr que funcione correctamente. Si soy una gran empresa y controlo todos sus aspectos, entonces puedo restringir las cosas adecuadamente para que las pruebas y demás sean factibles. Si quiero volver al eslogan de la UCIe de que la UCI está a sólo una letra de la PCI, e imagino un futuro en el que el ensamblaje de la UCIe se convierta, desde una perspectiva de fabricación, en algo similar a las ranuras PCI de una PC actual, entonces los aspectos de prueba para eso son realmente desafiante. Necesitamos encontrar una solución. Hay mucho trabajo por hacer.

punto_img

Información más reciente

punto_img