El escalado está fallando con la ley de Moore y Dennard

Mirando atrás y adelante, el libro blanco de Codasip “La escala está fallando” por Roddy Urquhart proporciona una interesante historia del desarrollo de procesadores desde principios de la década de 1970 hasta el presente. Sin embargo, no se detiene allí y continúa extrapolando lo que la industria de los chips tiene reservado para el resto de esta década. Durante el último medio siglo, Gordon Moore, uno de los fundadores de Intel Corp., elaboró la Ley de Moore, una observación sobre la cantidad de transistores que se pueden integrar en un chip. Esa observación fue seguida por Robert Dennard de IBM Corp., quien además de inventar la celda DRAM de un solo transistor, definió las reglas para el escalado de transistores, ahora conocido como Dennard Scaling.

Además de escalar, la ley de Amdahl, estipulada por Gene Amdahl mientras trabajaba en IBM Corp. en 1967, se ocupa de la aceleración teórica posible al agregar procesadores en paralelo. Cualquier aceleración estará limitada por aquellas partes del software que deben ejecutarse secuencialmente. Por lo tanto, la ley de Moore, la escala de Dennard y la ley de Amdahl han guiado la industria de los semiconductores durante el último medio siglo (ver la figura). Sin embargo, Codasip afirma que todos están fallando y que la industria debe cambiar y los paradigmas de los procesadores deben cambiar con ella. Algunos de esos cambios incluyen la creación de aceleradores específicos de dominio, soluciones personalizadas y nuevas empresas que crean soluciones disruptivas.

Numerosos ejemplos en el mundo de los microprocesadores respaldan la premisa del artículo de que el escalado de semiconductores está fallando. Los ejemplos comienzan con la familia Intel x86 como una ilustración de cómo fallaba el escalado a medida que aumentaban las complejidades de los chips y las velocidades de reloj con cada nueva generación de CPU de un solo núcleo. A medida que la frecuencia de reloj de cada generación de CPU aumentó del nivel de MHz al GHz gracias a las mejoras en la escala, los límites térmicos del chip se convirtieron en un factor restrictivo para el rendimiento. La limitación del rendimiento fue el resultado de un aumento drástico en el consumo de energía a medida que las velocidades de reloj alcanzaban los 3 GHz y más y las complejidades alcanzaban cerca de mil millones de transistores en un chip. El tamaño más pequeño de los transistores también resultó en un aumento de las corrientes de fuga, y las corrientes de fuga más altas hicieron que los chips consumieran más energía incluso cuando estaban inactivos.

Para evitar el desbordamiento térmico causado por el aumento de las frecuencias de reloj, los diseñadores optaron por arquitecturas multinúcleo, integrando dos, cuatro o más núcleos de CPU en un solo chip. Estos núcleos podrían operar a frecuencias de reloj más bajas, compartir varios recursos en el chip y, por lo tanto, consumir menos energía. El beneficio adicional de los múltiples núcleos era la capacidad de realizar múltiples tareas, lo que permitía que el chip ejecutara varios programas simultáneamente. Sin embargo, el enfoque multinúcleo no fue suficiente para que las CPU manejaran la miríada de tareas que nuevas aplicaciones, como gráficos, procesamiento de imágenes y audio, inteligencia artificial y otras funciones más.

Por lo tanto, Codasip propone que una mayor especialización del procesador brindará mejoras de rendimiento considerables: la industria debe cambiar de adaptar el software para ejecutar en el hardware disponible a adaptar las unidades computacionales para que coincidan con su carga computacional. Para lograr esto, se necesitarán muchos diseños personalizados variados, lo que permitirá a las empresas diseñar para la diferenciación. Además, se deben considerar nuevos enfoques para el diseño de procesadores, especialmente el valor del lenguaje de diseño de procesadores y la automatización del diseño de procesadores.

Utilizando la arquitectura modular RISC-V como ejemplo de la capacidad de crear núcleos especializados y su flexibilidad para crear instrucciones especializadas, Codasip considera que RISC-V es un excelente punto de partida para unidades de procesamiento personalizadas. Los núcleos generalmente se clasificarán en una de cuatro categorías generales: MCU, DSP, GPU y AP (procesador de aplicaciones), con cada tipo optimizado para una variedad de cálculos, algunos de los cuales pueden no coincidir con lo que realmente requiere el chip. subsistema. Algunas empresas ya han desarrollado núcleos especializados (a menudo denominados procesadores de instrucciones específicas de la aplicación, ASIP) que manejan de manera eficiente una carga de trabajo computacional estrechamente definida. Sin embargo, la elaboración de dichos núcleos requiere habilidades especializadas para definir el conjunto de instrucciones, desarrollar la microarquitectura del procesador, crear la cadena de herramientas de software asociada y, finalmente, verificar el núcleo.

Codasip sugiere que la única forma de llevar la especialización un paso más allá es crear arquitecturas innovadoras para abordar los problemas de procesamiento especializado. El hardware debe crearse para que coincida con la carga de trabajo del software, lo que se puede lograr personalizando la arquitectura del conjunto de instrucciones, creando microarquitecturas especiales o creando nuevos núcleos y matrices de procesamiento. Los ASIP pueden considerarse un subconjunto de aceleradores específicos de dominio, una categoría definida en un documento presentado en 2019 por John Hennessy y David Paterson: "Una nueva era dorada para la arquitectura informática".

Caracterizaron a los DSA como explotadores del paralelismo (como el paralelismo a nivel de instrucción, o SIMD, o matrices sistólicas) si la clase de aplicaciones se beneficiaba de ello. Los DSA pueden adaptar mejor sus capacidades computacionales a la aplicación prevista. Un ejemplo es la Unidad de procesamiento de tensores (TPU) desarrollada por Google, que es una matriz sistólica que funciona con una precisión de 8 bits. Cuanto más especializado sea el procesador, mayor será la eficiencia en términos de área de silicio y consumo de energía. Sin embargo, a menor especialización, mayor flexibilidad del DSA. En el continuo DSA, existe la posibilidad de ajustar un núcleo para el rendimiento, el área y la potencia, y se habilita el diseño para la diferenciación.

La especialización no solo es una gran oportunidad, sino que significa que se crearán muchos diseños diferentes. Esos diseños requerirán una comunidad más amplia de diseñadores y un mayor grado de eficiencia en el diseño. Codasip ve cuatro habilitadores que pueden contribuir al diseño eficiente: el RISC-V ISA abierto, el lenguaje de diseño del procesador, la automatización del diseño del procesador y los núcleos RISC-V verificados existentes para la personalización.

Sienten que RISC-V, un estándar gratuito y abierto que solo cubre la arquitectura del conjunto de instrucciones y no la microarquitectura, ha obtenido un amplio apoyo y no prescribe un modelo de licencia, por lo que son posibles tanto las microarquitecturas con licencia comercial como las de código abierto. Si los diseñadores usan un lenguaje de diseño de procesadores como CodAL de Codasip, tienen una descripción completa del procesador capaz de admitir aspectos de software, hardware y verificación. Si se implementan instrucciones personalizadas agregándolas a la fuente del lenguaje de diseño del procesador y, por lo tanto, pueden reflejarse en la cadena de herramientas del software y el entorno de verificación, así como en el RTL.