Logotipo de Zephyrnet

Entrevista con Kari Briski, ejecutiva de software de Nvidia

Fecha:

Entrevista La Conferencia de Tecnología GPU de Nvidia concluyó la semana pasada, trayendo noticias sobre los chips Blackwell de la compañía y las tan publicitadas maravillas de la IA, con todo el costoso hardware GPU que eso implica.

Es tal el rumor en torno a la empresa que el precio de sus acciones está coqueteando con niveles récord, basándose en la noción de que muchos esfuerzos creativos se pueden realizar más rápido, si no mejor, con la automatización habilitada por los modelos de aprendizaje automático.

Esto todavía se está probando en el mercado.

George Santayana una vez escribí: “Quienes no pueden recordar el pasado están condenados a repetirlo”. Es una frase que se repite muchas veces. Sin embargo, el recuerdo de cosas del pasado no ha diferenciado realmente a los modelos de IA. Pueden recordar el pasado, pero aún así están condenados a repetirlo cuando se les solicite, a veces de forma incorrecta.

Aun así, muchos confían en la todopoderosa IA, en particular aquellos que venden hardware de IA o servicios en la nube. Nvidia, entre otras, apuesta fuerte por ello. Así que, El registro Hizo una breve visita a la conferencia de GPU para ver a qué se debía todo este alboroto. Ciertamente no se trataba de las barras de limón servidas en la sala de exhibición el jueves, muchas de las cuales terminaron su oferta pública inicial sin terminar en los contenedores del piso de exhibición.

Mucho más interesante fue una conversación El registro Tuve con Kari Briski, vicepresidente de gestión de productos para kits de desarrollo de software de IA y HPC en Nvidia. Dirige la gestión de productos de software para los modelos básicos, las bibliotecas, los SDK y ahora los microservicios que se ocupan de la capacitación y la inferencia de la empresa, como el recientemente anunciado. NIM microservicios y los mejor establecidos nemo marco de implementación.

El registro: ¿Cómo van a consumir las empresas estos microservicios (en la nube, en las instalaciones)?

Briski: Esa es realmente la belleza de por qué construimos los NIM. Es un poco gracioso decir "los NIM". Pero empezamos este viaje hace mucho tiempo. Hemos estado trabajando en inferencia desde que comencé; creo que era TensorRT 1.0 cuando comencé en 2016.

A lo largo de los años, hemos ido ampliando nuestra pila de inferencia, aprendiendo más sobre cada tipo diferente de carga de trabajo, comenzando con la visión por computadora y los sistemas de recomendación profundos y el habla, el reconocimiento y la síntesis de voz automáticos y ahora los grandes modelos de lenguaje. Ha sido una pila realmente centrada en los desarrolladores. Y ahora que las empresas [han visto] OpenAI y ChatGPT, comprenden la necesidad de ejecutar estos grandes modelos de lenguaje junto a sus datos empresariales o en sus aplicaciones empresariales.

El proveedor promedio de servicios en la nube, para sus servicios administrados, ha tenido cientos de ingenieros trabajando en técnicas de inferencia y optimización. Las empresas no pueden hacer eso. Necesitan obtener el tiempo de obtención de valor de inmediato. Es por eso que resumimos todo lo que hemos aprendido a lo largo de los años con TensorRT, modelos de lenguaje grandes, nuestro servidor de inferencia Triton, API estándar y controles de estado. [La idea es poder] encapsular todo eso para poder pasar de cero a un punto final de modelo de lenguaje grande en menos de cinco minutos.

[Con respecto al centro de datos local versus el centro de datos en la nube], muchos de nuestros clientes son la nube híbrida. Han preferido la computación. Entonces, en lugar de enviar los datos a un servicio administrado, pueden ejecutar el microservicio cerca de sus datos y ejecutarlo donde quieran.

El registro: ¿Cómo es el software de Nvidia para IA en términos de lenguajes de programación? ¿Sigue siendo en gran medida CUDA, Python, C y C++? ¿Está buscando en otra parte mayor velocidad y eficiencia?

Briski: Siempre estamos explorando dónde lo utilizan los desarrolladores. Esa ha sido siempre nuestra clave. Desde que comencé en Nvidia, he trabajado en bibliotecas de matemáticas aceleradas. Primero, había que programar en CUDA para conseguir paralelismo. Y luego tuvimos las API de C. Y teníamos una API de Python. Se trata entonces de llevar la plataforma a dondequiera que estén los desarrolladores. En este momento, los desarrolladores solo quieren llegar a un punto final API realmente simple, como con un comando curl o un comando Python o algo similar. Así que tiene que ser súper simple, porque ahí es donde nos reuniremos con los desarrolladores hoy.

El registro: CUDA obviamente juega un papel muy importante a la hora de hacer que el cálculo de la GPU sea eficaz. ¿Qué está haciendo Nvidia para avanzar en CUDA?

Briski: CUDA es la base de todas nuestras GPU. Es una GPU programable y habilitada para CUDA. Hace unos años, lo llamamos CUDA-X porque tenía estos lenguajes específicos de dominio. Entonces, si tienes una [solicitud] de imágenes médicas, tienes cuCIM. Si tiene reconocimiento de voz automático, tiene un decodificador de búsqueda de haz acelerado CUDA al final. Y existen todas estas cosas específicas para cada tipo diferente de carga de trabajo que CUDA ha acelerado. Hemos creado todas estas bibliotecas especializadas a lo largo de los años como CUDF y cumly cu-esto-y-aquello. Todas estas bibliotecas CUDA son la base de lo que construimos a lo largo de los años y ahora estamos construyendo sobre eso.

El registro: ¿Cómo considera Nvidia las consideraciones de costos en términos de la forma en que diseña su software y hardware? Con algo como Nvidia AI Enterprise, cuesta $4,500 por GPU cada año, lo cual es considerable.

Briski: En primer lugar, para las empresas más pequeñas siempre tenemos la Comienzo programa. Siempre estamos trabajando con los clientes: una prueba gratuita de 90 días, ¿es realmente valiosa para usted? ¿Realmente vale la pena? Luego, para reducir sus costos cuando lo acepta, siempre estamos optimizando nuestro software. Entonces, si estuviera comprando $ 4,500 por CPU por año por licencia, y estuviera ejecutando un A100 y mañana ejecutara un H100, es el mismo precio: su costo ha bajado [en relación con su rendimiento]. Por eso, siempre incorporamos esas optimizaciones, el costo total de propiedad y el rendimiento al software.

Cuando pensamos tanto en el entrenamiento como en la inferencia, el entrenamiento requiere un poco más, pero tenemos estos configuradores automáticos para poder decir: "¿Cuántos datos tienes?" ¿Cuánta computación necesitas? ¿Cuánto tiempo quieres que tome? Por lo tanto, puede tener una huella de cálculo más pequeña, pero es posible que lleve más tiempo entrenar su modelo... ¿Le gustaría entrenarlo en una semana? ¿O te gustaría entrenarlo en un día? Y entonces usted puede hacer esas concesiones.

El registro: En términos de problemas actuales, ¿hay algo en particular que le gustaría resolver o hay algún desafío técnico que le gustaría superar?

Briski: En este momento, está impulsado por eventos. Harapos [que es una forma de aumentar los modelos de IA con datos obtenidos de una fuente externa]. Muchas empresas simplemente están pensando en el mensaje clásico para generar una respuesta. Pero en realidad, lo que queremos hacer es [encadenar] todos estos sistemas generativos con recuperación aumentada. Porque si piensas en ti y en una tarea que quizás quieras realizar: “Oh, tengo que ir a hablar con el equipo de la base de datos. Y ese equipo de base de datos tiene que hablar con el equipo de Tableau. Tienen que hacerme un tablero”, y todas estas cosas tienen que suceder antes de que puedas completar la tarea. Y entonces es una especie de RAG impulsado por eventos. No diría que los RAG hablan con los RAG, pero es esencialmente eso: agentes que salen, realizan mucho trabajo y regresan. Y estamos en la cúspide de eso. Así que creo que es algo que me entusiasma mucho ver en 2024.

El registro: ¿Nvidia está probando su propia IA? ¿Ha encontrado útil la IA internamente?

Briski: En realidad, nos fuimos y el año pasado, dado que 2023 fue el año de la exploración, encontré 150 equipos dentro de Nvidia (podría haber habido más) y estábamos tratando de decir, ¿cómo estás usando nuestras herramientas, de qué tipo? de casos de uso y comenzamos a combinar todos los aprendizajes, como si fueran mil flores floreciendo, y combinamos todos sus aprendizajes en mejores prácticas en un solo repositorio. Eso es en realidad lo que lanzamos como lo que llamamos Ejemplos de IA generativa en GitHub, porque simplemente queríamos tener todas las mejores prácticas en un solo lugar.

Eso es más o menos lo que hicimos estructuralmente. Pero como ejemplo explícito, creo que escribimos este excelente artículo llamado ChipNeMo, y en realidad se trata de nuestro equipo de diseño EDA, VLSI, y cómo tomaron el modelo básico y lo entrenaron con nuestros datos patentados. Disponemos de nuestros propios lenguajes de codificación para VLSI. Así que estaban codificando copilotos [modelos de generación de código fuente abierto] para poder generar nuestro lenguaje propietario y ayudar a la productividad de los nuevos ingenieros que vienen y que no conocen muy bien el código de escritura de nuestro chip de diseño VLSI.

Y eso ha resonado en todos los clientes. Entonces, si habla con SAP, tienen BOP [procesamiento de pedidos pendientes], que es como un SQL propietario para su base de datos. Y hablé con otros tres clientes que tenían diferentes lenguajes propietarios; incluso SQL tiene cientos de dialectos. Por lo tanto, poder generar código no es un caso de uso que RAG pueda resolver de inmediato. Sí, RAG ayuda a recuperar documentación y algunos fragmentos de código, pero a menos que esté capacitado para generar tokens en ese idioma, no puede simplemente inventar código.

El registro: Cuando observa los grandes modelos de lenguaje y la forma en que se encadenan con las aplicaciones, ¿piensa en la latencia que puede introducirse y en cómo abordarla? ¿Hay ocasiones en las que simplemente codificar un árbol de decisiones parece tener más sentido?

Briski: Tienes razón, cuando haces una pregunta o mensaje en particular, podría haber, incluso para una pregunta, cinco o siete modelos ya iniciados para que puedas obtener una reescritura rápida, barandillas, recuperador y reclasificación. y luego el generador. Por eso el NIM es tan importante, porque lo hemos optimizado para la latencia.

Es también por eso que ofrecemos diferentes versiones de los modelos básicos porque es posible que tenga un SLM, un modelo de lenguaje pequeño que es mejor para un conjunto particular de tareas, y luego desee el modelo más grande para obtener mayor precisión al final. Pero luego, encadenar todo eso para que se ajuste a su ventana de latencia es un problema que hemos estado resolviendo a lo largo de los años para muchos servicios administrados o de hiperescala. Tienen estas ventanas de latencia y muchas veces, cuando haces una pregunta o haces una búsqueda, en realidad salen y responden la pregunta varias veces. Entonces tienen muchas condiciones de carrera como "¿cuál es mi ventana de latencia para cada pequeña parte de la respuesta total?" Entonces sí, siempre estamos analizando eso.

En cuanto a su punto sobre la codificación, acabo de hablar con un cliente sobre eso hoy. Estamos mucho más allá de la codificación... Podrías usar un administrador de diálogo y tener if-then-else. [Pero] gestionar miles de reglas es realmente imposible. Y es por eso que nos gustan cosas como las barandillas, porque las barandillas representan una especie de reemplazo de un administrador de diálogo clásico. En lugar de decir: "No hables de béisbol, no hables de softbol, ​​no hables de fútbol" y enumerarlos, puedes simplemente decir: "No hables de deportes". Y entonces el LLM sabe qué es un deporte. El ahorro de tiempo y la posibilidad de administrar ese código más adelante son mucho mejores. ®

punto_img

Información más reciente

punto_img