Logotipo de Zephyrnet

Nvidia: en el futuro, el software será solo una colección de LLM

Fecha:

Sin importar el uso de grandes modelos de lenguaje (LLM) para ayudar a escribir código, el director ejecutivo de Nvidia, Jensen Huang, cree que en el futuro, el software empresarial será simplemente una colección de chatbots unidos para completar la tarea.

"Es poco probable que lo escribas desde cero o escribas un montón de código Python o algo así", dijo en el escenario durante su GTC. fundamental Lunes. "Es muy probable que reúnas un equipo de IA".

Jensen explica que este equipo de IA podría incluir un modelo diseñado para descomponer y delegar una solicitud a varios otros modelos. Algunos de estos modelos podrían estar entrenados para comprender servicios empresariales como SAP o Service Now, mientras que otros podrían realizar análisis numéricos de datos almacenados en una base de datos vectorial. Estos datos luego se pueden combinar y presentar al usuario final mediante otro modelo más.

"Podemos recibir un informe todos los días o, cada hora, que tenga algo que ver con un plan de construcción, o algún pronóstico, o alguna alerta al cliente, o alguna base de datos de errores o lo que sea", explicó.

Para encadenar todos estos modelos, Nvidia está tomando una página del libro de Docker y ha creado un tiempo de ejecución de contenedor para IA.

Apodados Microservicios de Inferencia de Nvidia, o NIM para abreviar, son esencialmente imágenes de contenedores que contienen tanto el modelo, ya sea de código abierto o propietario, junto con todas las dependencias necesarias para que funcione. Estos modelos en contenedores se pueden implementar en cualquier número de tiempos de ejecución, incluidos los nodos de Kubernetes acelerados por Nvidia.

“Puede implementarlo en nuestra infraestructura llamada DGX Cloud, o puede implementarlo localmente, o puede implementarlo en cualquier lugar que desee. Una vez que lo desarrolles, podrás llevarlo a cualquier parte”, dijo Jensen.

Por supuesto, primero necesitarás una suscripción a la suite AI Enterprise de Nvidia, que no es exactamente barata: 4,500 dólares al año por GPU o 1 dólar por hora por GPU en la nube. Esta estrategia de precios parecería incentivar sistemas más densos y de mayor rendimiento en general, ya que cuestan lo mismo independientemente de si estás ejecutando L40 o B100s.

Si la idea de contener cargas de trabajo aceleradas por GPU le suena familiar, esta no es exactamente una idea nueva para Nvidia. La aceleración CUDA ha sido apoyadas en una amplia variedad de tiempos de ejecución de contenedores, incluidos Docker, Podman, Containerd o CRI-O durante años, y no parece que Container Runtime de Nvidia vaya a ninguna parte.

La propuesta de valor detrás de NIM parece ser que Nvidia se encargará del empaquetado y optimización de estos modelos para que tengan la versión correcta de CUDA, Triton Inference Server o TensorRT LLM, necesaria para obtener el mejor rendimiento de ellos.

El argumento es que si Nvidia lanza una actualización que aumenta drásticamente el rendimiento de inferencia de ciertos tipos de modelos, aprovechar esa funcionalidad simplemente requeriría descargar la última imagen NIM.

Además de las optimizaciones de modelos específicos de hardware, Nvidia también está trabajando para permitir comunicaciones consistentes entre contenedores, para que puedan chatear entre sí a través de llamadas API.

Según lo entendemos, las llamadas API utilizadas por los diversos modelos de IA en el mercado hoy en día no siempre son consistentes, lo que hace que sea más fácil unir algunos modelos y otros pueden requerir trabajo adicional.

Prestar conocimiento institucional a modelos de propósito general

Cualquiera que haya utilizado un chatbot de IA sabrá que, si bien suelen ser bastante buenos con preguntas de conocimiento general, no siempre son los más confiables con solicitudes oscuras o técnicas.

Jensen destacó este hecho durante su discurso de apertura. Cuando se le preguntó acerca de un programa interno utilizado dentro de Nvidia, el modelo de lenguaje grande Llama 2 70B de Meta, como era de esperar, proporcionó la definición de un término no relacionado.

En lugar de intentar que las empresas entrenen sus propios modelos (algo que vendería muchas GPU pero limitaría considerablemente el mercado al que se dirige), Nvidia ha desarrollado herramientas para ajustar sus NIM con los datos y procesos de los clientes.

“Tenemos un servicio llamado NeMo Microservices que le ayuda a seleccionar los datos, prepararlos para que pueda... incorporar esta IA. Lo afinas y luego lo proteges; luego se puede evaluar... su desempeño frente a otros ejemplos”, explicó Huang.

También habló del servicio NeMo Retriever de Nvidia, que se basa en el concepto de utilizar la generación aumentada de recuperación (RAG) para mostrar información en la que el modelo no ha sido entrenado específicamente.

La idea aquí es que los documentos, procesos y otros datos se puedan cargar en una base de datos vectorial que esté conectada al modelo. A partir de una consulta, el modelo puede buscar en esa base de datos, recuperar y resumir la información relevante.

Los modelos NIM y NeMo Retriever para integrar RAG ya están disponibles, mientras que NeMo Microservices se encuentra en acceso temprano. ®

punto_img

Información más reciente

punto_img