Logotipo de Zephyrnet

Por qué Copilot solo se ejecutará localmente en PC con IA por ahora

Fecha:

Comentario La definición de Microsoft de lo que constituye y lo que no constituye una PC con IA está tomando forma. Con la última versión de Windows, una clave Copilot dedicada y una NPU capaz de realizar al menos 40 billones de operaciones por segundo, pronto podrá ejecutar Microsoft Copilot localmente, más o menos, en su máquina.

De Redmond requisitos para su modelo de IA en Windows fueron hechos oficiales por Intel, uno de los más fuertes defensores de la categoría de PC con IA, durante la presentación del gigante de los chips. Cumbre de IA en Taipei esta semana.

La ejecución local de un modelo de lenguaje grande (LLM) tiene algunos beneficios intrínsecos. Los usuarios finales deberían tener una latencia más baja y, por lo tanto, mejores tiempos de respuesta, ya que no es necesario enviar consultas hacia y desde un centro de datos remoto, además de tener más privacidad, en teoría. Mientras tanto, para Microsoft, trasladar una mayor carga de trabajo de IA a los dispositivos de los clientes libera sus propios recursos para otras tareas, como ayudar a entrenar el próximo modelo OpenAI u ofrecerlo como una API en la nube.

Microsoft espera ejecutar su Copilot LLM completamente en las NPU, o unidades de procesamiento neuronal, en las PC con Windows AI de las personas eventualmente, a juzgar por comentarios aparentemente realizado por ejecutivos de Intel en la cumbre. Podemos imaginar al goliat x86 empujando esa línea para convencer a todos de que su silicio es lo suficientemente potente como para ejecutar las cosas de Redmond en casa o en la oficina.

Si bien la idea de desconectar a Copilot del umbilical de Azure puede resultar atractiva para algunos, no todos parecen ser fanáticos de ella. Clippy encarnado y es casi seguro que al menos una parte del procesamiento se realizará en la nube en el futuro previsible.

Los ejecutivos de Intel lo han dicho: un hardware más rápido permitirá que más "elementos" de Copilot se ejecuten localmente. En otras palabras, seguirás dependiendo de una conexión de red para al menos algunas de las funciones, y el resto lo manejará la PC con IA.

La razón no debería ser una gran sorpresa. Estas PC con IA tienen recursos finitos y el modelo que impulsa a Copilot (el GPT-4 de OpenAI) es enorme. No sabemos exactamente qué tan grande es la versión que usa Microsoft, pero estima coloque el modelo GPT-4 completo en alrededor de 1.7 billones de parámetros. Incluso con la cuantización o ejecutando el modelo en INT4, necesitaría alrededor de 900 GB de memoria.

Cómo creemos que va a funcionar

GPT-4 es el llamado modelo de mezcla de expertos. En pocas palabras, esto significa que en realidad está ensamblado a partir de una serie de modelos más pequeños y especializados previamente entrenados a los que se dirigen las consultas. Al tener varios modelos optimizados para generación de texto, resumen, creación de código, etc., se puede mejorar el rendimiento de la inferencia, ya que no es necesario ejecutar todo el modelo para completar una tarea.

El uso por parte de Intel del término “elementos” para describir la ejecución local de funciones de Copilot sugiere que algunos de estos expertos podrían ser sustituidos por modelos más pequeños y ágiles capaces de ejecutarse en hardware de portátiles. Como hemos explorado anteriormente, el hardware personal existente es más que capaz de ejecutar modelos de IA más pequeños como Mistral o Meta.

Casualmente, Microsoft recientemente bombeado 15 millones de euros (16.3 millones de dólares) al constructor francés de minimodelos Mistral AI, con planes de poner su trabajo a disposición de los clientes de Azure. Con solo 7 mil millones de parámetros de tamaño, el Mistral-7B es ciertamente lo suficientemente pequeño como para caber cómodamente en la memoria de una PC con IA, y requiere alrededor de 4 GB de memoria cuando se usa cuantificación de 4 bits.

Y eso es para un modelo de propósito general. Posiblemente, podría arreglárselas con modelos aún más pequeños ajustados para la generación de código fuente que solo se cargan en la memoria cuando se inicia la aplicación, digamos Visual Studio Code, y se detecta una suscripción activa a Github Copilot. Recuerde, Copilot es más que un simple chatbot; es un conjunto de funciones de inteligencia artificial que se están incorporando al sistema operativo y la biblioteca de software de Microsoft.

Redmond no ha dicho cuánta memoria requiere su especificación AI PC, pero, según nuestra experiencia con LLM locales, 16 GB de DDR5 rápida deberían ser suficientes.

Cualquiera que sea el camino que Microsoft termine tomando, la combinación de modelos locales y remotos podría conducir a algún comportamiento interesante. Aún no sabemos bajo qué circunstancias estos modelos locales tomarán el control, pero el vicepresidente corporativo de dispositivos Windows de Microsoft, Pavan Davuluri, ha sugerido que la combinación puede ser dinámica.

"Queremos poder cambiar de carga entre la nube y el cliente para brindar lo mejor de la informática en ambos mundos", dijo en el escenario durante la conferencia Advancing AI de AMD. evento en diciembre. "Reúne los beneficios de la computación local, aspectos como mayor privacidad, capacidad de respuesta y latencia con el poder de la nube, modelos de alto rendimiento, grandes conjuntos de datos e inferencia entre plataformas".

Como tal, podemos ver un par de escenarios en los que Microsoft puede utilizar la IA local. El primero es descargar trabajo de los servidores de Microsoft y mejorar los tiempos de respuesta. A medida que el hardware mejore, se podrían sacar más funciones de Copilot de la nube a los dispositivos de los usuarios.

La segunda sería tenerlo como respaldo en caso de interrupciones en la red. Puede imaginar que su PC con IA se vuelve más tonta en lugar de detenerse por completo cuando se desconecta de la red.

Restricciones de hardware

Antes de que te entusiasmes demasiado con las PC con inteligencia artificial de cerebro dividido que redactan manifiestos fuera de la red, actualmente no hay ninguna máquina que cumpla con los requisitos de hardware, y no es por la falta de una clave Copilot.

El problema es que las NPU son todavía relativamente nuevas en silicio x86, y lo que existe no es lo suficientemente potente. AMD fue uno de los primeros en agregar una NPU a sus procesadores móviles a principios de 2023 con el lanzamiento de su Ryzen 7040 chips de serie.

Esa alineación recibió un aumento de reloj en diciembre durante el evento Advancing AI de House of Zen. AMD también llevó sus NPU al escritorio con el lanzamiento de su APU de 8000G en el CES en enero de este año.

Intel lanzó sus bloques aceleradores de IA dedicados con el lanzamiento de su Lago Meteoro piezas del microprocesador a finales de diciembre. Estos chips Core Ultra cuentan con una NPU derivada de la unidad de procesamiento de visión (VPU) Movidius de Intel, que Intel demostró ejecutando una variedad de cargas de trabajo durante su evento de Innovación el año pasado.

Desafortunadamente, los chips sólo son capaces de realizar entre 10 y 16 billones (normalmente INT4) de operaciones por segundo, muy por debajo de la especificación 40 TOPS de Microsoft. Eso significa que la mayoría de las llamadas PC con IA en el mercado no cumplirán con los requisitos, no sin depender de la GPU para compensar la diferencia.

Tanto Intel como AMD tienen chips más capaces que vienen con silicio Lunar Lake y Strix Point respectivamente. Sin embargo, en el corto plazo, parece que Qualcomm acaparará el mercado.

Portátiles con Snapdragon X Elite de Qualcomm procesadores móviles Saldrán a mediados de 2024 y contarán con una NPU con capacidad para 45 TOPS. Combinado con una GPU Adreno capaz de 4.6 teraFLOPS de rendimiento FP32, Qualcomm dice que la pieza podrá ejecutar modelos de IA con hasta 13 mil millones de parámetros completamente en el dispositivo y generar 30 tokens por segundo cuando ejecute LLM más pequeños de 7 mil millones de parámetros.

A medida que lleguen las PC con NPU de mayor rendimiento y mayores almacenes de memoria, y los modelos pequeños se vuelvan más capaces, sospechamos que Microsoft comenzará a descargar más funciones a los dispositivos locales, una vez que el hardware pueda manejarlas. ®

punto_img

Información más reciente

punto_img