Logotipo de Zephyrnet

Cómo ejecutar un LLM localmente en tu PC en menos de 10 minutos

Fecha:

Las manos en Con todo lo que se habla de grupos masivos de capacitación en aprendizaje automático y PC con IA, se le perdonaría pensar que necesita algún tipo de hardware especial para jugar con modelos de lenguaje grandes (LLM) que generan texto y código en casa.

En realidad, es muy probable que el sistema de escritorio en el que estás leyendo esto sea más que capaz de ejecutar una amplia gama de LLM, incluidos chat bots como Mistral o generadores de código fuente como Codellama.

De hecho, con herramientas disponibles abiertamente como Ollama, LM Suite y Llama.cpp, es relativamente fácil ejecutar estos modelos en su sistema.

En aras de la simplicidad y la compatibilidad multiplataforma, veremos Ollama, que una vez instalado funciona más o menos igual en Windows, Linux y Mac.

Unas palabras sobre el rendimiento, la compatibilidad y la compatibilidad con GPU AMD:

En general, los modelos de lenguajes grandes como Mistral o Llama 2 funcionan mejor con aceleradores dedicados. Hay una razón por la que los operadores de centros de datos están comprando e implementando GPU en grupos de 10,000 o más, aunque necesitarás una ínfima fracción de dichos recursos.

Ollama ofrece soporte nativo para las GPU de la serie M de Nvidia y Apple. Las GPU Nvidia con al menos 4 GB de memoria deberían funcionar. Probamos con una RTX 12 de 3060 GB, aunque recomendamos al menos 16 GB de memoria para Mac de la serie M.

Los usuarios de Linux querrán instalar primero el último controlador propietario de Nvidia y probablemente los binarios CUDA. Hay más información sobre cómo configurar eso. esta página.

Si utiliza una GPU Radeon serie 7000 o posterior, AMD tiene una guía completa sobre cómo ejecutar un LLM en su sistema, que puede encontrar esta página.

La buena noticia es que, si no tienes una tarjeta gráfica compatible, Ollama seguirá funcionando en una CPU compatible con AVX2, aunque mucho más lento que si tuvieras una GPU compatible. Y aunque se recomiendan 16 GB de memoria, es posible que puedas arreglártelas con menos si optas por un modelo cuantificado; hablaremos de eso en un minuto.

Instalación de Ollama

Instalar Ollama es bastante sencillo, independientemente de su sistema operativo base. Es de código abierto, que puedes consultar. esta página.

Para aquellos que ejecutan Windows o Mac OS, diríjase ollama.com y descárgala e instálala como cualquier otra aplicación.

Para aquellos que ejecutan Linux, es aún más simple: simplemente ejecute este delineador; puede encontrar instrucciones de instalación manuales esta página, si los quieres, y listo.

curl -fsSL https://ollama.com/install.sh | sh

Instalando tu primer modelo

Independientemente de su sistema operativo, trabajar con Ollama es prácticamente lo mismo. Ollama recomienda comenzar con Llama 2 7B, una red neuronal basada en transformadores de siete mil millones de parámetros, pero para esta guía echaremos un vistazo a Mistral 7B ya que es bastante capaz y ha sido la fuente de algunos controversia en las últimas semanas.

Comience abriendo PowerShell o un emulador de terminal y ejecutando el siguiente comando para descargar e iniciar el modelo en un modo de chat interactivo.

ollama corre mistral

Tras la descarga, accederá a un mensaje de chat donde podrá comenzar a interactuar con el modelo, como ChatGPT, Copilot o Google Gemini.

Los LLM, como Mistral 7B, funcionan sorprendentemente bien en esta MacBook Pro M2 Max de 1 años

Los LLM, como Mistral 7B, funcionan sorprendentemente bien en esta MacBook Pro M2 Max de 1 años: haga clic para ampliar

Si no obtiene nada, es posible que primero deba iniciar Ollama desde el menú de inicio en Windows o la carpeta de aplicaciones en Mac.

Modelos, etiquetas y cuantificación.

Mistal 7B es solo uno de varios LLM, incluidas otras versiones del modelo, a los que se puede acceder mediante Ollama. Puede encontrar la lista completa, junto con instrucciones para ejecutar cada uno. esta página, pero la sintaxis general es más o menos así:

ejecución de ollama nombre-modelo: etiqueta-modelo

Las etiquetas de modelo se utilizan para especificar qué versión del modelo desea descargar. Si lo deja así, Ollama asumirá que desea la última versión. Según nuestra experiencia, ésta tiende a ser una versión cuantificada del modelo de 4 bits.

Si, por ejemplo, quisieras ejecutar Llama2 7B de Meta en FP16, se vería así:

ollama corre llama2:7b-chat-fp16

Pero antes de intentar eso, es posible que desees volver a verificar que tu sistema tenga suficiente memoria. Nuestro ejemplo anterior con Mistral utilizó cuantificación de 4 bits, lo que significa que el modelo necesita medio gigabyte de memoria por cada mil millones de parámetros. Y no lo olvides: tiene siete mil millones de parámetros.

La cuantización es una técnica utilizada para comprimir el modelo convirtiendo sus pesos y activaciones a una precisión menor. Esto permite que Mistral 7B se ejecute dentro de 4 GB de GPU o RAM del sistema, generalmente con un sacrificio mínimo en la calidad de la salida, aunque su kilometraje puede variar.

El ejemplo de Llama 2 7B utilizado anteriormente se ejecuta con la mitad de precisión (FP16). Como resultado, en realidad necesitarías 2 GB de memoria por cada mil millones de parámetros, lo que en este caso equivale a poco más de 14 GB. A menos que tenga una GPU más nueva con 16 GB o más de vRAM, es posible que no tenga suficientes recursos para ejecutar el modelo con esa precisión.

Manejando Ollama

Administrar, actualizar y eliminar modelos instalados usando Ollama debería sentirse como en casa para cualquiera que haya usado cosas como Docker CLI antes.

En esta sección repasaremos algunas de las tareas más comunes que quizás desee ejecutar.

Para obtener una lista de modelos instalados ejecute:

lista de ollama

Para eliminar un modelo, ejecutarías:

ollama rm nombre-modelo: etiqueta-modelo

Para extraer o actualizar un modelo existente, ejecute:

ollama pull nombre-modelo: etiqueta-modelo

Se pueden encontrar comandos adicionales de Ollama ejecutando:

ollama --ayuda

Como señalamos anteriormente, Ollama es solo uno de los muchos marcos para ejecutar y probar LLM locales. Si tienes problemas con este, es posible que tengas más suerte con otros. Y no, una IA no escribió esto.

El registro tiene como objetivo brindarle más información sobre el uso de LLM en un futuro cercano, así que asegúrese de compartir sus preguntas candentes sobre AI PC en la sección de comentarios. Y no te olvides de seguridad de la cadena de suministro. ®

punto_img

Información más reciente

punto_img