Logotipo de Zephyrnet

Microsoft Phi-3 es el próximo pequeño titán del gigante tecnológico

Fecha:

La carrera por modelos de inteligencia artificial cada vez más grandes ha sido un sello distintivo de los avances recientes. Sin embargo, Microsoft está revolucionando las cosas con el Phi-3 Mini, un modelo de IA que cuenta con capacidades impresionantes a pesar de su tamaño compacto.

Tradicionalmente, el éxito en los modelos de lenguaje grandes (LLM) se ha vinculado a la cantidad de parámetros, esencialmente los componentes básicos que informan la comprensión del lenguaje por parte del modelo.

Teniendo en cuenta los costos informáticos y la disponibilidad para todos, Microsoft Phi-3 está aquí para cambiar este enfoque "tradicional".

Microsoft Phi-3 Mini cabe un gigante en tus bolsillos

GPT-3.5, actualmente líder en la carrera LLM, cuenta con la asombrosa cifra de 175 mil millones de parámetros. Este inmenso número permite a GPT-3.5 procesar grandes cantidades de datos de texto, lo que le brinda una comprensión amplia y matizada del lenguaje. Sin embargo, esta complejidad también tiene un costo. Ejecutar un modelo con un número tan alto de parámetros requiere importantes recursos computacionales, lo que lo hace costoso y consume mucha energía.

El modelo mini de Microsoft, por el contrario, adopta un enfoque diferente. Al utilizar un conjunto de parámetros mucho más pequeño (apenas 3.8 millones), el Phi-3 Mini opera con un nivel de eficiencia que eclipsa a sus homólogos más grandes. Esta reducción de tamaño se traduce en varias ventajas.

Todo esto hace que Microsoft Phi-3:

  • Significativamente menos costoso de ejecutar
  • Una potencia potencial para aplicaciones de IA en dispositivos

Régimen de entrenamiento del Phi-3 Mini

Otro aspecto intrigante del Phi-3 Mini es su método de entrenamiento.

A diferencia de sus homólogos más grandes entrenados en conjuntos de datos masivos de texto y código, la educación de Phi-3 Mini implicó una selección más curada. Los investigadores optaron por un plan de estudios inspirado en cómo aprenden los niños, utilizando libros infantiles como base.

Este enfoque parece haber dado resultados positivos, con Phi-3 Mini demostrando un rendimiento que rivaliza con el de GPT-3.5 en varios puntos de referencia.

Microsoft Phi-3 LLM
Con sólo 3.8 millones de parámetros, Phi-3 Mini supera a los modelos más grandes en términos de rentabilidad y rendimiento en el dispositivo. (Crédito de la imagen)

Comparado para el éxito

Los investigadores de Microsoft pusieron a prueba su nuevo modelo utilizando puntos de referencia establecidos para LLM. El modelo logró puntuaciones impresionantes en métricas como MMLU (una medida de la capacidad de un modelo para comprender relaciones complejas en el lenguaje) y MT-bench (una prueba de capacidades de traducción automática).

Estos resultados sugieren que Phi-3 Mini, a pesar de su tamaño, puede competir con los grandes nombres del juego LLM.

¿Cómo logra resultados tan impresionantes?

Los detalles técnicos de Phi-3 Mini revelan un enfoque fascinante para lograr resultados impresionantes con un tamaño de modelo notablemente pequeño. Aquí hay un desglose de los aspectos clave:

Arquitectura del decodificador de transformador

Phi-3 Mini utiliza una arquitectura de decodificador transformador, una opción de diseño predominante para modelos de lenguaje efectivos. Esta arquitectura destaca en el procesamiento de datos secuenciales como texto, lo que permite que el modelo comprenda las relaciones entre las palabras de una oración.

Longitud del contexto

El Phi-3 Mini estándar funciona con una longitud de contexto de 4,000 tokens. Esto define la cantidad máxima de tokens (palabras o partes de palabras) que el modelo considera al generar texto. Una longitud de contexto más larga permite una comprensión más profunda de la conversación anterior, pero también requiere más potencia de procesamiento.

Versión de contexto largo (Phi-3-Mini-128K)

Para tareas que requieren un contexto más amplio, está disponible una variante llamada Phi-3-Mini-128K. Esta versión amplía la longitud del contexto a la friolera de 128,000 tokens, lo que le permite manejar secuencias de información más complejas.

Compatibilidad con herramientas existentes

Para beneficiar a la comunidad de desarrolladores, Phi-3 Mini comparte una estructura y un tamaño de vocabulario similar (320,641) con la familia de modelos Llama-2. Esta compatibilidad permite a los desarrolladores aprovechar las herramientas y bibliotecas existentes diseñadas para Llama-2 cuando trabajan con Phi-3 Mini.

Parámetros del modelo

Aquí es donde realmente brilla el Phi-3 Mini. Con sólo 3.072 mil millones de parámetros, opera muy por debajo de las asombrosas cifras observadas en modelos más grandes como GPT-3.5 (175 mil millones de parámetros).

Esta importante reducción de parámetros se traduce en una eficiencia excepcional en términos de potencia de procesamiento y uso de memoria.

Saif Naik de Microsoft explica:

“Nuestro objetivo con el copiloto Krishi Mitra es mejorar la eficiencia manteniendo al mismo tiempo la precisión de un modelo de lenguaje grande. Estamos entusiasmados de asociarnos con Microsoft para utilizar versiones mejoradas de Phi-3 para alcanzar nuestros dos objetivos: ¡eficiencia y precisión!

– Saif Naik, Jefe de Tecnología, ITCMAARS

Metodología de entrenamiento

La formación de Phi-3 Mini se inspira en el enfoque "Los libros de texto son todo lo que necesitas". Este método enfatiza los datos de entrenamiento de alta calidad en lugar de simplemente aumentar el tamaño del modelo. Los datos de capacitación se seleccionan cuidadosamente, centrándose en fuentes web con un "nivel educativo" específico y datos sintéticos generados por otros LLM.

Esta estrategia permite al Phi-3 Mini lograr resultados impresionantes a pesar de su tamaño compacto.

Filtrado de datos para un aprendizaje óptimo

A diferencia de los enfoques tradicionales que priorizan los recursos computacionales o el entrenamiento excesivo, Phi-3 Mini se centra en un "régimen de datos óptimo" para su tamaño. Esto implica filtrar meticulosamente los datos web para garantizar que contengan el nivel correcto de "conocimiento" y promuevan las habilidades de razonamiento.

Por ejemplo, se podrían excluir datos deportivos generales para priorizar información que mejore la capacidad de razonamiento del modelo.

Ajuste post-entrenamiento

Después del proceso de capacitación central, el nuevo modelo se somete a un refinamiento adicional mediante ajuste fino supervisado (SFT) y optimización de preferencias directas (DPO). SFT expone el modelo a datos seleccionados en varios dominios, incluidos principios matemáticos, de codificación y de seguridad. DPO ayuda a alejar el modelo de comportamientos no deseados al identificar y excluir resultados no deseados.

Esta fase posterior al entrenamiento transforma al Phi-3 Mini de un modelo de lenguaje a un asistente de IA versátil y seguro.

Rendimiento eficiente en el dispositivo

El pequeño tamaño del Phi-3 Mini se traduce en un rendimiento excepcional en el dispositivo. Al cuantificar el modelo a 4 bits, ocupa apenas 1.8 gigabytes de memoria.

Un partido hecho en el cielo

¿Recuerdas los intentos fallidos de Microsoft con los teléfonos inteligentes? Qué pasa Los fallidos acuerdos de integración de Google Gemini de Apple ¿En meses recientes? ¿O ha estado siguiendo las noticias de que Apple ha expresado su opinión sobre la integración de un LLM en el dispositivo con iOS 18 en las últimas semanas?

Sonó una campana?

Las aplicaciones potenciales de Phi-3 Mini son enormes. Su eficiencia lo hace ideal para la integración en dispositivos móviles, lo que potencialmente permite funciones como asistentes virtuales más inteligentes y traducción de idiomas en tiempo real. Además, su rentabilidad podría abrir las puertas a una adopción más amplia por parte de los desarrolladores que trabajan en diversos proyectos impulsados ​​por IA.

Y eso es exactamente lo que Apple estaba buscando. Por supuesto, esta afirmación no es más que una suposición por ahora, pero no sería un error decir que se trata de una "combinación hecha en el cielo". Además, en el trabajo de investigación, el nuevo proyecto de Microsoft ya se ha ejecutado en un iPhone con chip A16 Bionic de forma nativa.

Microsoft Phi-3 LLM
Surgen especulaciones sobre una posible colaboración entre Microsoft y Apple, considerando la compatibilidad del Phi-3 Mini con dispositivos iOS y el reciente interés de Apple en la integración LLM en el dispositivo. (Crédito de la imagen)

El éxito de Phi-3 Mini depende de una combinación de factores: una arquitectura adecuada, uso eficiente de la longitud del contexto, compatibilidad con herramientas existentes, enfoque en datos de entrenamiento de alta calidad y técnicas de optimización. Este enfoque único allana el camino para modelos de IA potentes y eficientes que pueden funcionar sin problemas en dispositivos personales.


Crédito de la imagen destacada: vecstock/Freepik

punto_img

Información más reciente

punto_img