Logotipo de Zephyrnet

Cómo Impactará Llama 3 de Meta el futuro de la IA – Blog de IBM

Fecha:


Cómo Impactará Llama 3 de Meta el futuro de la IA – Blog de IBM



Persona sentada en una silla por la noche en el escritorio leyendo una tableta mientras el escritorio está iluminado frente a él

En enero de 2024, el director ejecutivo de Meta, Mark Zuckerberg, anunció en un video de Instagram que Meta AI había comenzado recientemente a entrenar Llama 3. Esta última generación de la familia LLaMa de modelos de lenguaje grande (LLM) sigue a los modelos Llama 1 (originalmente estilizados como “LLaMA”) lanzados en febrero de 2023 y los modelos Llama 2 lanzados en julio.

Aunque aún no se han anunciado detalles específicos (como tamaños de modelos o capacidades multimodales), Zuckerberg indicó la intención de Meta de continuar con el código abierto de los modelos de la Fundación Llama.

Siga leyendo para conocer lo que sabemos actualmente sobre Llama 3 y cómo podría afectar la próxima ola de avances en modelos de IA generativa.

¿Cuándo se lanzará Llama 3?

No se ha anunciado una fecha de lanzamiento, pero vale la pena señalar que Llama 1 tardó tres meses en entrenar y llama 2 tardó unos seis meses en entrenar. Si la próxima generación de modelos sigue un cronograma similar, se lanzaría alrededor de julio de 2024.

Dicho esto, siempre existe la posibilidad de que Meta asigne tiempo adicional para realizar ajustes y garantizar la alineación adecuada del modelo. Aumentar el acceso a modelos de IA generativa empodera a más entidades además de las empresas, las nuevas empresas y los aficionados: a medida que los modelos de código abierto se vuelven más poderosos, se necesita más cuidado para reducir el riesgo de que los malos actores utilicen los modelos con fines maliciosos. En el vídeo de su anuncio, Zuckerberg reiteró el compromiso de Meta de "entrenar [modelos] de manera responsable y segura".

¿Llama 3 será de código abierto?

Si bien Meta otorgó acceso a los modelos Llama 1 de forma gratuita caso por caso a instituciones de investigación para casos de uso exclusivamente no comerciales, el código Llama 2 y los pesos del modelo se publicaron con una licencia abierta que permite el uso comercial para cualquier organización con menos más de 700 millones de usuarios activos mensuales. Si bien existe un debate sobre si la licencia de Llama 2 cumple la estricta definición técnica de “código abierto”, generalmente se le conoce como tal. No hay evidencia disponible que indique que Llama 3 se lanzará de manera diferente.

En su anuncio y en la prensa posterior, Zuckerberg reiteró el compromiso de Meta con las licencias abiertas y la democratización del acceso a la inteligencia artificial (IA). "Tiendo a pensar que uno de los mayores desafíos aquí será que si construyes algo que es realmente valioso, terminará volviéndose muy concentrado", dijo Zuckerberg. en una entrevista con The Verge (el enlace se encuentra fuera de ibm.com). “Mientras que, si se hace más abierto, se aborda una gran clase de problemas que podrían surgir del acceso desigual a las oportunidades y al valor. Esa es una gran parte de toda la visión del código abierto”.

¿Llama 3 logrará inteligencia artificial general (AGI)?

El vídeo del anuncio de Zuckerberg enfatizó el objetivo a largo plazo de Meta de construir inteligencia artificial general (AGI), una etapa de desarrollo teórico de la IA en la que los modelos demostrarían una inteligencia holística igual (o superior) a la inteligencia humana.

"Se ha vuelto más claro que la próxima generación de servicios requiere desarrollar inteligencia general completa", dice Zuckerberg. "Construir los mejores asistentes de IA, IA para creadores, IA para empresas y más, requiere avances en todas las áreas de la IA, desde el razonamiento hasta la planificación, la codificación, la memoria y otras habilidades cognitivas".

Esto no significa necesariamente que Llama 3 alcanzará (o incluso intentará alcanzar) AGI. aún. Pero sí significa que Meta está abordando deliberadamente su desarrollo de LLM y otras investigaciones de IA de una manera que creen que puede generar AGI. finalmente.

¿Llama 3 será multimodal?

un emergente tendencia en inteligencia artificial is IA multimodal: modelos que pueden comprender y operar en diferentes formatos de datos (o modalidades). En lugar de desarrollar modelos separados para procesar datos de texto, código, audio, imagen o incluso video, se pueden utilizar nuevos modelos de última generación, como Gemini de Google o GPT-4V de OpenAI, y entrantes de código abierto como LLaVa (Large Language and Vision Assistant). ), Adept o Qwen-VL, pueden moverse sin problemas entre tareas de visión por computadora y procesamiento del lenguaje natural (PLN).

Si bien Zuckerberg ha confirmado que Llama 3, al igual que Llama 2, incluirá capacidades de generación de código, no abordó explícitamente otras capacidades multimodales. Sin embargo, sí habló sobre cómo imagina que la IA se cruza con el Metaverso en su video de anuncio de Llama 3: "Las gafas son el factor de forma ideal para permitir que una IA vea lo que tú ves y escuche lo que escuchas", dijo Zuckerberg, en referencia a Meta. Gafas inteligentes Ray-Ban. "Así que siempre está disponible para ayudar".

Esto parecería implicar que los planes de Meta para los modelos Llama, ya sea en el próximo lanzamiento de Llama 3 o en las siguientes generaciones, incluyen la integración de datos visuales y de audio junto con los datos de texto y código que los LLM ya manejan.

Esto también parecería ser un desarrollo natural en la búsqueda de AGI. "Se puede discutir si la inteligencia general es similar a la inteligencia de nivel humano, o es como humana-plus, o es alguna súper inteligencia del futuro lejano", dijo en su entrevista con The Verge. "Pero para mí, la parte importante es en realidad su amplitud, que es que la inteligencia tiene todas estas capacidades diferentes en las que hay que poder razonar y tener intuición".

¿Cómo se comparará Llama 3 con Llama 2?

Zuckerberg también anunció importantes inversiones en infraestructura de formación. Para fines de 2024, Meta tiene la intención de tener aproximadamente 350,000 GPU NVIDIA H100, lo que llevaría los recursos informáticos totales disponibles de Meta a “600,000 equivalentes de computación H100” al incluir las GPU que ya tienen. Actualmente sólo Microsoft posee una reserva comparable de potencia informática.

Por lo tanto, es razonable esperar que Llama 3 ofrezca avances sustanciales en el rendimiento en relación con los modelos Llama 2, incluso si los modelos Llama 3 no son más grandes que sus predecesores. Como se hipotetizó en un artículo de marzo de 2022 de Deepmind y posteriormente demostrado por modelos de Meta (así como otros modelos de código abierto, como los de Mistral, con sede en Francia), entrenar modelos más pequeños con más datos produce un mayor rendimiento que entrenar modelos más grandes con menos datos.[iv] Llama 2 se ofreció en los mismos tamaños que los modelos Llama 1 (específicamente, en variantes con 7 mil millones, 14 mil millones y 70 mil millones de parámetros), pero fue entrenado previamente con un 40% más de datos.

Si bien los tamaños de los modelos Llama 3 aún no se han anunciado, es probable que continúen con el patrón de aumento del rendimiento dentro de 7 a 70 mil millones de modelos de parámetros que se estableció en generaciones anteriores. Las recientes inversiones en infraestructura de Meta ciertamente permitirán un entrenamiento previo aún más sólido para modelos de cualquier tamaño.

Llama 2 también duplicó a Llama 1 longitud del contexto, lo que significa que Llama 2 puede "recordar" el doble de tokens de contexto durante la inferencia, es decir, durante la generación de contexto o un intercambio continuo con un chatbot. Es posible, aunque incierto, que Llama 3 ofrezca más avances en este sentido.

¿Cómo se comparará Llama 3 con el GPT-4 de OpenAI?

Aunque se cree que llama más pequeña y Llama 2 modelos Cumplieron o superaron el rendimiento del modelo GPT-175 más grande, de 3 mil millones de parámetros, en ciertos puntos de referencia, no igualaron las capacidades completas de los modelos GPT-3.5 y GPT-4 ofrecidos en ChatGPT.

Con sus próximas generaciones de modelos, Meta parece decidido a llevar un rendimiento de vanguardia al mundo del código abierto. "Llama 2 no era un modelo líder en la industria, pero era el mejor modelo de código abierto", dijo. The Verge. "Con Llama 3 y más allá, nuestra ambición es construir cosas que estén a la vanguardia y, eventualmente, los modelos líderes en la industria".

Preparándose para Llama 3

Con los nuevos modelos básicos surgen nuevas oportunidades de ventaja competitiva a través de aplicaciones mejoradas, Chatbots, flujos de trabajo y automatizaciones. Mantenerse a la vanguardia de los desarrollos emergentes es la mejor manera de evitar quedarse atrás: adoptar nuevas herramientas permite a las organizaciones diferenciar sus ofertas y brindar la mejor experiencia tanto a clientes como a empleados.

A través de su asociación con HuggingFace, IBM watsonx™ admite muchos modelos básicos de código abierto líderes en la industria, incluido Llama 2-chat de Meta. Nuestro equipo global de más de 20,000 XNUMX expertos en IA puede ayudar a su empresa a identificar qué herramientas, tecnologías y técnicas se adaptan mejor a sus necesidades para garantizar que esté escalando de manera eficiente y responsable.

Descubra cómo IBM le ayuda a prepararse para acelerar el progreso de la IA

Ponga la IA generativa a trabajar con watsonx™

¿Le resultó útil este artículo?

No


Más de Inteligencia artificial




IBM Tech Now: 26 de febrero de 2024

<1 min leer​Bienvenido IBM Tech Now, nuestra serie web de videos que presenta las últimas y mejores noticias y anuncios en el mundo de la tecnología. Asegúrese de suscribirse a nuestro canal de YouTube para recibir una notificación cada vez que se publique un nuevo vídeo de IBM Tech Now. IBM Tech Now: Episodio 92 En este episodio, cubrimos los siguientes temas: Pedidos de IBM watsonx EDGE3 + watsonx G2 Premios Best of Software Manténgase conectado Puede consultar los anuncios del blog de IBM para obtener información completa...




Presentación de la observabilidad de datos para Azure Data Factory (ADF)

<1 min leerEn esta actualización del producto IBM Databand, nos complace anunciar nuestra nueva observabilidad de datos de soporte para Azure Data Factory (ADF). Los clientes que utilizan ADF como herramienta de orquestación y transformación de datos ahora pueden aprovechar las capacidades de observabilidad y gestión de incidentes de Databand para garantizar la confiabilidad y calidad de sus datos. ¿Por qué utilizar Databand con ADF? Monitoreo de canalización de un extremo a otro: recopile metadatos, métricas y registros de todos los sistemas dependientes. Análisis de tendencias: cree tendencias históricas para detectar anomalías de forma proactiva y alertar sobre posibles...




Casos de uso de IA conversacional para empresas

10 min leerHoy en día, la gente no sólo prefiere la comunicación instantánea; lo esperan. La inteligencia artificial (IA) conversacional lidera la tarea de derribar barreras entre las empresas y sus audiencias. Esta clase de herramientas basadas en IA, incluidos chatbots y asistentes virtuales, permite intercambios fluidos, humanos y personalizados. Más allá de la burbuja de chat simplista de la IA conversacional se encuentra una combinación compleja de tecnologías, con el procesamiento del lenguaje natural (PLN) ocupando un lugar central. La PNL traduce las palabras del usuario en acciones de la máquina, lo que permite que las máquinas comprendan y respondan las consultas de los clientes con precisión. Este…

Boletines informativos de IBM

Obtenga nuestros boletines y actualizaciones de temas que brindan el liderazgo intelectual más reciente y conocimientos sobre tendencias emergentes.

Subscribirme Ahora

Más boletines

punto_img

Información más reciente

punto_img