Los 6 principales modelos de lenguaje de PNL que transformarán la IA en 2023

cuadro de diálogo GPT-4

En el campo de la inteligencia artificial, que evoluciona rápidamente, el procesamiento del lenguaje natural se ha convertido en un punto central para investigadores y desarrolladores por igual. Como testimonio del notable progreso en esta área, en los últimos años han surgido varios modelos de lenguaje innovadores, que amplían los límites de lo que las máquinas pueden comprender y generar. En este artículo, profundizaremos en los últimos avances en el mundo de los modelos de lenguaje a gran escala, explorando las mejoras introducidas por cada modelo, sus capacidades y aplicaciones potenciales.

Comenzaremos con un modelo BERT seminal de 2018 y terminaremos con los últimos avances de este año, como LLaMA de Meta AI y GPT-4 de OpenAI. Si desea saltear, estos son los modelos de lenguaje que presentamos:

Si este contenido educativo en profundidad es útil para usted, puede suscríbete a nuestra lista de correo de investigación de IA ser alertado cuando lancemos nuevo material.

Los modelos de lenguaje grande más importantes (LLM) en 2023

1. BERT de Google

Resumen

En 2018, el equipo de IA de Google presentó un nuevo modelo de vanguardia para el procesamiento del lenguaje natural (NLP): BERTIo Bidireccional Ecodificador Representaciones de Ttransformadores Su diseño permitió que el modelo considerara el contexto tanto del lado izquierdo como del derecho de cada palabra. Aunque conceptualmente simple, BERT obtuvo nuevos resultados de última generación en once tareas de NLP, incluida la respuesta a preguntas, el reconocimiento de entidades nombradas y otras tareas relacionadas con la comprensión general del idioma. Este modelo marcó una nueva era en la PNL con pre-entrenamiento de modelos de lenguaje convirtiéndose en un nuevo estándar.

Cual es el objetivo?

Para eliminar las limitaciones de los modelos de lenguaje anteriores, específicamente en términos de que las representaciones previamente entrenadas son unidireccionales, lo que limitaba la elección de arquitecturas que podrían usarse para el entrenamiento previo y restringía los enfoques de ajuste fino.
- Por ejemplo, GPT v1 de OpenAI usaba una arquitectura de izquierda a derecha, donde cada token solo atendía a los tokens anteriores en las capas de autoatención de Transformer.
- Esta configuración era subóptima para tareas a nivel de oración y especialmente dañina para tareas a nivel de token, donde era importante incorporar contexto de ambos lados.

¿Cómo se aborda el problema?

Entrenamiento de un modelo bidireccional profundo enmascarando aleatoriamente un porcentaje de tokens de entrada, evitando así ciclos donde las palabras pueden "verse a sí mismas" indirectamente.
Además, entrena previamente un modelo de relación de oración mediante la construcción de una tarea de clasificación binaria simple para predecir si la oración B sigue inmediatamente a la oración A, lo que permite que BERT comprenda mejor las relaciones entre las oraciones.
Entrenamiento de un modelo grande (24 bloques de transformadores, 1024 ocultos, 340 millones de parámetros) con muchos datos (3.3 millones de corpus de palabras).

¿Cuáles son los resultados?

Avanzando en el estado de la técnica para 11 tareas de PNL, que incluyen:
- obtener una puntuación de GLUE del 80.4 %, lo que supone un 7.6 % de mejora absoluta respecto al mejor resultado anterior;
- logrando una precisión del 93.2% en SQuAD 1.1 y superando el desempeño humano en un 2%.
Sugerir un modelo previamente entrenado, que no requiere que se apliquen modificaciones sustanciales en la arquitectura a tareas específicas de PNL.

¿Dónde obtener más información sobre esta investigación?

¿Dónde puede obtener el código de implementación?

2. GPT-3 por OpenAI

Resumen

El equipo de OpenAI presentó GPT-3 como una alternativa a tener un conjunto de datos etiquetado para cada nueva tarea de idioma. Sugirieron que la ampliación de los modelos de lenguaje puede mejorar el rendimiento de pocos intentos independientes de la tarea. Para probar esta sugerencia, entrenaron un modelo de lenguaje autorregresivo de parámetros 175B, llamado GPT-3, y evaluó su desempeño en más de dos docenas de tareas de PNL. La evaluación bajo aprendizaje de pocos disparos, aprendizaje de un solo disparo y aprendizaje de disparo cero demostró que GPT-3 logró resultados prometedores e incluso superó ocasionalmente los resultados de vanguardia logrados por modelos ajustados.

Cual es el objetivo?

Sugerir una solución alternativa al problema existente, cuando se necesita un conjunto de datos etiquetados para cada nueva tarea de lenguaje.

¿Cómo se aborda el problema?

Los investigadores sugirieron ampliar los modelos de lenguaje para mejorar el rendimiento de pocos disparos independiente de la tarea.
La GPT-3 model utiliza el mismo modelo y arquitectura que GPT-2, incluida la inicialización modificada, la normalización previa y la tokenización reversible.
Sin embargo, en contraste con GPT-2, utiliza patrones de atención dispersos alternados densos y localizados en bandas en las capas del transformador, como en el Transformador escaso.

¿Cuáles son los resultados?

El modelo GPT-3 sin ajuste fino logra resultados prometedores en una serie de tareas de PNL, e incluso ocasionalmente supera los modelos más avanzados que se ajustaron para esa tarea específica:
- En CoQA punto de referencia, 81.5 F1 en la configuración de disparo cero, 84.0 F1 en la configuración de un disparo y 85.0 F1 en la configuración de pocos disparos, en comparación con la puntuación de 90.7 F1 lograda por el SOTA ajustado.
- En Trivia QA punto de referencia, 64.3% de precisión en el ajuste de disparo cero, 68.0% en el ajuste de disparo único y 71.2% en el ajuste de pocos disparos, superando el estado del arte (68%) en un 3.2%.
- En LAMBADA conjunto de datos, 76.2% de precisión en el ajuste de disparo cero, 72.5% en el ajuste de disparo único y 86.4% en el ajuste de disparo reducido, superando el estado del arte (68%) en un 18%.
Los artículos de noticias generados por el modelo GPT-175 de parámetro 3B son difíciles de distinguir de los reales, según evaluaciones humanas (con una precisión apenas por encima del nivel de probabilidad de ~ 52%).
A pesar del notable desempeño de GPT-3, recibió críticas mixtas de la comunidad de IA:
- “El bombo publicitario de GPT-3 es demasiado. Es impresionante (¡gracias por los bonitos cumplidos!), Pero todavía tiene serias debilidades y, a veces, comete errores muy tontos. La IA va a cambiar el mundo, pero GPT-3 es solo un primer vistazo. Todavía tenemos mucho que resolver ". - Sam Altman, director ejecutivo y cofundador de OpenAI.
- "Me sorprende lo difícil que es generar un texto sobre musulmanes a partir de GPT-3 que no tenga nada que ver con la violencia ... o ser asesinado ..." - Abubakar Abid, CEO y fundador de Gradio.
- "No. GPT-3 fundamentalmente no comprende el mundo del que habla. Aumentar aún más el corpus le permitirá generar un pastiche más creíble pero no solucionará su falta fundamental de comprensión del mundo. Las demostraciones de GPT-4 seguirán requiriendo una selección humana ". - Gary Marcus, director ejecutivo y fundador de Robust.ai.
- "Extrapolar el espectacular rendimiento de GPT3 al futuro sugiere que la respuesta a la vida, el universo y todo es solo 4.398 billones de parámetros". - Geoffrey Hinton, ganador del premio Turing.

¿Dónde obtener más información sobre esta investigación?

¿Dónde puede obtener el código de implementación?

El código en sí no está disponible, pero algunas estadísticas de conjuntos de datos junto con muestras de 2048 tokens incondicionales y sin filtrar de GPT-3 se publican el GitHub.

3. LaMDA de Google

Resumen

Laidioma Mmodelos para Ddiálogo Aaplicaciones (LAMDA) se crearon a través del proceso de ajuste de un grupo de modelos de lenguaje neuronal basados en Transformer que están diseñados específicamente para diálogos. Estos modelos tienen un máximo de parámetros 137B y fueron entrenados para usar fuentes externas de conocimiento. Los desarrolladores de LaMDA tenían tres objetivos clave en mente: calidad, seguridad y conexión a tierra. Los resultados demostraron que el ajuste fino permite reducir la brecha de calidad a niveles humanos, pero el rendimiento del modelo se mantuvo por debajo de los niveles humanos con respecto a la seguridad y la conexión a tierra.

bardo de google, liberado recientemente como una alternativa a ChatGPT, funciona con LaMDA. A pesar de que Bard es a menudo etiquetado como aburrido, podría verse como una prueba del compromiso de Google de priorizar la seguridad, incluso en medio de la intensa rivalidad entre Google y Microsoft para establecer el dominio en el campo de la IA generativa.

Cual es el objetivo?

Construir un modelo para aplicaciones de diálogo de dominio abierto, donde un agente de diálogo puede conversar sobre cualquier tema con respuestas sensatas, específicas para el contexto, basadas en fuentes confiables y éticas.

¿Cómo se aborda el problema?

LaMDA se basa en transformador, una arquitectura de red neuronal que Google Research inventó y abrió en código abierto en 2017.
- Al igual que otros modelos de lenguaje grandes, incluidos BERT y GPT-3, LaMDA se entrena en terabytes de datos de texto para aprender cómo se relacionan las palabras entre sí y luego predecir qué palabras es probable que aparezcan a continuación.
- Sin embargo, a diferencia de la mayoría de los modelos de lenguaje, LaMDA fue entrenado en diálogo para captar los matices que distinguen una conversación abierta de otras formas de lenguaje.
El modelo también se ajusta para mejorar la sensatez, la seguridad y la especificidad de sus respuestas. Si bien frases como "eso está bien" y "no sé" pueden ser significativas en muchos escenarios de diálogo, es poco probable que conduzcan a conversaciones interesantes y atractivas.
- El generador de LaMDA primero genera varias respuestas candidatas, que se califican según su seguridad, sensibilidad, especificidad e interés. Las respuestas con puntajes de seguridad bajos se filtran y luego se selecciona el resultado mejor clasificado como respuesta.

¿Cuáles son los resultados?

Numerosos experimentos muestran que LaMDA puede participar en conversaciones abiertas sobre una variedad de temas.
Una serie de evaluaciones cualitativas confirmaron que las respuestas del modelo tienden a ser sensatas, específicas, interesantes y basadas en fuentes externas confiables, pero aún hay margen de mejora.
A pesar de todos los avances realizados hasta el momento, los autores reconocen que el modelo aún tiene muchas limitaciones que pueden generar respuestas inapropiadas o incluso dañinas.

¿Dónde obtener más información sobre esta investigación?

¿Dónde puede obtener el código de implementación?

Una implementación PyTorch de código abierto para la arquitectura previa al entrenamiento de LaMDA está disponible en GitHub.

4. PaLM de Google

Resumen

Pade todos modos Lel idioma MModelo (Palmera) es un modelo de lenguaje basado en Transformer de 540 mil millones de parámetros. PaLM se capacitó en chips 6144 TPU v4 utilizando Pathways, un nuevo sistema ML para una capacitación eficiente en múltiples pods de TPU. El modelo demuestra los beneficios de escalar en el aprendizaje de pocos disparos, logrando resultados de vanguardia en cientos de puntos de referencia de comprensión y generación de idiomas. PaLM supera a los modelos de última generación en tareas de razonamiento de varios pasos y supera el rendimiento humano promedio en el punto de referencia de BIG-bench.

Cual es el objetivo?

Para mejorar la comprensión de cómo la escala de modelos de lenguaje grandes afecta el aprendizaje de pocos intentos.

¿Cómo se aborda el problema?

La idea clave es escalar el entrenamiento de un modelo de lenguaje de 540 mil millones de parámetros con el sistema Pathways:
- El equipo estaba usando el paralelismo de datos a nivel de pod en dos pods de Cloud TPU v4 mientras usaba datos estándar y paralelismo de modelos dentro de cada pod.
- Pudieron escalar la capacitación a 6144 chips TPU v4, la configuración de sistema basada en TPU más grande utilizada para la capacitación hasta la fecha.
- El modelo logró una eficiencia de entrenamiento del 57.8 % de uso de FLOP de hardware, que, como afirman los autores, es la eficiencia de entrenamiento más alta hasta ahora lograda para modelos de lenguaje grande a esta escala.
Los datos de entrenamiento para el modelo PaLM incluyeron una combinación de conjuntos de datos en inglés y multilingües que contenían documentos web de alta calidad, libros, Wikipedia, conversaciones y código GitHub.

¿Cuáles son los resultados?

Numerosos experimentos demuestran que el rendimiento del modelo aumentó considerablemente a medida que el equipo escaló a su modelo más grande.
PaLM 540B logró un rendimiento innovador en múltiples tareas muy difíciles:
- Comprensión y generación del lenguaje.. El modelo introducido superó el rendimiento de pocos disparos de los modelos grandes anteriores en 28 de 29 tareas que incluyen tareas de preguntas y respuestas, tareas de finalización de oraciones y cloze, tareas de comprensión de lectura en contexto, tareas de razonamiento de sentido común, tareas SuperGLUE y más. El desempeño de PaLM en las tareas de BIG-bench demostró que podía distinguir causa y efecto, así como comprender combinaciones conceptuales en contextos apropiados.
- Razonamiento. Con indicaciones de 8 disparos, PaLM resuelve el 58 % de los problemas en GSM8K, un punto de referencia de miles de preguntas matemáticas desafiantes de nivel escolar, superando el puntaje máximo anterior del 55 % logrado al ajustar el modelo GPT-3 175B. PaLM también demuestra la capacidad de generar explicaciones explícitas en situaciones que requieren una combinación compleja de inferencia lógica de varios pasos, conocimiento del mundo y comprensión profunda del lenguaje.
- Codigo de GENERACION. PaLM funciona a la par con el Codex 12B perfeccionado mientras usa 50 veces menos código Python para el entrenamiento, lo que confirma que los modelos de lenguaje grandes transfieren el aprendizaje de otros lenguajes de programación y datos de lenguaje natural de manera más efectiva.

¿Dónde obtener más información sobre esta investigación?

¿Dónde puede obtener el código de implementación?

Una implementación no oficial de PyTorch de la arquitectura Transformer específica del trabajo de investigación de PaLM está disponible en GitHub. No se escalará y se publica solo con fines educativos.

5. LLaMA por Meta AI

Resumen

El equipo de Meta AI afirma que los modelos más pequeños entrenados en más tokens son más fáciles de volver a entrenar y ajustar para aplicaciones de productos específicos. Por lo tanto, introducen Llama (Large Laidioma MModelo Meta AI), una colección de modelos de lenguaje fundamentales con parámetros 7B a 65B. LLaMA 33B y 65B se entrenaron con 1.4 billones de tokens, mientras que el modelo más pequeño, LLaMA 7B, se entrenó con un billón de tokens. Utilizaron exclusivamente conjuntos de datos disponibles públicamente, sin depender de datos propietarios o restringidos. El equipo también implementó mejoras arquitectónicas clave y técnicas de optimización de la velocidad de entrenamiento. En consecuencia, LLaMA-13B superó a GPT-3, siendo 10 veces más pequeño, y LLaMA-65B exhibió un rendimiento competitivo con PaLM-540B.

Cual es el objetivo?

Demostrar la viabilidad de entrenar modelos de alto rendimiento únicamente en conjuntos de datos de acceso público, sin depender de fuentes de datos propietarias o restringidas.
Proporcionar a la comunidad de investigación modelos más pequeños y de mayor rendimiento y, por lo tanto, permitir que aquellos que no tienen acceso a grandes cantidades de infraestructura estudien modelos de lenguaje grandes.

¿Cómo se aborda el problema?

Para entrenar el modelo LLaMA, los investigadores solo usaron datos que están disponibles públicamente y son compatibles con el código abierto.
También han introducido algunas mejoras en la arquitectura estándar de Transformer:
- Al adoptar la metodología GPT-3, se mejoró la estabilidad del entrenamiento al normalizar la entrada para cada subcapa del transformador, en lugar de normalizar la salida.
- Inspirándose en los modelos PaLM, los investigadores reemplazaron la no linealidad ReLU con la función de activación SwiGLU para mejorar el rendimiento.
- Inspirado por thesuburbansoapbox.com Su et al (2021), eliminaron las incrustaciones posicionales absolutas y, en su lugar, incorporaron incrustaciones posicionales rotativas (RoPE) en cada capa de la red.
Finalmente, el equipo de Meta AI mejoró la velocidad de entrenamiento de su modelo al:
- Uso de una implementación de atención multicabezal causal eficiente al no almacenar ponderaciones de atención ni calcular puntuaciones de consultas/claves enmascaradas.
- Uso de puntos de control para minimizar las activaciones recalculadas durante el pase hacia atrás.
- Superposición del cómputo de activaciones y la comunicación entre GPU a través de la red (debido a las operaciones all_reduce).

¿Cuáles son los resultados?

LLaMA-13B supera a GPT-3 a pesar de ser 10 veces más pequeño, mientras que LLaMA-65B se mantiene firme frente a PaLM-540B.

¿Dónde obtener más información sobre esta investigación?

¿Dónde puede obtener el código de implementación?

Meta AI brinda acceso a LLaMA a investigadores académicos, personas asociadas con el gobierno, la sociedad civil, instituciones académicas y laboratorios de investigación de la industria global sobre la base de una evaluación de casos individuales. Para aplicar, vaya a la siguiente Repositorio GitHub.

6. GPT-4 por OpenAI

Resumen

GPT-4 es un modelo multimodal a gran escala que acepta entradas de imagen y texto y genera salidas de texto. Debido a problemas de competencia y seguridad, se retienen detalles específicos sobre la arquitectura y el entrenamiento del modelo. En términos de rendimiento, GPT-4 supera los modelos de lenguaje anteriores en los puntos de referencia tradicionales y muestra mejoras significativas en la comprensión de la intención del usuario y las propiedades de seguridad. El modelo también logra un rendimiento a nivel humano en varios exámenes, incluido un puntaje máximo del 10 % en un examen de barra uniforme simulado.

Cual es el objetivo?

Desarrollar un modelo multimodal a gran escala que pueda aceptar entradas de imágenes y texto y producir salidas de texto.
Desarrollar infraestructura y métodos de optimización que se comporten de manera predecible en una amplia gama de escalas.

¿Cómo se aborda el problema?

Debido al panorama competitivo y las implicaciones de seguridad, OpenAI decidió ocultar detalles sobre arquitectura, tamaño del modelo, hardware, cómputo de entrenamiento, construcción de conjuntos de datos y métodos de entrenamiento.
Revelan que:
- GPT-4 es un modelo basado en Transformer, entrenado previamente para predecir el siguiente token en un documento.
- Utiliza datos disponibles públicamente y datos con licencia de terceros.
- El modelo se ajustó utilizando el aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF).

¿Cuáles son los resultados?

GPT-4 logra un rendimiento a nivel humano en la mayoría de los exámenes profesionales y académicos, en particular con un puntaje en el 10% superior en un examen de barra uniforme simulado.
El modelo base GPT-4 preentrenado supera los modelos de lenguaje existentes y los sistemas de vanguardia anteriores en los puntos de referencia tradicionales de NLP, sin elaboración específica de puntos de referencia ni protocolos de capacitación adicionales.
GPT-4 demuestra una mejora sustancial en el seguimiento de la intención del usuario, con sus respuestas preferidas sobre las respuestas de GPT-3.5 en el 70.2 % de las 5,214 indicaciones de ChatGPT y la API de OpenAI.
Las propiedades de seguridad de GPT-4 han mejorado significativamente en comparación con GPT-3.5, con una disminución del 82 % en la respuesta a solicitudes de contenido no permitido y un aumento del 29 % en el cumplimiento de las políticas para solicitudes confidenciales (p. ej., asesoramiento médico y autolesiones).

¿Dónde obtener más información sobre esta investigación?

¿Dónde puede obtener el código de implementación?

La implementación del código de GPT-4 no está disponible.

Aplicaciones del mundo real de modelos de lenguaje grande

Los avances más significativos en investigación de IA de los últimos años provienen de grandes modelos de IA entrenados en grandes conjuntos de datos. Estos modelos demuestran un rendimiento impresionante y es fascinante pensar cómo la IA puede revolucionar industrias enteras, como servicio al cliente, marketing, comercio electrónico, atención médica, desarrollo de software, periodismo y muchas otras.

Los modelos de lenguaje grande tienen numerosas aplicaciones en el mundo real. GPT-4 enumera lo siguiente:

Comprensión y generación de lenguaje natural para chatbots y asistentes virtuales.
Traducción automática entre idiomas.
Resumen de artículos, informes u otros documentos de texto.
Análisis de sentimiento para investigación de mercado o monitoreo de redes sociales.
Generación de contenido para marketing, redes sociales o escritura creativa.
Sistemas de preguntas y respuestas para atención al cliente o bases de conocimiento.
Clasificación de texto para filtrado de spam, categorización de temas u organización de documentos.
Herramientas personalizadas de aprendizaje y tutoría de idiomas.
Asistencia en generación de código y desarrollo de software.
Análisis y asistencia de documentos médicos, legales y técnicos.
Herramientas de accesibilidad para personas con discapacidades, como conversión de texto a voz y de voz a texto.
Servicios de transcripción y reconocimiento de voz.

Es muy emocionante seguir los avances recientes de la IA y pensar en sus posibles aplicaciones en el mundo real. Sin embargo, antes de implementar estos modelos en la vida real, debemos abordar los riesgos y limitaciones correspondientes, que desafortunadamente son bastante importantes.

Riesgos y limitaciones

Si le pregunta a GPT-4 sobre sus riesgos y limitaciones, es probable que le proporcione una larga lista de inquietudes relevantes. Después de filtrar esta lista y agregar algunas consideraciones adicionales, terminé con el siguiente conjunto de riesgos y limitaciones clave que poseen los modelos modernos de lenguaje grande:

Sesgo y discriminación: estos modelos aprenden de grandes cantidades de datos de texto, que a menudo contienen sesgos y contenido discriminatorio. Como resultado, los resultados generados pueden perpetuar sin querer estereotipos, lenguaje ofensivo y discriminación basada en factores como el género, la raza o la religión.
Desinformación: Los modelos de lenguaje extenso pueden generar contenido que sea incorrecto, engañoso o desactualizado. Si bien los modelos se entrenan en una amplia gama de fuentes, es posible que no siempre proporcionen la información más precisa o actualizada. A menudo, esto sucede porque el modelo prioriza la generación de resultados que sean gramaticalmente correctos o parezcan coherentes, incluso si son engañosos.
Falta de entendimiendo: Aunque estos modelos parecen comprender el lenguaje humano, funcionan principalmente mediante la identificación de patrones y asociaciones estadísticas en los datos de entrenamiento. No tienen una comprensión profunda del contenido que generan, lo que a veces puede resultar en resultados sin sentido o irrelevantes.
Contenido inapropiado: Los modelos de lenguaje a veces pueden generar contenido ofensivo, dañino o inapropiado. Si bien se hacen esfuerzos para minimizar dicho contenido, aún puede ocurrir debido a la naturaleza de los datos de entrenamiento y la incapacidad de los modelos para discernir el contexto o la intención del usuario.

Conclusión

Sin duda, los grandes modelos de lenguaje han revolucionado el campo del procesamiento del lenguaje natural y han demostrado un inmenso potencial para mejorar la productividad en varios roles e industrias. Su capacidad para generar texto similar al humano, automatizar tareas mundanas y brindar asistencia en procesos creativos y analíticos los ha convertido en herramientas indispensables en el mundo acelerado e impulsado por la tecnología de hoy.

Sin embargo, es crucial reconocer y comprender las limitaciones y los riesgos asociados con estos poderosos modelos. No se pueden ignorar problemas como el sesgo, la información errónea y el potencial de uso malicioso. A medida que continuamos integrando estas tecnologías impulsadas por IA en nuestra vida diaria, es esencial lograr un equilibrio entre aprovechar sus capacidades y garantizar la supervisión humana, particularmente en situaciones delicadas y de alto riesgo.

Si logramos adoptar tecnologías de IA generativa de manera responsable, allanaremos el camino para un futuro en el que la inteligencia artificial y la experiencia humana trabajen juntas para impulsar la innovación y crear un mundo mejor para todos.

Le informaremos cuando publiquemos más artículos de resumen como este.

Relacionado:

Distribución de relaciones públicas y contenido potenciado por SEO. Consiga amplificado hoy.
Platoblockchain. Inteligencia del Metaverso Web3. Conocimiento amplificado. Accede Aquí.
Fuente: https://www.topbots.com/top-6-nlp-language-models-transforming-ai-in-2023/

Los 6 principales modelos de lenguaje de PNL que transformarán la IA en 2023

Los modelos de lenguaje grande más importantes (LLM) en 2023

1. BERT de Google

Resumen

Cual es el objetivo?

¿Cómo se aborda el problema?

¿Cuáles son los resultados?

¿Dónde obtener más información sobre esta investigación?

¿Dónde puede obtener el código de implementación?

2. GPT-3 por OpenAI

Resumen

Cual es el objetivo?

¿Cómo se aborda el problema?

¿Cuáles son los resultados?

¿Dónde obtener más información sobre esta investigación?

¿Dónde puede obtener el código de implementación?

3. LaMDA de Google

Resumen

Cual es el objetivo?

¿Cómo se aborda el problema?

¿Cuáles son los resultados?

¿Dónde obtener más información sobre esta investigación?

¿Dónde puede obtener el código de implementación?

4. PaLM de Google

Resumen

Cual es el objetivo?

¿Cómo se aborda el problema?

¿Cuáles son los resultados?

¿Dónde obtener más información sobre esta investigación?

¿Dónde puede obtener el código de implementación?

5. LLaMA por Meta AI

Resumen

Cual es el objetivo?

¿Cómo se aborda el problema?

¿Cuáles son los resultados?

¿Dónde obtener más información sobre esta investigación?

¿Dónde puede obtener el código de implementación?

6. GPT-4 por OpenAI

Resumen

Cual es el objetivo?

¿Cómo se aborda el problema?

¿Cuáles son los resultados?

¿Dónde obtener más información sobre esta investigación?

¿Dónde puede obtener el código de implementación?

Aplicaciones del mundo real de modelos de lenguaje grande

Riesgos y limitaciones

Conclusión

¿Disfrutas este artículo? Regístrese para obtener más actualizaciones de investigación de IA.

Relacionado:

Información más reciente