Logotipo de Zephyrnet

Pequeños modelos de lenguaje prosperan con GPT-4 como profesor | Revista Quanta

Fecha:

Introducción

Aprender inglés no es una tarea fácil, como bien saben innumerables estudiantes. Pero cuando el estudiante es una computadora, un enfoque funciona sorprendentemente bien: simplemente alimentar montañas de texto de Internet a un modelo matemático gigante llamado red neuronal. Ese es el principio operativo detrás de los modelos de lenguaje generativo como ChatGPT de OpenAI, cuya capacidad para conversar de manera coherente (aunque no siempre sincera) sobre una amplia gama de temas ha sorprendido a los investigadores y al público durante el año pasado.

Pero el enfoque tiene sus inconvenientes. Por un lado, el procedimiento de “formación” necesario para transmutar vastos archivos de texto en modelos lingüísticos de última generación es costoso y requiere mucho tiempo. Por otro lado, incluso a las personas que entrenan grandes modelos lingüísticos les resulta difícil comprender su funcionamiento interno; eso, a su vez, hace que sea difícil predecir las muchas formas en que pueden fracasar.

Ante estas dificultades, algunos investigadores han optado por formar modelos más pequeños en conjuntos de datos más pequeños y luego estudiar su comportamiento. “Es como secuenciar el Drosophila genoma versus secuenciar el genoma humano”, dijo ellie pavlick, investigador de modelos de lenguaje en la Universidad de Brown.

Ahora, en un Publicado recientemente en el servidor de preimpresión científica arxiv.org, un par de investigadores de Microsoft han introducido un nuevo método para entrenar pequeños modelos de lenguaje: criarlos con una dieta estricta de cuentos infantiles.

Los investigadores del aprendizaje automático han adoptado esta lección. GPT-3.5, el modelo de lenguaje grande que impulsa la interfaz ChatGPT, tiene casi 200 mil millones de parámetros y fue entrenado en un conjunto de datos que comprende cientos de miles de millones de palabras. (OpenAI no ha publicado las cifras correspondientes para su sucesor, GPT-4). Entrenar modelos tan grandes normalmente requiere al menos 1,000 procesadores especializados llamados GPU funcionando en paralelo durante semanas seguidas. Sólo unas pocas empresas pueden reunir los recursos necesarios, y mucho menos entrenar y comparar diferentes modelos.

Los dos investigadores demostraron que los modelos de lenguaje miles de veces más pequeños que los sistemas más modernos actuales aprendieron rápidamente a contar historias consistentes y gramaticales cuando se entrenaron de esta manera. Sus resultados apuntan a nuevas direcciones de investigación que podrían resultar útiles para entrenar modelos más grandes y comprender su comportamiento.

"Este documento me pareció muy informativo", dijo Chandra Bhagavatula, investigador de modelos de lenguaje en el Instituto Allen de Inteligencia Artificial en Seattle. "El concepto en sí es muy interesante".

Había una vez

Las redes neuronales en el corazón de los modelos lingüísticos son estructuras matemáticas inspiradas libremente en el cerebro humano. Cada uno contiene muchas neuronas artificiales dispuestas en capas, con conexiones entre neuronas de capas adyacentes. El comportamiento de la red neuronal se rige por la fuerza de estas conexiones, llamadas parámetros. En un modelo de lenguaje, los parámetros controlan qué palabras el modelo podría escupir a continuación, dada una indicación inicial y las palabras que ya ha generado.

Un modelo solo cobra vida durante el entrenamiento, cuando compara repetidamente su propia salida con el texto en su conjunto de datos de entrenamiento y ajusta sus parámetros para aumentar la semejanza. Una red no entrenada con parámetros aleatorios es trivialmente fácil de ensamblar a partir de unas pocas líneas de código, pero solo producirá galimatías. Después del entrenamiento, a menudo puede continuar con textos desconocidos. Los modelos más grandes a menudo se someten a ajustes adicionales que les enseñan a responder preguntas y seguir instrucciones, pero la mayor parte del entrenamiento consiste en dominar la predicción de palabras.

El éxito en la predicción de palabras requiere un modelo de lenguaje para dominar muchas habilidades diferentes. Por ejemplo, las reglas de la gramática inglesa sugieren que la siguiente palabra después de la palabra “going” probablemente sea “to”, independientemente del tema del texto. Además, un sistema necesita conocimiento factual para completar “la capital de Francia es” y completar un pasaje que contenga la palabra "no" requiere una comprensión rudimentaria de la lógica.

"El lenguaje crudo es muy complicado", dijo Timoteo Nguyen, investigador de aprendizaje automático en DeepMind. “Para que surjan capacidades lingüísticas interesantes, la gente ha recurrido al principio 'cuanto más datos, mejor'”.

Introducción

Ronen Eldan, un matemático que se unió a Microsoft Research en 2022 para estudiar modelos de lenguaje generativo, quería desarrollar una forma más económica y rápida de explorar sus habilidades. La forma natural de hacerlo era mediante el uso de un pequeño conjunto de datos, y eso a su vez significaba que tendría que entrenar modelos para especializarse en una tarea específica, de modo que no se extendieran demasiado. Inicialmente, quería entrenar modelos para resolver una determinada clase de problemas matemáticos, pero una tarde, después de pasar tiempo con su hija de 5 años, se dio cuenta de que los cuentos infantiles encajaban perfectamente.

“Literalmente se me ocurrió después de leerle una historia”, dijo.

Para generar historias infantiles coherentes, un modelo de lenguaje necesitaría aprender datos sobre el mundo, realizar un seguimiento de los personajes y eventos y observar las reglas gramaticales: versiones más simples de los desafíos que enfrentan los modelos grandes. Pero los grandes modelos entrenados con conjuntos de datos masivos aprenden innumerables detalles irrelevantes junto con las reglas que realmente importan. Eldan esperaba que la brevedad y el vocabulario limitado de los cuentos infantiles pudieran hacer que el aprendizaje fuera más manejable para los modelos pequeños, haciéndolos más fáciles de entrenar y de entender.

Sin embargo, en el mundo de los modelos de lenguaje, lo “pequeño” es relativo: un conjunto de datos mil veces más pequeño que el utilizado para entrenar GPT-3.5 aún necesitaría contener millones de historias. “No sé cuánto dinero quieres gastar, pero supongo que no contratarás profesionales para escribir [un par de millones] de cuentos”, dijo Nguyen.

Se necesitaría un autor extraordinariamente prolífico para satisfacer a lectores tan voraces, pero Eldan tenía algunos candidatos en mente. ¿Quién mejor que uno grande para escribir para una audiencia de modelos lingüísticos pequeños?

Historias de juguetes

Eldan inmediatamente se propuso crear una biblioteca de cuentos infantiles sintéticos generados a partir de grandes modelos de lenguaje. Pero pronto descubrió que ni siquiera los modelos más modernos son muy creativos por naturaleza. Si simplemente le dices a GPT-4 que escriba historias apropiadas para niños de 4 años, dijo Eldan, “aproximadamente una quinta parte de las historias tratarán sobre niños que van al parque y tienen miedo de los toboganes”. Esa es aparentemente la historia preescolar por excelencia, en lo que a Internet se refiere.

La solución fue agregar un poco de aleatoriedad al mensaje. En primer lugar, Eldan utilizó GPT-4 para generar una lista de 1,500 sustantivos, verbos y adjetivos que un niño de 4 años podría conocer, lo suficientemente breve como para que él mismo pudiera comprobarlo fácilmente. Luego escribió un programa de computadora simple que solicitaba repetidamente a GPT-3.5 o GPT-4 generar una historia apropiada para la edad que incluía tres palabras aleatorias de la lista, junto con un detalle adicional elegido al azar, como un final feliz o un giro de la trama. Las historias resultantes, afortunadamente, se centraron menos en diapositivas aterradoras.

Eldan ahora tenía un procedimiento para generar datos de entrenamiento bajo demanda, pero no tenía idea de cuántas historias necesitaría para entrenar un modelo funcional, o qué tan grande tendría que ser ese modelo. Fue entonces cuando se asoció con Yuanzhi Li, investigador de aprendizaje automático de Microsoft y la Universidad Carnegie Mellon, para probar diferentes posibilidades, aprovechando que los modelos pequeños se pueden entrenar muy rápidamente. El paso 1 fue decidir cómo evaluar sus modelos.

Introducción

En la investigación de modelos lingüísticos, como en todas las aulas, la calificación es un tema complicado. hay no hay rúbrica perfecta eso resume todo lo que los investigadores quieren saber, y los modelos que sobresalen en algunas tareas a menudo fracasan espectacularmente en otras. Con el tiempo, los investigadores han desarrollado varios puntos de referencia estándar basados ​​en preguntas con respuestas inequívocas, lo cual es un buen enfoque si se intenta evaluar habilidades específicas. Pero Eldan y Li estaban interesados ​​en algo más confuso: ¿Qué tan grandes deben ser realmente los modelos de lenguaje si se simplifica el lenguaje tanto como sea posible?

"Para probar directamente si el modelo habla inglés, creo que lo único que se puede hacer es dejar que el modelo genere inglés de forma abierta", dijo Eldan.

Solo hay dos formas de medir el desempeño de un modelo en preguntas tan cualitativas: confiar en calificadores humanos o recurrir una vez más a GPT-4. Los dos investigadores eligieron la última ruta, permitiendo efectivamente que los grandes modelos escribieran los libros de texto y calificaran los ensayos.

Bhagavatula dijo que le hubiera gustado ver cómo se comparan las evaluaciones de GPT-4 con las de los revisores humanos: GPT-4 puede estar sesgado hacia los modelos que ayudó a entrenar, y la opacidad de los modelos de lenguaje hace que sea difícil cuantificar tales sesgos. Pero no cree que tales sutilezas afecten las comparaciones entre diferentes modelos entrenados en conjuntos similares de historias sintéticas, el foco principal del trabajo de Eldan y Li.

Eldan y Li utilizaron un procedimiento de dos pasos para evaluar cada uno de sus pequeños modelos después del entrenamiento. Primero, solicitaron al modelo pequeño la primera mitad de una historia distinta de las del conjunto de datos de entrenamiento para que generara un nuevo final, repitiendo este proceso con 50 historias de prueba diferentes. En segundo lugar, le indicaron a GPT-4 que calificara cada uno de los finales del modelo pequeño basándose en tres categorías: creatividad, gramática y coherencia con el comienzo de la historia. Luego promediaron las puntuaciones en cada categoría y terminaron con tres calificaciones finales por modelo.

Con este procedimiento en mano, Eldan y Li finalmente estuvieron listos para comparar diferentes modelos y descubrir cuáles eran los estudiantes estrella.

resultados de la prueba

Después de una exploración preliminar, los dos investigadores se decidieron por un conjunto de datos de entrenamiento que contenía aproximadamente 2 millones de historias. Luego utilizaron este conjunto de datos, denominado TinyStories, para entrenar modelos con tamaños que oscilaban entre 1 millón y 30 millones de parámetros, con diferentes números de capas. Fue un trabajo rápido: utilizando sólo cuatro GPU, el mayor de estos modelos no tardó más de un día en entrenarse.

Los modelos más pequeños tuvieron problemas. Por ejemplo, una historia de prueba comienza con un hombre de aspecto mezquino que le dice a una niña que se quedará con su gato. Un modelo de un millón de parámetros quedó atrapado en un bucle con la niña diciéndole repetidamente al hombre que quería que seamos amigos. Pero los más grandes (todavía miles de veces más pequeños que GPT-3.5) funcionaron sorprendentemente bien. La versión de 28 millones de parámetros contaba una historia coherente, aunque el final fue sombrío: “Katie empezó a llorar, pero al hombre no le importó. Se llevó al gato y Katie nunca volvió a ver a su gato. El fin."

Además de probar sus propios modelos, Eldan y Li presentaron el mismo desafío al GPT-2 de OpenAI, un modelo de 1.5 millones de parámetros lanzado en 2019. Le fue mucho peor: antes del abrupto final de la historia, el hombre amenaza con llevarse a la niña. al tribunal, la cárcel, el hospital, la morgue y finalmente el crematorio.

Introducción

Nguyen dijo que es emocionante que modelos tan pequeños fueran tan fluidos, pero tal vez no sorprenda que GPT-2 tuviera dificultades con la tarea: es un modelo más grande pero lejos de ser lo último en tecnología, y fue entrenado con un conjunto de datos muy diferente. "Un niño pequeño que entrena sólo en tareas infantiles, como jugar con algunos juguetes, podría hacerlo mejor que usted o yo", señaló. "No nos especializamos en esta cosa tan simple".

Las comparaciones entre diferentes modelos de TinyStories no sufren los mismos factores de confusión. Eldan y Li observaron indicios de que las redes con menos capas pero más neuronas por capa respondían mejor a preguntas que requerían conocimiento fáctico; por el contrario, las redes con más capas y menos neuronas por capa eran mejores para realizar un seguimiento de los personajes y los puntos de la trama de etapas anteriores de la historia. Bhagavatula encontró este resultado especialmente intrigante. Si se puede replicar en modelos más grandes, dijo, “ese sería un resultado realmente interesante que podría surgir de este trabajo”.

Eldan y Li también estudiaron cómo las habilidades de sus pequeños modelos dependían de la duración del período de entrenamiento. En todos los casos, los modelos dominaron la gramática primero y la coherencia después. Para Eldan, este patrón ilustra cómo las diferencias en las estructuras de recompensa conducen a diferencias en los patrones de adquisición del lenguaje entre las redes neuronales y los niños. Para los modelos de lenguaje, que aprenden prediciendo palabras, "el incentivo de las palabras 'quiero tener' es tan grande como lo es de las palabras 'helado'", dijo. A los niños, por otro lado, “no les importa si dicen 'me gustaría tomar un helado' o simplemente 'helado, helado, helado'”.

Calidad versus cantidad

Eldan y Li esperan que la investigación motive a otros investigadores a entrenar diferentes modelos en el conjunto de datos TinyStories y comparar sus capacidades. Pero a menudo es difícil predecir qué características de los modelos pequeños aparecerán también en los más grandes.

"Tal vez los modelos de visión en ratones sean realmente buenos sustitutos de la visión humana, pero ¿son los modelos de depresión en ratones buenos modelos de depresión humana?" dijo Pavlick. "Cada caso es un poco diferente".

El éxito de los modelos TinyStories también sugiere una lección más amplia. El enfoque estándar para compilar conjuntos de datos de entrenamiento implica aspirar texto de Internet y luego filtrar la basura. El texto sintético generado por modelos grandes podría ofrecer una forma alternativa de ensamblar conjuntos de datos de alta calidad que no tendrían que ser tan grandes.

"Tenemos cada vez más pruebas de que esto es muy eficaz, no sólo en modelos del tamaño de TinyStories sino también en modelos más grandes", dijo Eldan. Esa evidencia proviene de un par de artículos de seguimiento sobre modelos de mil millones de parámetros escritos por Eldan, Li y otros investigadores de Microsoft. En el primer papel, entrenaron un modelo para aprender el lenguaje de programación Python utilizando fragmentos de código generados por GPT-3.5 junto con código cuidadosamente seleccionado de Internet. En el segundo, aumentaron el conjunto de datos de entrenamiento con “libros de texto” sintéticos, que cubren una amplia gama de temas, para entrenar un modelo de lenguaje de propósito general. En sus pruebas, ambos modelos se compararon favorablemente con modelos más grandes entrenados en conjuntos de datos más grandes. Pero evaluar modelos de lenguaje siempre es complicado y el enfoque de datos de entrenamiento sintéticos aún está en su infancia: se necesitan más pruebas independientes.

A medida que los modelos lingüísticos de última generación crecen cada vez más, los sorprendentes hallazgos de sus primos pequeños nos recuerdan que todavía hay mucho que no entendemos incluso sobre los modelos más simples. Nguyen espera ver muchos más artículos que exploren el enfoque iniciado por TinyStories.

"La pregunta es: ¿dónde y por qué importa el tamaño?" él dijo. "Debería haber una ciencia al respecto y, con suerte, este artículo es el comienzo de una rica historia".

punto_img

Información más reciente

punto_img