Logotipo de Zephyrnet

¿Con qué rapidez aprenden los modelos de lenguaje grandes habilidades inesperadas? | Revista Quanta

Fecha:

Introducción

Hace dos años, en un proyecto llamado Más allá del punto de referencia del juego de imitación, o BIG-bench, 450 investigadores compilaron una lista de 204 tareas diseñadas para probar las capacidades de grandes modelos de lenguaje, que impulsan chatbots como ChatGPT. En la mayoría de las tareas, el rendimiento mejoró de manera predecible y fluida a medida que los modelos ampliaban su escala: cuanto más grande era el modelo, mejor se volvía. Pero con otras tareas, el salto en la capacidad no fue fácil. El rendimiento se mantuvo cerca de cero por un tiempo, luego el rendimiento saltó. Otros estudios encontraron saltos similares en la capacidad.

Los autores describieron esto como un comportamiento "revolucionario"; otros investigadores lo han comparado con una transición de fase en la física, como cuando el agua líquida se congela y se convierte en hielo. En un papel Publicado en agosto de 2022, los investigadores señalaron que estos comportamientos no solo son sorprendentes sino también impredecibles, y que deberían informar las conversaciones en evolución sobre la seguridad, el potencial y el riesgo de la IA. Llamaron a las habilidades “emergente”, una palabra que describe comportamientos colectivos que solo aparecen una vez que un sistema alcanza un alto nivel de complejidad.

Pero puede que las cosas no sean tan sencillas. Un nuevo papel por un trío de investigadores de la Universidad de Stanford postula que la aparición repentina de estas habilidades es solo una consecuencia de la forma en que los investigadores miden el desempeño del LLM. Las habilidades, argumentan, no son impredecibles ni repentinas. "La transición es mucho más predecible de lo que la gente cree", dijo Sanmi Koyejo, científico informático de Stanford y autor principal del artículo. "Las fuertes afirmaciones de emergencia tienen tanto que ver con la forma en que elegimos medir como con lo que están haciendo los modelos".

Recién ahora estamos viendo y estudiando este comportamiento debido a lo grandes que se han vuelto estos modelos. Los grandes modelos de lenguaje se entrenan analizando enormes conjuntos de datos de texto (palabras de fuentes en línea, incluidos libros, búsquedas web y Wikipedia) y encontrar vínculos entre palabras que a menudo aparecen juntas. El tamaño se mide en términos de parámetros, aproximadamente de forma análoga a todas las formas en que se pueden conectar las palabras. Cuantos más parámetros, más conexiones puede encontrar un LLM. GPT-2 tenía 1.5 millones de parámetros, mientras que GPT-3.5, el LLM que impulsa ChatGPT, utiliza 350 millones. GPT-4, que debutó en marzo de 2023 y ahora es la base de Microsoft Copilot, supuestamente utiliza 1.75 billones.

Ese rápido crecimiento ha traído un aumento sorprendente en el rendimiento y la eficacia, y nadie cuestiona que los LLM lo suficientemente grandes pueden completar tareas que los modelos más pequeños no pueden, incluidas aquellas para las que no fueron capacitados. El trío de Stanford que consideró la emergencia como un “espejismo” reconoce que los LLM se vuelven más efectivos a medida que crecen; En realidad, la complejidad añadida La utilización de modelos más grandes debería permitir mejorar en problemas más difíciles y diversos. Pero argumentan que si esta mejora parece suave y predecible o irregular y nítida es el resultado de la elección de la métrica (o incluso de la escasez de ejemplos de prueba) más que del funcionamiento interno del modelo.

La suma de tres dígitos ofrece un ejemplo. En el estudio BIG-bench de 2022, los investigadores informaron que con menos parámetros, tanto GPT-3 como otro LLM llamado LAMDA no lograron completar con precisión los problemas de suma. Sin embargo, cuando GPT-3 se entrenó utilizando 13 mil millones de parámetros, su capacidad cambió como si se presionara un interruptor. De repente, podría sumar, y LAMDA también podría hacerlo, con 68 mil millones de parámetros. Esto sugiere que la capacidad de sumar surge en un cierto umbral.

Pero los investigadores de Stanford señalan que los LLM fueron juzgados sólo por su precisión: o podían hacerlo perfectamente o no. Entonces, incluso si un LLM predijo correctamente la mayoría de los dígitos, falló. Eso no parecía correcto. Si estás calculando 100 más 278, entonces 376 parece una respuesta mucho más precisa que, digamos, −9.34.

Entonces, Koyejo y sus colaboradores probaron la misma tarea utilizando una métrica que otorga crédito parcial. “Podemos preguntar: ¿Qué tan bien predice el primer dígito? ¿Entonces el segundo? ¿Entonces el tercero? él dijo.

Koyejo atribuye la idea del nuevo trabajo a su estudiante de posgrado Rylan Schaeffer, quien, según dijo, notó que el desempeño de un LLM parece cambiar según la forma en que se mide su capacidad. Junto con Brando Miranda, otro estudiante graduado de Stanford, eligieron nuevas métricas que mostraban que a medida que aumentaban los parámetros, los LLM predecían una secuencia cada vez más correcta de dígitos en problemas de suma. Esto sugiere que la capacidad de sumar no es emergente (lo que significa que sufre un salto repentino e impredecible) sino gradual y predecible. Descubren que con una vara de medir diferente, la emergencia desaparece.

Introducción

Pero otros científicos señalan que el trabajo no disipa por completo la noción de emergencia. Por ejemplo, el artículo del trío no explica cómo predecir cuándo las métricas, o cuáles, mostrarán una mejora abrupta en un LLM, dijo Tianshi Li, científico informático de la Universidad Northeastern. "En ese sentido, estas habilidades aún son impredecibles", dijo. Otros, como Jason Wei, un científico informático que ahora trabaja en OpenAI y que ha compilado una lista de habilidades emergentes y fue autor del artículo de BIG-bench, han discutido que los informes anteriores sobre su surgimiento eran sólidos porque, para habilidades como la aritmética, la respuesta correcta es realmente lo único que importa.

"Definitivamente hay una conversación interesante que mantener aquí", dijo Alex Tamkin, científico investigador de la startup de inteligencia artificial Anthropic. El nuevo documento divide hábilmente las tareas de varios pasos para reconocer las contribuciones de los componentes individuales, dijo. “Pero esta no es la historia completa. No podemos decir que todos estos saltos sean un espejismo. Sigo pensando que la literatura muestra que incluso cuando tienes predicciones de un solo paso o usas métricas continuas, todavía tienes discontinuidades y, a medida que aumentas el tamaño de tu modelo, aún puedes verlo mejorar en forma de salto”.

E incluso si el surgimiento de los LLM de hoy puede explicarse mediante diferentes herramientas de medición, es probable que ese no sea el caso para los LLM más grandes y complicados del mañana. "Cuando llevemos los LLM al siguiente nivel, inevitablemente tomarán prestado conocimiento de otras tareas y otros modelos", dijo Xia “Ben” Hu, científico informático de la Universidad Rice.

Esta consideración cambiante de la emergencia no es sólo una cuestión abstracta que deben considerar los investigadores. Para Tamkin, esto habla directamente de los esfuerzos en curso para predecir cómo se comportarán los LLM. "Estas tecnologías son muy amplias y aplicables", dijo. “Espero que la comunidad utilice esto como punto de partida para enfatizar continuamente lo importante que es construir una ciencia de predicción para estas cosas. ¿Cómo no dejarnos sorprender por la próxima generación de modelos?”

punto_img

Información más reciente

punto_img