Logotipo de Zephyrnet

Nueva teoría sugiere que los chatbots pueden entender texto | Revista Quanta

Fecha:

Introducción

La inteligencia artificial parece más poderosa que nunca, con chatbots como Bard y ChatGPT capaces de producir textos asombrosamente parecidos a los humanos. Pero a pesar de todos sus talentos, estos robots todavía dejan a los investigadores preguntándose: realmente entender que estan diciendo? "Claramente, algunas personas creen que sí", dijo el pionero de la IA Geoff Hinton en un parche de conversación reciente con Andrew Ng, “y algunas personas creen que son simplemente loros estocásticos”.

Esta evocadora frase viene de un 2021 co-escrito por emily dobladora, lingüista computacional de la Universidad de Washington. Sugiere que los grandes modelos de lenguaje (LLM), que forman la base de los chatbots modernos, generan texto solo combinando información que ya han visto "sin ninguna referencia al significado", escribieron los autores, lo que convierte a un LLM en "un loro estocástico".

Estos modelos impulsan muchos de los mejores y más grandes chatbots de la actualidad, por lo que Hinton argumentó que es hora de determinar hasta qué punto entienden. Para él, la pregunta es más que académica. "Mientras tengamos esas diferencias" de opinión, le dijo a Ng, "no podremos llegar a un consenso sobre los peligros".

Nuevas investigaciones pueden tener indicios de una respuesta. Una teoría desarrollada por Sanjeev Arora de la Universidad de Princeton y Anirudh Goyal, un científico investigador de Google DeepMind, sugiere que los mayores LLM actuales no son loros estocásticos. Los autores sostienen que a medida que estos modelos crecen y se entrenan con más datos, mejoran las habilidades individuales relacionadas con el lenguaje y también desarrollan otras nuevas al combinar habilidades de una manera que sugiere comprensión, combinaciones que era poco probable que existieran en los datos de entrenamiento. .

Este enfoque teórico, que proporciona un argumento matemáticamente demostrable de cómo y por qué un LLM puede desarrollar tantas habilidades, ha convencido a expertos como Hinton y otros. Y cuando Arora y su equipo probaron algunas de sus predicciones, descubrieron que estos modelos se comportaban casi exactamente como se esperaba. Según todos los informes, han argumentado con fuerza que los LLM más importantes no están simplemente repitiendo como loros lo que han visto antes.

"[Ellos] no pueden simplemente imitar lo que se ha visto en los datos de entrenamiento", dijo Sébastien Bubeck, matemático e informático de Microsoft Research que no formó parte del trabajo. "Esa es la idea básica".

Más datos, más potencia

La aparición de los habilidades inesperadas y diversas en LLM, es justo decirlo, fue una sorpresa. Estas capacidades no son una consecuencia obvia de la forma en que se construyen y entrenan los sistemas. Un LLM es una red neuronal artificial masiva que conecta neuronas artificiales individuales. Estas conexiones se conocen como parámetros del modelo y su número indica el tamaño del LLM. La capacitación implica darle al LLM una oración con la última palabra oculta, por ejemplo, "El combustible cuesta un brazo y un ___". El LLM predice una distribución de probabilidad sobre todo su vocabulario, por lo que si conoce, digamos, mil palabras, predice mil probabilidades. Luego elige la palabra más probable para completar la oración: presumiblemente, "pierna".

Inicialmente, el LLM podría elegir mal las palabras. Luego, el algoritmo de entrenamiento calcula una pérdida (la distancia, en algún espacio matemático de alta dimensión, entre la respuesta del LLM y la palabra real en la oración original) y usa esta pérdida para modificar los parámetros. Ahora, dada la misma frase, el LLM calculará una mejor distribución de probabilidad y su pérdida será ligeramente menor. El algoritmo hace esto para cada oración en los datos de entrenamiento (posiblemente miles de millones de oraciones), hasta que la pérdida general del LLM desciende a niveles aceptables. Se utiliza un proceso similar para probar el LLM en oraciones que no formaban parte de los datos de entrenamiento.

Un LLM capacitado y probado, cuando se le presenta un nuevo mensaje de texto, generará la siguiente palabra más probable, la agregará al mensaje, generará otra siguiente palabra y continuará de esta manera, produciendo una respuesta aparentemente coherente. Nada en el proceso de capacitación sugiere que los LLM más grandes, creados utilizando más parámetros y datos de capacitación, también deban mejorar en tareas que requieren razonamiento para responder.

Pero lo hacen. Los LLM suficientemente grandes demuestran habilidades (desde resolver problemas matemáticos elementales hasta responder preguntas sobre lo que sucede en la mente de otros) que los modelos más pequeños no tienen, a pesar de que todos están entrenados de manera similar.

“¿De dónde surgió esa [habilidad]?” Se preguntó Arora. “¿Y eso puede surgir simplemente de la predicción de la siguiente palabra?”

Conectando habilidades con el texto

Arora se asoció con Goyal para responder analíticamente a estas preguntas. "Estábamos tratando de idear un marco teórico para comprender cómo ocurre la emergencia", dijo Arora.

El dúo recurrió a objetos matemáticos llamados gráficos aleatorios. Un gráfico es una colección de puntos (o nodos) conectados por líneas (o aristas), y en un gráfico aleatorio la presencia de una arista entre dos nodos cualesquiera está dictada al azar, por ejemplo, al lanzar una moneda al aire. La moneda puede estar sesgada, de modo que salga cara con cierta probabilidad. p. Si la moneda sale cara para un par de nodos determinado, se forma un borde entre esos dos nodos; de lo contrario permanecen desconectados. como el valor de p cambios, los gráficos pueden mostrar transiciones repentinas en sus propiedades. Por ejemplo, cuando p supera un cierto umbral, los nodos aislados (aquellos que no están conectados a ningún otro nodo) desaparecen abruptamente.

Arora y Goyal se dieron cuenta de que los gráficos aleatorios, que dan lugar a comportamientos inesperados después de alcanzar ciertos umbrales, podrían ser una forma de modelar el comportamiento de los LLM. Las redes neuronales se han vuelto casi demasiado complejas para analizarlas, pero los matemáticos han estado estudiando gráficos aleatorios durante mucho tiempo y han desarrollado varias herramientas para analizarlas. Quizás la teoría de grafos aleatorios podría brindar a los investigadores una forma de comprender y predecir los comportamientos aparentemente inesperados de los grandes LLM.

Los investigadores decidieron centrarse en gráficos "bipartitos", que contienen dos tipos de nodos. En su modelo, un tipo de nodo representa fragmentos de texto, no palabras individuales, sino fragmentos que pueden tener desde un párrafo hasta unas pocas páginas. Estos nodos están dispuestos en línea recta. Debajo de ellos, en otra línea, está el otro conjunto de nodos. Estos representan las habilidades necesarias para darle sentido a un texto determinado. Cada habilidad podría ser casi cualquier cosa. Quizás un nodo represente la capacidad de un LLM para comprender la palabra "porque", que incorpora alguna noción de causalidad; otro podría representar poder dividir dos números; otro más podría representar la capacidad de detectar la ironía. “Si entiendes que el texto es irónico, muchas cosas cambian”, dijo Arora. "Eso es relevante para predecir palabras".

Para ser claros, los LLM no se capacitan ni se evalúan teniendo en cuenta las habilidades; están diseñados únicamente para mejorar la predicción de la siguiente palabra. Pero Arora y Goyal querían entender los LLM desde la perspectiva de las habilidades que podrían ser necesarias para comprender un solo texto. Una conexión entre un nodo de habilidad y un nodo de texto, o entre múltiples nodos de habilidad y un nodo de texto, significa que el LLM necesita esas habilidades para comprender el texto en ese nodo. Además, varios fragmentos de texto pueden basarse en la misma habilidad o conjunto de habilidades; por ejemplo, un conjunto de nodos de habilidades que representan la capacidad de comprender la ironía se conectarían con los numerosos nodos de texto donde ocurre la ironía.

El desafío ahora era conectar estos gráficos bipartitos con los LLM reales y ver si los gráficos podían revelar algo sobre el surgimiento de habilidades poderosas. Pero los investigadores no pudieron confiar en ninguna información sobre la capacitación o las pruebas de los LLM reales: empresas como OpenAI o DeepMind no hacen públicos sus datos de capacitación o pruebas. Además, Arora y Goyal querían predecir cómo se comportarán los LLM a medida que crezcan aún más, y no hay información disponible para los próximos chatbots. Sin embargo, había una información crucial a la que los investigadores podían acceder.

Desde 2021, los investigadores que estudian el rendimiento de los LLM y otras redes neuronales han visto surgir un rasgo universal. Se dieron cuenta de que a medida que un modelo crece, ya sea en tamaño o en cantidad de datos de entrenamiento, su pérdida en los datos de prueba (la diferencia entre las respuestas predichas y correctas en textos nuevos, después del entrenamiento) disminuye de una manera muy específica. Estas observaciones se han codificado en ecuaciones llamadas leyes de escala neuronal. Entonces, Arora y Goyal diseñaron su teoría para que no dependiera de los datos de ningún LLM individual, chatbot o conjunto de datos de entrenamiento y prueba, sino de la ley universal que se espera que obedezcan todos estos sistemas: la pérdida predicha por las leyes de escala.

Tal vez, razonaron, un mejor desempeño (medido por las leyes de escala neuronal) estaba relacionado con mejores habilidades. Y estas habilidades mejoradas podrían definirse en sus gráficos bipartitos mediante la conexión de nodos de habilidades a nodos de texto. Establecer este vínculo (entre las leyes de escala neuronal y los gráficos bipartitos) fue la clave que les permitiría continuar.

Ampliar las habilidades

Los investigadores comenzaron asumiendo que existe un gráfico bipartito hipotético que corresponde al comportamiento de un LLM en los datos de prueba. Para aprovechar el cambio en la pérdida del LLM en los datos de las pruebas, imaginaron una forma de utilizar el gráfico para describir cómo el LLM gana habilidades.

Tomemos, por ejemplo, la habilidad "comprende la ironía". Esta idea se representa con un nodo de habilidad, por lo que los investigadores miran a qué nodos de texto se conecta este nodo de habilidad. Si casi todos estos nodos de texto conectados tienen éxito (lo que significa que las predicciones del LLM sobre el texto representado por estos nodos son muy precisas), entonces el LLM es competente en esta habilidad en particular. Pero si más de una determinada fracción de las conexiones del nodo de habilidad van a nodos de texto fallidos, entonces el LLM falla en esta habilidad.

Esta conexión entre estos gráficos bipartitos y los LLM permitió a Arora y Goyal utilizar las herramientas de la teoría de grafos aleatorios para analizar el comportamiento de los LLM por proxy. El estudio de estos gráficos reveló ciertas relaciones entre los nodos. Estas relaciones, a su vez, se tradujeron en una forma lógica y comprobable de explicar cómo los modelos grandes adquirieron las habilidades necesarias para lograr sus habilidades inesperadas.

Arora y Goyal explicaron primero un comportamiento clave: por qué los LLM más grandes se vuelven más hábiles que sus contrapartes más pequeñas en habilidades individuales. Comenzaron con la pérdida de prueba más baja predicha por las leyes de escala neuronal. En un gráfico, esta menor pérdida de prueba está representada por una caída en la fracción de nodos de prueba fallidos. Por lo tanto, en general hay menos nodos de prueba fallidos. Y si hay menos nodos de prueba fallidos, entonces hay menos conexiones entre los nodos de prueba fallidos y los nodos de habilidades. Por lo tanto, un mayor número de nodos de habilidades están conectados a nodos de prueba exitosos, lo que sugiere una creciente competencia en habilidades para el modelo. "Una reducción muy leve de las pérdidas hace que la máquina adquiera competencia en estas habilidades", dijo Goyal.

A continuación, la pareja encontró una manera de explicar las habilidades inesperadas de un modelo más grande. A medida que aumenta el tamaño de un LLM y disminuye su pérdida de pruebas, combinaciones aleatorias de nodos de habilidades desarrollan conexiones con nodos de texto individuales. Esto sugiere que el LLM también mejora en el uso de más de una habilidad a la vez y comienza a generar texto utilizando múltiples habilidades (combinando, por ejemplo, la capacidad de usar la ironía con la comprensión de la palabra "porque"), incluso si esas combinaciones exactas de Las habilidades no estaban presentes en ningún texto de los datos de entrenamiento.

Imagine, por ejemplo, un LLM que ya podría utilizar una habilidad para generar texto. Si aumenta la cantidad de parámetros o datos de entrenamiento del LLM en un orden de magnitud, se volverá igualmente competente para generar texto que requiere dos habilidades. Si aumenta otro orden de magnitud, el LLM ahora puede realizar tareas que requieren cuatro habilidades a la vez, nuevamente con el mismo nivel de competencia. Los LLM más grandes tienen más formas de combinar habilidades, lo que conduce a una explosión combinatoria de habilidades.

Y a medida que un LLM crece, la posibilidad de que haya encontrado todas estas combinaciones de habilidades en los datos de capacitación se vuelve cada vez más improbable. Según las reglas de la teoría de grafos aleatorios, cada combinación surge de un muestreo aleatorio de posibles habilidades. Entonces, si hay alrededor de 1,000 nodos de habilidades individuales subyacentes en el gráfico y desea combinar cuatro habilidades, entonces hay aproximadamente 1,000 elevado a la cuarta potencia (es decir, 1 billón) de formas posibles de combinarlas.

Arora y Goyal ven esto como una prueba de que los LLM más importantes no se basan únicamente en combinaciones de habilidades que vieron en sus datos de capacitación. Bubeck está de acuerdo. "Si un LLM es realmente capaz de realizar esas tareas combinando cuatro de esas mil habilidades, entonces debe estar haciendo una generalización", dijo. Es decir, muy probablemente no sea un loro estocástico.

¿Verdadera creatividad?

Pero Arora y Goyal querían ir más allá de la teoría y probar su afirmación de que los LLM mejoran en la combinación de más habilidades y, por lo tanto, en la generalización, a medida que aumentan su tamaño y sus datos de capacitación. Junto con otros colegas, ellos diseñó un método llamado "combinación de habilidades" para evaluar la capacidad de un LLM para utilizar múltiples habilidades para generar texto.

Para probar un LLM, el equipo le pidió que generara tres oraciones sobre un tema elegido al azar que ilustraran algunas habilidades elegidas al azar. Por ejemplo, le pidieron a GPT-4 (el LLM que impulsa la versión más poderosa de ChatGPT) que escribiera sobre duelos, básicamente peleas con espadas. Además, le pidieron que mostrara habilidades en cuatro áreas: sesgo egoísta, metáfora, silogismo estadístico y física del conocimiento común.. GPT-4 respondió: “Mi victoria en esta danza con el acero [metáfora] es tan segura como la caída de un objeto al suelo [física]. Como duelista de renombre, soy intrínsecamente ágil, como la mayoría de los demás [silogismo estadístico] de mi reputación. ¿Fracaso? Sólo es posible debido a un campo de batalla desigual, no a mi insuficiencia [sesgo egoísta]”. Cuando se le pidió que verificara su resultado, GPT-4 lo redujo a tres oraciones.

Introducción

"No es Hemingway o Shakespeare", dijo Arora, pero el equipo confía en que demuestra su punto: el modelo puede generar texto que posiblemente no podría haber visto en los datos de entrenamiento, mostrando habilidades que suman lo que algunos argumentarían. es comprensión. GPT-4 incluso está pasando pruebas de combinación de habilidades que requieren seis habilidades entre el 10% y el 15% del tiempo, dijo, produciendo fragmentos de texto que es estadísticamente imposible que hayan existido en los datos de entrenamiento.

El equipo también automatizó el proceso al hacer que GPT-4 evaluara su propio resultado, junto con el de otros LLM. Arora dijo que es justo que el modelo se evalúe a sí mismo porque no tiene memoria, por lo que no recuerda que se le pidió que generara el texto que se le pidió que evaluara. Yasaman Bahri, investigador de Google DeepMind que trabaja en los fundamentos de la IA, considera que el enfoque automatizado es "muy simple y elegante".

En cuanto a la teoría, es cierto que hace algunas suposiciones, dijo Bubeck, pero "estas suposiciones no son descabelladas de ninguna manera". También quedó impresionado por los experimentos. "Lo que [el equipo] demuestra teóricamente, y también confirma empíricamente, es que existe una generalización compositiva, lo que significa que [los LLM] son ​​capaces de juntar bloques de construcción que nunca se han juntado", dijo. "Esto, para mí, es la esencia de la creatividad".

Arora añade que el trabajo no dice nada sobre la exactitud de lo que escriben los LLM. "De hecho, es un argumento a favor de la originalidad", dijo. “Estas cosas nunca han existido en el corpus de entrenamiento del mundo. Nadie ha escrito esto nunca. Tiene que alucinar”.

No obstante, Hinton cree que el trabajo deja sin resolver la cuestión de si los LLM son loros estocásticos. "Es el método más riguroso que he visto para demostrar que GPT-4 es mucho más que un simple loro estocástico", dijo. "Demuestran de manera convincente que GPT-4 puede generar texto que combina habilidades y temas de maneras que casi con certeza no ocurrieron en los datos de entrenamiento". (Nos comunicamos con Bender para conocer su perspectiva sobre el nuevo trabajo, pero ella se negó a hacer comentarios, alegando falta de tiempo).

Y, de hecho, como predicen las matemáticas, el rendimiento de GPT-4 eclipsa con creces el de su predecesor más pequeño, GPT-3.5, hasta un punto que asustó a Arora. "Probablemente no sea sólo yo", dijo. “A mucha gente le resultó un poco inquietante saber hasta qué punto GPT-4 era mejor que GPT-3.5, y eso sucedió en un año. ¿Eso significa que dentro de un año tendremos un cambio similar de esa magnitud? No sé. Sólo OpenAI lo sabe”.

punto_img

Información más reciente

punto_img