Logotipo de Zephyrnet

Cómo el razonamiento en cadena de pensamiento ayuda a la computación de las redes neuronales | Revista Quanta

Fecha:

Introducción

Probablemente tu maestro de escuela primaria no te mostró cómo sumar números de 20 dígitos. Pero si sabes sumar números más pequeños, todo lo que necesitas es papel, lápiz y un poco de paciencia. Comience con el lugar de las unidades y trabaje hacia la izquierda paso a paso, y pronto estará acumulando quintillones con facilidad.

Problemas como este son fáciles para los humanos, pero sólo si los abordamos de la manera correcta. "La forma en que los humanos solucionamos estos problemas no es 'mirarlo fijamente y luego escribir la respuesta'", dijo Eran Malach, investigador de aprendizaje automático de la Universidad de Harvard. "De hecho, seguimos los pasos".

Esa idea ha inspirado a los investigadores que estudian los grandes modelos de lenguaje que impulsan los chatbots como ChatGPT. Si bien estos sistemas pueden resolver preguntas que involucran unos pocos pasos de aritmética, a menudo fallan en problemas que involucran muchos pasos, como calcular la suma de dos números grandes. Pero en 2022, un equipo de investigadores de Google mostró que pedir a los modelos de lenguaje que generaran soluciones paso a paso les permitió resolver problemas que antes parecían fuera de su alcance. Su técnica, llamada cadena de pensamiento, pronto se generalizó, incluso cuando los investigadores luchaban por comprender qué la hace funcionar.

Ahora, varios equipos han explorado el poder del razonamiento en cadena de pensamiento utilizando técnicas de una rama arcana de la informática teórica llamada teoría de la complejidad computacional. Es el último capítulo de una línea de investigación que utiliza la teoría de la complejidad para estudiar las capacidades y limitaciones intrínsecas de los modelos de lenguaje. Estos esfuerzos aclaran dónde deberíamos esperar que fallen los modelos y podrían señalar nuevos enfoques para construirlos.

“Ellos eliminan parte de la magia”, dijo Dimitris Papailiopoulos, investigador de aprendizaje automático de la Universidad de Wisconsin, Madison. "Eso es bueno."

Transformadores de entrenamiento

Los grandes modelos de lenguaje se construyen alrededor de estructuras matemáticas llamadas redes neuronales artificiales. Las numerosas "neuronas" dentro de estas redes realizan operaciones matemáticas simples en largas cadenas de números que representan palabras individuales, transmutando cada palabra que pasa a través de la red en otra. Los detalles de esta alquimia matemática dependen de otro conjunto de números llamados parámetros de red, que cuantifican la fuerza de las conexiones entre neuronas.

Para entrenar un modelo de lenguaje para que produzca resultados coherentes, los investigadores generalmente comienzan con una red neuronal cuyos parámetros tienen valores aleatorios y luego la alimentan con una gran cantidad de datos de Internet. Cada vez que el modelo ve un nuevo bloque de texto, intenta predecir cada palabra por turno: adivina la segunda palabra basándose en la primera, la tercera basándose en las dos primeras, y así sucesivamente. Compara cada predicción con el texto real y luego modifica sus parámetros para reducir la diferencia. Cada ajuste solo cambia un poquito las predicciones del modelo, pero de alguna manera su efecto colectivo permite que un modelo responda de manera coherente a entradas que nunca ha visto.

Los investigadores llevan 20 años entrenando redes neuronales para procesar el lenguaje. Pero el trabajo realmente despegó en 2017, cuando investigadores de Google introdujeron un nuevo tipo de red llamado transformador.

“Esto se propuso hace siete años, lo que parece prehistoria”, dijo Pablo Barceló, investigador de aprendizaje automático de la Pontificia Universidad Católica de Chile.

Lo que hizo que los transformadores fueran tan transformadores es que es fácil ampliarlos (aumentar el número de parámetros y la cantidad de datos de entrenamiento) sin que el entrenamiento sea prohibitivamente costoso. Antes de los transformadores, las redes neuronales tenían como máximo unos cientos de millones de parámetros; hoy en día, los modelos más grandes basados ​​en transformadores tienen más de un billón. Gran parte de la mejora en el desempeño del modelo de lenguaje en los últimos cinco años proviene simplemente de la ampliación.

Los transformadores hicieron esto posible mediante el uso de estructuras matemáticas especiales llamadas cabezas de atención, que les brindan una especie de vista aérea del texto que están leyendo. Cuando un transformador lee un nuevo bloque de texto, sus cabezas de atención escanean rápidamente todo e identifican conexiones relevantes entre palabras, tal vez señalando que la cuarta y la octava palabras probablemente sean más útiles para predecir la décima. Luego, las cabezas de atención pasan palabras a una enorme red de neuronas llamada red de retroalimentación, que realiza los pesados ​​cálculos numéricos necesarios para generar las predicciones que le ayudan a aprender.

Los transformadores reales tienen múltiples capas de cabezas de atención separadas por redes de retroalimentación y solo escupen predicciones después de la última capa. Pero en cada capa, los cabezales de atención ya han identificado el contexto más relevante para cada palabra, por lo que el paso de avance computacional intensivo puede ocurrir simultáneamente para cada palabra del texto. Esto acelera el proceso de entrenamiento, haciendo posible entrenar transformadores con conjuntos de datos cada vez más grandes. Aún más importante, permite a los investigadores distribuir la enorme carga computacional del entrenamiento de una red neuronal masiva entre muchos procesadores que trabajan en conjunto.

Para aprovechar al máximo los conjuntos de datos masivos, "hay que hacer que los modelos sean realmente grandes", dijo david chiang, investigador de aprendizaje automático de la Universidad de Notre Dame. "Simplemente no será práctico entrenarlos a menos que esté en paralelo".

Sin embargo, la estructura paralela que hace que sea tan fácil entrenar transformadores no ayuda después del entrenamiento; en ese punto, no hay necesidad de predecir palabras que ya existen. Durante el funcionamiento normal, los transformadores generan una palabra a la vez, uniendo cada salida a la entrada antes de generar la siguiente palabra, pero aún están atrapados en una arquitectura optimizada para el procesamiento paralelo.

A medida que los modelos basados ​​en transformadores crecieron y ciertas tareas continuaron dándoles problemas, algunos investigadores comenzaron a preguntarse si el impulso hacia modelos más paralelizables había tenido un costo. ¿Había alguna manera de comprender teóricamente el comportamiento de los transformadores?

La complejidad de los transformadores

Los estudios teóricos de las redes neuronales enfrentan muchas dificultades, especialmente cuando intentan dar cuenta del entrenamiento. Las redes neuronales utilizan un procedimiento bien conocido para modificar sus parámetros en cada paso del proceso de entrenamiento. Pero puede resultar difícil entender por qué este sencillo procedimiento converge en un buen conjunto de parámetros.

En lugar de considerar lo que sucede durante el entrenamiento, algunos investigadores estudian las capacidades intrínsecas de los transformadores imaginando que es posible ajustar sus parámetros a cualquier valor arbitrario. Esto equivale a tratar un transformador como un tipo especial de computadora programable.

“Tienes algún dispositivo informático y quieres saber: 'Bueno, ¿qué puede hacer? ¿Qué tipo de funciones puede calcular?'”, dijo Chiang.

Éstas son las preguntas centrales en el estudio formal de la computación. El campo se remonta a 1936, cuando Alan Turing imaginó por primera vez un dispositivo fantasioso, ahora llamada máquina de Turing, que podía realizar cualquier cálculo leyendo y escribiendo símbolos en una cinta infinita. Los teóricos de la complejidad computacional se basarían más tarde en el trabajo de Turing al demostrar que los problemas computacionales se dividen naturalmente en diferentes categorías. clases de complejidad definido por los recursos necesarios para resolverlos.

En 2019, Barceló y otros dos investigadores demostrado que una versión idealizada de un transformador con un número fijo de parámetros podría ser tan poderosa como una máquina de Turing. Si configura un transformador para alimentar repetidamente su salida como entrada y establece los parámetros en los valores apropiados para el problema específico que desea resolver, eventualmente arrojará la respuesta correcta.

Ese resultado fue un punto de partida, pero se basó en algunas suposiciones poco realistas que probablemente sobreestimarían la potencia de los transformadores. En los años posteriores, los investigadores han trabajado para desarrollar marcos teóricos más realistas.

Uno de esos esfuerzos comenzó en 2021, cuando Guillermo Merrill, ahora estudiante de posgrado en la Universidad de Nueva York, estaba terminando una beca de dos años en el Instituto Allen de Inteligencia Artificial en Seattle. Mientras estuvo allí, había analizado otros tipos de redes neuronales utilizando técnicas que parecían no encajar bien con la arquitectura paralela de los transformadores. Poco antes de partir, entabló una conversación con el investigador del Instituto Allen para la IA. Sabharwal Ashish, que había estudiado la teoría de la complejidad antes de dedicarse a la investigación de la IA. Comenzaron a sospechar que la teoría de la complejidad podría ayudarles a comprender los límites de los transformadores.

“Simplemente parecía un modelo simple; debe haber algunas limitaciones que uno pueda concretar”, dijo Sabharwal.

La pareja analizó transformadores utilizando una rama de la teoría de la complejidad computacional, llamada complejidad de circuito, que a menudo se usa para estudiar la computación en paralelo y tenía recientemente aplicado hasta versiones simplificadas de transformadores. Durante el año siguiente, refinaron varios de los supuestos poco realistas del trabajo anterior. Para estudiar cómo la estructura paralela de los transformadores podría limitar sus capacidades, la pareja consideró el caso en el que los transformadores no realimentan su salida a su entrada; en cambio, su primera salida tendría que ser la respuesta final. Ellos demostrado que los transformadores en este marco teórico no podrían resolver ningún problema computacional que se encuentre fuera de una clase de complejidad específica. Y se cree que muchos problemas matemáticos, incluidos los relativamente simples como la resolución de ecuaciones lineales, quedan fuera de esta clase.

Básicamente, demostraron que el paralelismo tenía un costo, al menos cuando los transformadores tenían que dar una respuesta de inmediato. "Los transformadores son bastante débiles si la forma en que los usas es dar una entrada y esperar una respuesta inmediata", dijo Merrill.

Experimentos mentales

Los resultados de Merrill y Sabharwal plantearon una pregunta natural: ¿cuánto más potentes se vuelven los transformadores cuando se les permite reciclar sus productos? Barceló y sus coautores habían estudiado este caso en su análisis de 2019 sobre transformadores idealizados, pero con supuestos más realistas la pregunta permaneció abierta. Y en los años transcurridos, los investigadores descubrieron indicaciones de cadenas de pensamiento, lo que dio a la pregunta una nueva relevancia.

Merrill y Sabharwal sabían que su enfoque puramente matemático no podía capturar todos los aspectos del razonamiento en cadena de pensamiento en modelos de lenguaje reales, donde la redacción del mensaje puede ser muy importante. Pero no importa cómo esté redactado un mensaje, siempre que haga que un modelo de lenguaje genere soluciones paso a paso, el modelo puede, en principio, reutilizar los resultados de los pasos intermedios en pasadas posteriores a través del transformador. Esto podría proporcionar una manera de evadir los límites del cálculo paralelo.

Mientras tanto, un equipo de la Universidad de Pekín había estado pensando en líneas similares y sus resultados preliminares fueron positivos. En un artículo de mayo de 2023, identificaron algunos problemas matemáticos que deberían ser imposibles para los transformadores ordinarios en el marco de Merrill y Sabharwal, y mostró que los pasos intermedios permitieron a los transformadores resolver estos problemas.

En octubre, Merrill y Sabharwal continuaron su trabajo anterior con un estudio teórico detallado del poder computacional de la cadena de pensamiento. Cuantificaron cómo esa potencia computacional adicional depende del número de pasos intermedios que un transformador puede usar antes de tener que dar una respuesta final. En general, los investigadores esperan que el número apropiado de pasos intermedios para resolver cualquier problema dependa del tamaño de la entrada al problema. Por ejemplo, la estrategia más sencilla para sumar dos números de 20 dígitos requiere el doble de pasos de suma intermedios que el mismo método para sumar dos números de 10 dígitos.

Ejemplos como este sugieren que los transformadores no ganarían mucho usando sólo unos pocos pasos intermedios. De hecho, Merrill y Sabharwal demostraron que la cadena de pensamiento sólo comienza a ayudar realmente cuando el número de pasos intermedios crece en proporción al tamaño de la entrada, y muchos problemas requieren que el número de pasos intermedios crezca aún más.

La minuciosidad del resultado impresionó a los investigadores. "Realmente precisaron esto", dijo Daniel Hsu, investigador de aprendizaje automático de la Universidad de Columbia.

El trabajo reciente de Merrill y Sabharwal indica que la cadena de pensamiento no es una panacea; en principio, puede ayudar a los transformadores a resolver problemas más difíciles, pero sólo a costa de un gran esfuerzo computacional.

"Estamos interesados ​​en diferentes formas de sortear las limitaciones de los transformadores en un solo paso", dijo Merrill. "La cadena de pensamiento es una forma, pero este artículo muestra que puede que no sea la más económica".

De vuelta a la realidad

Aún así, los investigadores advierten que este tipo de análisis teórico sólo puede revelar mucho sobre los modelos de lenguaje reales. Los resultados positivos (pruebas de que los transformadores pueden, en principio, resolver ciertos problemas) no implican que un modelo de lenguaje realmente aprenda esas soluciones durante el entrenamiento.

E incluso los resultados que abordan las limitaciones de los transformadores vienen con salvedades: indican que ningún transformador puede resolver ciertos problemas perfectamente en todos los casos. Por supuesto, ese es un listón bastante alto. "Puede haber casos especiales del problema que se podrían manejar perfectamente", dijo Hsu.

A pesar de estas advertencias, el nuevo trabajo ofrece una plantilla para analizar diferentes tipos de arquitecturas de redes neuronales que eventualmente podrían reemplazar a los transformadores. Si un análisis de la teoría de la complejidad sugiere que ciertos tipos de redes son más poderosas que otras, eso sería evidencia de que a esas redes también les podría ir mejor en el mundo real.

Chiang también destacó que la investigación sobre las limitaciones de los transformadores es tanto más valiosa cuanto que los modelos de lenguaje se utilizan cada vez más en una amplia gama de aplicaciones del mundo real, lo que facilita la sobreestimación de sus capacidades.

"En realidad, hay muchas cosas que no hacen tan bien y debemos ser muy, muy conscientes de cuáles son las limitaciones", dijo Chiang. "Por eso este tipo de trabajo es realmente importante".

punto_img

Información más reciente

punto_img