Logotipo de Zephyrnet

Escalamiento- Transformadores, Leyes y Desafíos

Fecha:

Este artículo fue publicado como parte del Blogatón de ciencia de datos.

El otro día estaba leyendo “Procesamiento del lenguaje natural con transformadores” escrito por Lewis Tunstall, Leandro von Werra y Thomas Wolf. En él, me encontré con las leyes de escalado y los desafíos asociados con el escalado de modelos de transformadores. Este tema también incluyó extractos del sorprendente ensayo de Richard Sutton titulado "La lección amarga", que sugería que incorporar/depender de un enfoque de conocimiento humano puede complicar las cosas, haciéndolas menos adecuadas para aprovechar los métodos generales que aprovechan la computación. La mención de incorporar el conocimiento humano despertó mi interés por profundizar en el tema. Me recordó a un conversación Lo tuve con un respetable investigador de IA en Twitter a principios de este año.

         

En esta publicación, exploraremos:

  • ¿Cuáles son los posibles inconvenientes de incorporar el conocimiento humano del dominio directamente en los modelos en lugar de aprovechar la computación?

  • ¿Por qué es necesario escalar?

  • ¿Qué son las leyes de escala?

  • ¿Cuáles son los desafíos con los transformadores escalables?

¡Ahora vamos a sumergirnos!

Inconvenientes de codificar el conocimiento humano directamente en el modelo

Los siguientes son los posibles inconvenientes de incorporar el conocimiento humano directamente en el modelo en lugar de aprovechar el cálculo:

1) Aprovechar el conocimiento humano conduce a una ganancia más rápida. Aún así, a largo plazo, los métodos que aprovechan la computación superan:   En 2019, el investigador Richard Sutton publicó un ensayo sorprendente titulado "La lección amarga," en el que afirmó que los métodos generales que aprovechan el cálculo son los más efectivos, y por un amplio margen. Aprovechar el conocimiento humano del dominio puede ofrecer ganancias rápidas a corto plazo. Sin embargo, aprovechar el cálculo puede superar al primero a largo plazo. Además, el enfoque del conocimiento humano a menudo complica los métodos, haciéndolos menos adecuados para aprovechar los métodos generales que aprovechan la computación.

 Sutton se refiere a esto como la "lección amarga" para la comunidad de investigación de IA. Hay señales de que una lección similar está en juego con los transformadores. Al mismo tiempo, muchos de los primeros descendientes de BERT y GPT se centraron en modificar la arquitectura o los objetivos de preentrenamiento. Los modelos de mejor rendimiento como GPT-3 son básicamente versiones ampliadas de los modelos originales sin muchas modificaciones arquitectónicas.

2) Sesgos humanos: Si decidimos codificar el conocimiento humano directamente en el modelo, también podríamos estar codificando nuestros sesgos. Se pueden infligir prejuicios a partir de la experiencia/conocimiento y discreción de una persona. Por lo tanto, la curación de datos es un asunto altamente subjetivo y sensible. Además, incluso toda la canalización de ML también puede estar sesgada. Sin embargo, utilizar un conjunto de datos masivo nos da la apariencia de ser más imparciales que el conocimiento humano cableado directamente.

3). Exploración vs. Explotación: Mientras estudiaba Aprendizaje por Refuerzo, encontré este concepto que resonó conmigo. Aunque estamos hablando de los Transformers específicamente, este concepto también se puede aplicar aquí. Si bien la explotación de nuestro conocimiento existente puede proporcionarnos la apariencia de ganancias rápidas, la exploración mediante el aprovechamiento de grandes conjuntos de datos y la ampliación del modelo podría generar beneficios a largo plazo y ayudarnos a explorar lo inexplorado.

4). ¿Es nuestra comprensión actual de varios dominios absolutamente correcta? : El dilema es, ¿nuestro conocimiento existente es lo suficientemente perfecto como para que podamos confiar únicamente en eso y evitar una mayor exploración? A menudo, incluso los científicos no concluyen y afirman algo como "verdad absoluta". A menudo citan los resultados diciendo algo así como, en base a estas (conjunto limitado de) observaciones. Parece ser […….]. Además, la comunidad científica puede tener puntos de vista opuestos en función de los diferentes resultados de sus experimentos y observaciones limitadas.

¿Por qué es necesario escalar?

La evidencia empírica sugiere que los modelos de lenguaje grande se desempeñan mejor en las tareas posteriores, y las capacidades tales como el aprendizaje de disparos cero y pocos disparos emergen en el rango de parámetros de 10 a 100 B. Sin embargo, la cantidad de parámetros no es el único factor clave que afecta el rendimiento del modelo. El desempeño de los modelos de lenguaje parece obedecer a una relación de ley de potencia con el tamaño del modelo y otros factores. Por lo tanto, la cantidad y los datos de entrenamiento deben escalarse en conjunto para entrenar estos modelos.

En la Fig. 1, podemos ver una línea de tiempo del desarrollo de los modelos más grandes desde el lanzamiento de la arquitectura Transformer original en 2017, lo que ilustra que el tamaño del modelo ha aumentado en más de cuatro órdenes de magnitud en solo unos pocos años.

Recuentos de parámetros del modelo de lenguaje

Fig. 1 Recuentos de parámetros a lo largo del tiempo para arquitecturas de transformadores prominentes

(Fuente: https://bit.ly/3Ovuvdy)

Leyes de escala

Las leyes de escalado permiten cuantificar empíricamente el paradigma "más grande es mejor" para los modelos de lenguaje mediante el estudio de su comportamiento con diferentes presupuestos de cómputo. C, tamaño del conjunto de datos Dy tamaño del modelo N. La idea clave es trazar la dependencia de la pérdida de entropía cruzada L en estos tres factores y ver si surge una relación. Para modelos autorregresivos como los de la familia GPT, las curvas de pérdida resultantes se muestran en la Fig. 2, donde cada curva azul representa la ejecución de entrenamiento de un solo modelo.

leyes de escala

Fig. 2 a) Escala de ley de potencia de pérdida de prueba Vs. Calcular b) Tamaño del conjunto de datos c) Parámetros

(Fuente: https://bit.ly/3Ovuvdy)

Podemos inferir algunas cosas de estas curvas de pérdida:

1. La relación entre rendimiento y escala: Aunque la optimización de hiperparámetros generalmente se enfatiza para mejorar el rendimiento en un conjunto fijo de conjuntos de datos, las leyes de escala sugieren que un camino más productivo hacia mejores modelos es enfocarse en aumentar N, Cy D en tándem.

2. Leyes de potencia suave: La pérdida de prueba L tiene una relación de ley de potencia con cada uno de N, Cy D en varios órdenes de magnitud (las relaciones de ley de potencia son lineales en una escala logarítmica). Estas relaciones de ley de potencia se pueden expresar de la siguiente manera:

donde, : exponente de escala

Los valores típicos se encuentran en el rango de 0.05 a 0.095, y una característica destacada de estas leyes de potencia es que la primera parte de una curva de pérdida se puede extrapolar para predecir la pérdida aproximada si el entrenamiento se lleva a cabo durante mucho más tiempo.

3. Eficiencia de la muestra: Los modelos grandes pueden lograr el mismo rendimiento que los modelos más pequeños con menos pasos de entrenamiento. La curva de pérdida se estanca en algunos pasos de entrenamiento, lo que indica que se obtienen rendimientos decrecientes en el rendimiento en comparación con simplemente ampliar el modelo. La figura 3 ilustra las leyes de escala para modalidades como imágenes, videos, resolución de problemas matemáticos, lenguaje, etc.

escala-leyes-modal

Fig. 3 Escala de ley de potencia de pérdida de prueba Vs. calcular presupuesto para diferentes modalidades

(Fuente: https://bit.ly/3Ovuvdy)

Todavía no está claro si el escalamiento de ley de potencia es una propiedad universal de transferiromás modelos de lenguaje Y dada la restricción de costos, es extremadamente deseable tener una estimación del rendimiento del modelo por adelantado. Actualmente, las leyes de escala se utilizan como una herramienta para extrapolar modelos grandes y costosos sin entrenarlos explícitamente. Sin embargo, escalar no es tan simple como parece. Echemos un vistazo a algunos de los desafíos con el escalado.

Desafíos con el escalado

Mientras que escalar un modelo suena fácil en teoría. Plantea numerosos desafíos en la práctica. Los siguientes son algunos de los desafíos más importantes que es probable que encuentre al escalar modelos de lenguaje:

1. Sesgo: El escalado puede aumentar los problemas relacionados con el sesgo y la toxicidad del modelo, que a menudo surgen de los datos de entrenamiento utilizados para entrenar los modelos. Los modelos lingüísticos extensos pueden reforzar los prejuicios y potencialmente afectar a las personas y las comunidades de manera desproporcionada. Además, estos modelos pueden producir información falsa/engañosa o desinformación total.

2. Infraestructura: El aprovisionamiento y la gestión de la infraestructura que potencialmente abarca cientos o miles de nodos con tantas GPU no son para los pusilánimes. ¿Está disponible el número requerido de nodos? ¿Es la comunicación entre nodos un cuello de botella? Abordar estos problemas requiere un conjunto de habilidades muy diferente al que se encuentra en la mayoría de los equipos de ciencia de datos. Por lo general, involucra a ingenieros especializados que ejecutan experimentos distribuidos a gran escala.

3. Curación de conjuntos de datos: Un modelo es tan bueno como los datos con los que se entrena. Los modelos grandes tienen hambre de datos. Cuando se trata de terabytes de datos de texto, garantizar que el conjunto de datos contenga texto de alta calidad y libre de sesgos se convierte en un desafío supremo. Además, incluso el procesamiento se vuelve difícil. Otro desafío es obtener licencias para los datos de capacitación y la información personal.

4. Costo de capacitación: La mayoría de las empresas no pueden permitirse los equipos y los recursos necesarios para entrenar modelos a las escalas más grandes. Dada la restricción de costos, es extremadamente deseable estimar el rendimiento del modelo por adelantado.

5. Evaluación del modelo: Evaluar el modelo en tareas posteriores requiere tiempo y recursos. Además, el modelo debe ser probado en busca de generaciones sesgadas y tóxicas. Estos pasos toman tiempo y deben llevarse a cabo minuciosamente para mitigar los riesgos de efectos adversos posteriores.

6. Reproducibilidad: AI ya tenía un problema de reproducibilidad. Los investigadores a menudo publican resultados de referencia en lugar del código fuente, lo que se vuelve problemático cuando se cuestiona la minuciosidad de las referencias. Pero la gran cantidad requerida para evaluar grandes modelos de lenguaje exacerba el problema.

7. Explicabilidad: A menudo hemos visto a investigadores afirmar que 'nuevas cantidades de parámetros en nuestro sistema produjeron este nuevo rendimiento en este punto de referencia', ¡pero es difícil explicar exactamente por qué el sistema logra esto!

8. Evaluación comparativa: Incluso con suficientes recursos informáticos, la evaluación comparativa de modelos de lenguaje grandes es tediosa. Algunos expertos sostienen que los puntos de referencia populares estiman mal el desempeño en el mundo real y no tienen en cuenta las implicaciones éticas, técnicas y sociales más amplias. Por ejemplo, uno reciente estudio descubrió que entre el 60 % y el 70 % de las respuestas dadas por los modelos de procesamiento del lenguaje natural estaban codificadas en los conjuntos de entrenamiento de referencia, lo que indica que los modelos solo estaban memorizando las respuestas. Teniendo esto en cuenta, es necesario ampliar las formas de medir el rendimiento de estos sistemas... Cuando los puntos de referencia se modifican un poco, a menudo no se generalizan bien.

9. Despliegue: Servir modelos de lenguaje grandes es un gran desafío. Aunque técnicas como la destilación, la poda y la cuantización ayudan en este sentido. Sin embargo, estas técnicas pueden no ser viables para un modelo de 100 GB de tamaño. Servicios de hospedaje como el API OpenAI o abrazando la cara API de inferencia acelerada ayudar a las empresas que no pueden o no quieren hacer frente a estos desafíos de implementación.

10. Arreglar un error es un asunto costoso: El coste de la formación hace inviable la readaptación. Incluso OpenAI, que recibe fondos masivos de Microsoft, tiene problemas con esto y prefirió no corregir el error cuando GPT-3 Fue implementado. La mayoría de las empresas no pueden permitirse los equipos y los recursos necesarios para capacitar/recapacitar modelos a las escalas más grandes. Entrenar un solo modelo de tamaño GPT-3 puede costar varios millones de dólares, que no es la cantidad de dinero que tienen las empresas.

Las restricciones fomentan la creatividad

Las limitaciones de recursos pueden dar lugar a soluciones novedosas con implicaciones que van más allá del problema para el que se diseñaron originalmente. Por ejemplo, DeepMind publicó un trabajo de investigación para un modelo de lenguaje llamado RETRO, que pretende superar a otros modelos 25 veces su tamaño mediante el uso de técnicas de memoria externa.

Conclusión

Aprovechar el conocimiento humano del dominio puede ofrecer ganancias rápidas a corto plazo. Sin embargo, aprovechar el cálculo puede superar al primero a largo plazo. El enfoque del conocimiento humano a menudo complica los métodos, haciéndolos menos adecuados para aprovechar los métodos generales que aprovechan la computación. Las leyes de escala se emplean para extrapolar modelos grandes y costosos sin entrenarlos explícitamente. Las leyes de escala permiten cuantificar empíricamente el paradigma "más grande es mejor" para los modelos de lenguaje al estudiar su comportamiento con diferentes presupuestos de cómputo, tamaño del conjunto de datos y tamaño del modelo.

Para resumir, en esta publicación, aprendimos sobre:

1. Los posibles inconvenientes de incorporar el conocimiento humano del dominio directamente en los modelos en lugar de aprovechar la computación.

2. Importancia de Escalar los modelos de Transformadores.

3. Leyes de escala

4. Desafíos asociados con el escalado de los modelos.

Los medios que se muestran en este artículo no son propiedad de Analytics Vidhya y se utilizan a discreción del autor.

punto_img

Información más reciente

punto_img