Logotipo de Zephyrnet

Lidiando con el problema energético de la IA

Fecha:

No somos ajenos a la IA, y muchas de las tecnologías que usamos a diario se basan en ella para brindarnos buenas experiencias, desde sistemas de recomendación básicos que guían nuestras compras hasta un reconocimiento facial más complejo en cada imagen que publicamos en línea. Y en los últimos años, hemos visto el aumento del aprendizaje profundo y las redes neuronales, mejorando el rendimiento a un ritmo asombroso. El procesamiento del lenguaje natural no fue una excepción, y hace aproximadamente tres años, los investigadores aplicaron con éxito estos modelos a la traducción automática. Pronto se corrió la voz cuando ambos Google y Microsoft afirmó haber logrado la paridad humana.

¿La captura? Estos modelos requieren datos. Mucho, mucho. También, recursos de computación excepcionalmente grandes, que ocurren en unidades especializadas llamadas GPU, y consumen mucha más energía que las CPU tradicionales. Se estimó que los centros de datos solos componían 1% de la demanda mundial de electricidad en 2017, consumiendo alrededor de 195TWh, según un informe de la Agencia Internacional de Energía. Y aunque el mismo informe predice que la demanda de más computación y el aumento de la carga de trabajo de los centros de datos se contrarrestarán con mejoras de eficiencia en varios componentes de estas unidades, no debemos ignorar la huella energética de las técnicas actuales de aprendizaje profundo.

¿Puede existir una IA responsable?

Huella de carbono de la IA

Por un lado, la IA se está impulsando a ser más eficiente que nunca. Tomar Mente profunda y Huawei, tecnologías pioneras de enfriamiento de centros de datos, o Google, que creó TPU, un dispositivo que permite a las empresas entrenar sus modelos de manera más rápida y eficiente.

Pero la industria también es parte del problema. En un estudio comparativo, OpenAI señaló una tendencia según la cual la cantidad de computación utilizada para las carreras de entrenamiento aumentaba con un 3.5 meses de tiempo de duplicación (para tener una idea de la escala, la Ley de Moore tenía un período de duplicación de 18 meses). Y estos números están comenzando a levantar algunas cejas. El pasado mes de agosto, en ACL 2019, en Florencia, la investigadora Emma Strubell presentó un artículo titulado Consideraciones de política y energía para el aprendizaje profundo en PNL, que fue recibido con un poco de controversia.

En su estudio, presentó los costos de consumo de entrenar diferentes modelos de vanguardia y los compara con, digamos, la huella de un pasajero que viaja de Nueva York a San Francisco en avión, la vida útil promedio de un automóvil, o incluso la vida humana promedio. En particular, Strubell señala el impacto del ajuste masivo de hiperparámetros y la búsqueda de arquitectura, técnicas de exploración que, en su límite, pueden considerarse como un enfoque de fuerza bruta para encontrar el mejor modelo para una tarea específica. Estos valores superan a todos los demás en varios órdenes de magnitud.

Incluso si consideramos que podríamos cambiar a centros alimentados en su mayor parte o en su totalidad por energías renovables, lo que sabemos que no es el caso por ahora, estos números definitivamente nos abren los ojos.

¿Cómo hemos llegado hasta aquí?

La mayoría de las tareas de PNL comenzaron a beneficiarse de las redes neuronales recurrentes clásicas durante la última década. Lo “recurrente” proviene de la forma en que funcionan estos modelos: consumen una palabra a la vez, generan un estado o un resultado requerido para la tarea y lo alimentan nuevamente al modelo para ayudar a generar el siguiente. Se trata de un mecanismo caro que, en comparación con los modelos típicos utilizados en otros campos, puede ser más lento en cuanto al tiempo de entrenamiento, especialmente si permitimos secuencias muy largas.

Luego, en la traducción automática, apareció un nuevo mecanismo: "Whatsapp. " Este nuevo método proporcionó a los investigadores una herramienta para comprender mejor los resultados, al permitirles saber qué palabras fuente estaba mirando un modelo para generar cada una de las palabras objetivo. En particular, Whatsapp no necesitaba consumir la entrada de forma secuencial, por lo que rápidamente se convirtió en una serie de métodos y aplicaciones. No pasó mucho tiempo hasta que la comunidad decidió que era todo lo que necesitaba, y así vimos el surgimiento de Transformers, que en lugar de depender de la recurrencia, se basa en estos mecanismos y lo combina con una red neuronal no recurrente más simple. Estos modelos, aunque eran más grandes, podían lograr mejores resultados en una serie de tareas con un número significativamente reducido de FLOP (operaciones de punto flotante por segundo, una medida común de eficiencia cuando se usan GPU), que, en términos de recursos, era realmente positivo.

Finalmente, los investigadores recurrieron al entrenamiento previo de algunos de los componentes básicos de los modelos de PNL. Hicieron esto reuniendo grandes cantidades de texto escrito que, en lugar de requerir etiquetas u oraciones paralelas en otros idiomas, podría usarse directamente mediante métodos no supervisados. Con solo mirar el texto y la forma natural en que se construyen las oraciones y las palabras aparecen juntas, pudieron entrenar mejores representaciones de palabras. En lugar de resolver una tarea directamente y dejar que aprenda todo lo necesario, estas representaciones podrían conectarse directamente a otros modelos, utilizados para tareas posteriores. Esto es lo que
se llama preentrenamiento del modelo de lenguaje, y con nombres caprichosos como ELMo, BERTI, Ernie2.0 y roberta (y lo menos divertido GPT y XLnet), estos comenzaron a dominar las tareas de modelado y generación de lenguajes, requiriendo grandes cantidades de datos y, en algunos casos, gran cantidad de recursos.

Con estos nuevos modelos, la necesidad de mostrar mejoras rápidamente y reclamar el título de estado del arte, comenzó a aumentar el número de artículos en las últimas dos conferencias donde se logran resultados con una cantidad masiva de recursos.

Al observar la mayoría de los documentos (excluidos los que no informan los recursos utilizados), cada vez es más común ver que las capacitaciones se ejecutan en docenas de GPU durante varios días o incluso semanas. Con GPT, por ejemplo, el modelo requerido ocho GPU para entrenar durante todo un mes. GPT-2, su sucesor, tiene 10 veces más parámetros y fue entrenado con 10 veces más datos. Y esta investigacion, que realizó varios experimentos para lograr una mejora moderada, con un entrenamiento total que asciende a más de tres meses con 512 GPU.

Muchos investigadores están debatiendo la relevancia del estado de la técnica cuando se logra únicamente a través de la fuerza bruta, y están discutiendo las implicaciones de las tablas de clasificación que solo miran una única métrica que se está optimizando. Cada vez es menos claro si estas mejoras se logran debido a los métodos o simplemente a la gran cantidad de potencia y recursos informáticos. Y si no podemos decir de dónde provienen las mejoras, es justo cuestionar el proceso a través del cual estos documentos son seleccionados para las principales conferencias.

Una crisis de reproducibilidad

Incluso dejando de lado los costes energéticos y la huella, estos modelos presentan otros problemas. Los recursos masivos no solo son costosos desde el punto de vista energético. De hecho, son caros. Y, por lo general, solo los grandes grupos de investigación o empresas tienen el capital para realizar este tipo de experimentos.

Existen otras barreras además de la cantidad de recursos, y los investigadores han criticado esta crisis de reproducibilidad, señalando una serie de tendencias preocupantes, entre ellos el hecho de no distinguir entre mejoras provenientes de la arquitectura frente a la puesta a punto. Algunos investigadores han abogado por una mejor información, con la propuesta de informes presupuestarios y listas de verificación de reproducibilidad para aumentar la transparencia. NeurIPS, por ejemplo, comenzó a pedir a los investigadores que enviar sus propias listas de verificación.

Lo que afirman estos grupos es que estos modelos son reutilizables. Que, cuando son de código abierto, como lo hacen muchas empresas ahora, podrían simplemente conectarse para experimentos o tareas posteriores y usarse tal como están, y las empresas más pequeñas no tendrían que reproducirlos de su lado. Pero las cosas nunca son tan simples. Estos modelos no son infalibles y todos estamos familiarizados con las deficiencias de la IA, especialmente cuando se trata de sesgos. Como escribió recientemente mi colega Christine, debemos pensar en los datos que estamos alimentando a nuestros modelos, lo que puede reforzar nuestros prejuicios ".conducen a la discriminación en los procesos de contratación, solicitud de préstamos e incluso en el sistema de justicia penal.”Así que es bastante atrevido suponer que estos modelos nunca necesitarán ser revisados.

Hacia una IA responsable

Cuando hablamos de IA, la mayoría de la gente imagina una utopía o un escenario apocalíptico. Generalmente el último. Pero dado que la inteligencia artificial real aún está lejos de ser descifrada, podríamos tener preocupaciones más urgentes. Como investigadores de IA, debemos impulsar esta discusión y pensar en el impacto de nuestro trabajo en este momento. Necesitamos pensar en la huella de carbono de los modelos que estamos entrenando, especialmente en un momento en el que millones de jóvenes están en huelga y presionan a nuestros gobiernos para que luchen contra el calentamiento global.

Para Strubell, podemos ser más responsables y mejorar la equidad en la investigación de la PNL a través de una serie de esfuerzos, priorizando hardware y algoritmos computacionalmente eficientes, incluso privilegiando mejores técnicas de ajuste de hiperparámetros; y al informar sobre el cumplimiento del presupuesto, una parte esencial para desenredar estas afirmaciones de vanguardia.

Pero hay otras cosas que podemos hacer. Podríamos poner un mayor enfoque en direcciones de investigación donde la eficiencia es naturalmente privilegiada, como campos de selección y limpieza de datos, escenarios de bajos recursos, entre otros. Y tal vez sea hora de que las grandes conferencias tomen la iniciativa para hacer cumplir estos valores, por ejemplo, sopesando la huella de un modelo en las tablas de clasificación.

No existe una solución rápida, pero muchos de estos pequeños cambios pueden ayudar. Y el simple hecho de que estos temas estén recibiendo cada vez más atención es un indicador positivo de que nosotros, como comunidad, queremos avanzar hacia mejores soluciones.

Fuente: https://unbabel.com/blog/artificial-intelligence-energy-problem/

punto_img

Información más reciente

punto_img