Logotipo de Zephyrnet

The AGI Horizon: cómo un gráfico está dando forma a nuestras expectativas de IA

Fecha:

La reciente publicación de OpenAI, "Let's Verify Step by Step" (https://cdn.openai.com/improving-mathematical-reasoning-with-process-supervision/Lets_Verify_Step_by_Step.pdf) capturó mi atención instantáneamente tras su lanzamiento el 31 de mayo. 2023. Central para este artículo
El contenido es un gráfico en la página siete que sugiere una postulación que invita a la reflexión: que la humanidad puede estar acercándose mucho a la creación de la inteligencia artificial general (AGI).

Preste especial atención a la curva “RM supervisada por el proceso”, que llama la atención para el observador atento por su continuo ascenso. Contrariamente a las expectativas de que eventualmente se estabilizaría, la curva sugiere que al aumentar la potencia computacional,
el porcentaje de problemas matemáticos resueltos correctamente puede seguir aumentando. Con suficiente potencia informática, la IA podría potencialmente resolver desafíos matemáticos a una escala sin precedentes, posiblemente incluso logrando una precisión casi perfecta.

Antes de profundizar en las implicaciones, tracemos el viaje que nos llevó a esta coyuntura y comprendamos su significado.

Las raíces de este desarrollo se publicaron en 2021 en un estudio titulado 'Capacitación de verificadores para resolver problemas matemáticos planteados'. Esta investigación evaluó grandes modelos de lenguaje de IA, incluido un modelo masivo de 175 mil millones de parámetros, utilizando un conjunto de datos de problemas matemáticos.
conocido como GSM8K.

Un puesto de refrigerios de carnaval ganó $50 vendiendo palomitas de maíz cada día. Ganó tres veces más vendiendo algodón de azúcar. Para una actividad de 5 días, el stand tiene que pagar $30 de alquiler y $75 por el costo de los ingredientes. ¿Cuánto ganó el stand durante 5 días después de pagar el
¿El alquiler y el coste de los ingredientes?

Pregunta de ejemplo

A pesar de su tamaño, estos modelos inicialmente mostraron un éxito limitado, resolviendo correctamente sólo alrededor del 30% de los problemas.

Para mejorar su eficacia, los investigadores probaron una técnica innovadora: desarrollaron un modelo "verificador" específicamente para evaluar las soluciones generadas por el modelo primario. Durante las pruebas, este verificador analizó múltiples soluciones candidatas, seleccionando
el que tenga mayor puntuación. Esta estrategia aumentó significativamente el rendimiento, permitiendo que la IA lograra resultados casi a la par con los de un modelo base que era 30 veces más grande.

Un modelo de seis mil millones de parámetros no solo supera a un modelo de 175 mil millones de parámetros, sino que resulta que el modelo verificador escala mucho mejor con más datos que los modelos de lenguaje basados ​​en transformadores.

Inicialmente, el verificador era recompensado por identificar una respuesta correcta, incluso si el razonamiento detrás de ella era erróneo. En ocasiones, este enfoque condujo a conclusiones precisas extraídas de metodologías incorrectas, lo que constituye una preocupación sustancial. Los investigadores pasaron de
de un modelo de recompensa supervisado por resultados a un modelo de recompensa supervisado por procesos para abordar este problema. Este cambio significó que el verificador ahora se centraba en la exactitud del proceso de razonamiento en lugar de sólo en el resultado final.

Como se mencionó anteriormente, este gran resultado está documentado en el notable artículo 'Verifiquemos paso a paso', pero plantea la pregunta de por qué las puntuaciones perfectas en matemáticas podrían conducir a la Inteligencia General Artificial.

Una nueva teoría de la inteligencia

Basándose en la investigación de Mountcastle, la última teoría de la inteligencia postula que miles de columnas corticales del cerebro aprenden y construyen modelos de objetos completos. Se cree que estas columnas son las unidades fundamentales de aprendizaje y procesamiento.
en el cerebro, cada uno de ellos capaz de crear un modelo del mundo tal como lo percibe. Sin embargo, la verdadera complejidad e inteligencia del cerebro surgen de cómo se combinan e integran estos modelos individuales.

Probablemente, sea esta integración la que permita una comprensión más matizada y completa del medio ambiente. Mientras que las columnas corticales individuales procesan aspectos parcialmente diferentes de un objeto o una escena, luego colaboran para formar una percepción unificada,
combinando diversos estímulos y experiencias sensoriales. Este proceso permite no sólo el reconocimiento de objetos sino también la comprensión de contextos, relaciones y conceptos abstractos.

Esta teoría se extiende a la inteligencia artificial, donde la integración de múltiples modelos podría conducir a formas más avanzadas y generalizadas de IA similares a la inteligencia humana. Al imitar la estrategia del cerebro de combinar numerosos modelos, eventualmente especializados, la IA
Los sistemas podrían potencialmente desarrollar una comprensión más holística y matizada del mundo, un paso clave hacia el logro de la AGI.

El desafío radica en replicar efectivamente esta compleja interacción de unidades de procesamiento independientes pero interconectadas. Así como el cerebro integra perfectamente la información proveniente de innumerables columnas corticales, un sistema AGI necesitaría armonizar diversos modelos,
cada uno con su propio conocimiento y perspectiva especializados, en una inteligencia coherente y cohesiva.

Requiere algunos avances en cómo los modelos individuales de IA aprenden y procesan información pero, más importante aún, en cómo integran esos modelos. Es específicamente este proceso de integración el que requiere matemáticas precisas.

Las células especializadas, concretamente las células de cuadrícula y de lugar, trabajan en conjunto para formar una red compleja para la conciencia espacial y la navegación, construyendo el sistema de posicionamiento del cerebro. Este sistema de posicionamiento puede considerarse como un sistema de coordenadas virtuales sobre la realidad,
donde cada movimiento o cambio de dirección se registra y codifica en el modelo de cada columna cortical.

Después de varios siglos, la teoría de Immanuel Kant, tal como la presentó en su "Crítica de la razón pura", parece tener validez. Propuso que tenemos conocimiento "a priori" sobre el espacio y el tiempo, sugiriendo una comprensión innata de estos conceptos independientemente.
de la experiencia.

Estos modelos se integran para formar un único modelo coherente utilizando codificación posicional y empleando suma de vectores, funciones trigonométricas y cálculo diferencial e integral. Este camino de integración es esencial para una forma unificada y completa.
de inteligencia.

Las matemáticas precisas parecen ser una base crucial para la inteligencia humana y podríamos estar en la cúspide de un gran avance. Sin embargo, en medio de este estimulante progreso, hay un inconveniente: intensifica dramáticamente los problemas existentes, proyectando una sombra de dilema.
sobre nuestro nuevo camino.

Inteligencia sostenible: repensar el costo de los avances en IA

Con el enfoque de generar varias respuestas posibles y hacer que un validador elija la correcta, hay un cambio sustancial en la demanda de potencia computacional del entrenamiento, que ocurre una vez, a la inferencia, que ocurre cada vez que el sistema
se utiliza. Después de todo, siempre que se utiliza un sistema de este tipo, se le pide que genere cientos o miles de posibles soluciones.

Incluso si el modelo de lenguaje es hasta 30 veces más pequeño, todavía utiliza más de 33 veces la energía en la inferencia si se le pide que produzca mil soluciones posibles (1000/30 = 33.3). Es decir, sin siquiera considerar el coste del modelo de validador. Este aumento en la computación
La demanda inevitablemente intensificaría las preocupaciones ya apremiantes sobre el costo de la informática y su impacto ambiental.

Por ejemplo, el modelo Bloom de sólo 176 mil millones de parámetros consumió la energía equivalente a alimentar 30 hogares durante un año en capacitación a pesar de su énfasis en la ética, la transparencia y el consentimiento. Emitió 25 toneladas de dióxido de carbono: una huella ambiental
comparable a dar la vuelta al mundo en coche cinco veces.

Además, el costo financiero de ejecutar modelos de IA tan avanzados es asombroso, lo que hace que solo una gama limitada de casos de uso sea económicamente viable. Esta barrera económica podría dar lugar a que unas pocas empresas bien financiadas monopolicen estas tecnologías, potencialmente
comprometer la transparencia y la accesibilidad. La concentración del control en manos de unos pocos exacerbaría los problemas existentes, como el sesgo, ya que estas entidades podrían priorizar sus intereses comerciales sobre consideraciones éticas más amplias. nos enfrentaríamos
el riesgo de un panorama tecnológico donde el sesgo se perpetúa y potencialmente se amplifica.

La exclusividad del acceso a la IA avanzada podría profundizar aún más las desigualdades existentes en el mundo tecnológico, ya que las entidades y los investigadores más pequeños se encuentran cada vez más marginados.

Un futuro tan distópico conduce a una pregunta social crucial: ¿podemos siquiera permitirnos la AGI a ese costo?

Adecuación de la IA: ajuste de tareas para lograr precisión y eficiencia

Los esfuerzos para abordar los riesgos existenciales futuros de la IA son realmente importantes, pero a veces pueden eclipsar los impactos inmediatos y tangibles que las tecnologías de IA ya tienen. Es probable que estos impactos se amplifiquen a medida que nos acerquemos al desarrollo de
Inteligencia general artificial.

El camino hacia la AGI no se trata sólo de avances tecnológicos, sino también de crear herramientas para mitigar estos mismos impactos. Una de esas herramientas, Diffusion Bias Explorer, permite a los usuarios investigar los sesgos inherentes a los modelos de generación de imágenes, particularmente
en el contexto de diversas profesiones.

A medida que continuamos trabajando por una sociedad hambrienta, tonta y centrada en el ser humano, es importante que sigamos haciendo contribuciones que democraticen la IA haciéndola adecuada. Lo estamos logrando mediante el desarrollo de herramientas que simplifican la creación de tareas específicas.
Modelos de IA. Estas herramientas aprovechan modelos de lenguaje grandes previamente entrenados para generar modelos de lenguaje más precisos, energéticamente eficientes y rentables adaptados a tareas específicas.

https://cdn.openai.com/improving-mathematical-reasoning-with-process-supervision/Lets_Verify_Step_by_Step.pdf

punto_img

Información más reciente

punto_img