Logotipo de Zephyrnet

Por qué OpenAI podría estar cubriendo sus apuestas en la IA cuántica

Fecha:

ECONOMÉTRICOS La computación cuántica ha estado a una década de distancia desde hace más de una década, pero según los expertos de la industria puede contener el secreto para frenar el apetito insaciable de la IA.

Cada mes que pasa, aparecen modelos más grandes y con mayor densidad de parámetros, y la escala de las implementaciones de IA se expande a la par. Sólo este año, los hiperescaladores como Meta planean desplegar cientos de miles de aceleradores. Incluso el fundador de OpenAI, Sam Altman, es convencido Necesitaremos exponencialmente más computación si queremos seguir desarrollando la IA.

Por lo tanto, no debería sorprender que con su última contratación, OpenAI se cubrirá sus apuestas en la computación cuántica en caso de que pueda hacerlo. La semana pasada, el gigante de la IA agregó a sus filas a Ben Bartlett, un ex arquitecto de sistemas cuánticos en PsiQuantum.

Nos comunicamos con Open AI para obtener más información sobre lo que Bartlett hará en el creador de tendencias de IA y no hemos recibido respuesta. Sin embargo su bio ofrece algunas pistas, ya que gran parte de su investigación se ha centrado en la intersección entre la física cuántica, el aprendizaje automático y la nanofotónica, y “básicamente consiste en diseñar pequeñas pistas de carreras para fotones que los engañan para que realicen cálculos útiles”.

Entonces, ¿qué podría querer exactamente OpenAI de un físico cuántico? Bueno, hay un par de posibilidades que van desde el uso de la optimización cuántica para optimizar conjuntos de datos de entrenamiento o el uso de unidades de procesamiento cuántico (QPU) para descargar bases de datos de gráficos complejos, hasta el uso de la óptica para escalar más allá de los límites de los paquetes de semiconductores modernos.

Las redes neuronales son solo otro problema de optimización

La computación cuántica tiene el potencial de mejorar drásticamente la eficiencia del entrenamiento de grandes modelos de IA, permitiéndoles obtener respuestas más precisas a partir de modelos con menos parámetros, dice Murray Thom de D-Wave. El registro.

Dado que se rumorea que GPT-4 supera el billón de parámetros, no es difícil ver por qué esto podría resultar atractivo. Sin recurrir a la cuantización y otras estrategias de compresión, los modelos de IA necesitan alrededor de 1 GB de memoria por cada mil millones de parámetros cuando se ejecutan con precisión FP8 o Int8 y con precisiones más altas, sustancialmente más que eso.

Billones de modelos de parámetros se están acercando a los límites de lo que un solo servidor de IA puede acomodar de manera eficiente. Se pueden unir varios servidores para admitir modelos más grandes, pero dejar la caja conlleva una penalización en el rendimiento.

Y eso es hoy. Y si Altman tiene razón, estos modelos serán cada vez más grandes y más frecuentes. Como tal, cualquier tecnología que pueda permitir a OpenAI aumentar la capacidad de sus modelos sin aumentar significativamente el número de parámetros podría darle una ventaja.

"A medida que se entrena un modelo, la cantidad de parámetros que entran en el modelo realmente determina el costo y la complejidad del entrenamiento del modelo", dice Trevor Lanting, vicepresidente de software y algoritmos de D-Wave. El registro.

Para solucionar esto, explica, los desarrolladores a menudo subseleccionan las características que creen que serán las más importantes para entrenar ese modelo en particular, lo que a su vez reduce la cantidad de parámetros necesarios.

Pero en lugar de intentar hacer esto utilizando sistemas convencionales, D-Wave argumenta que los algoritmos de optimización cuántica pueden ser más efectivos para determinar qué características dejar dentro o fuera.

Si no está familiarizado, los problemas de optimización, como los que se ven comúnmente en la búsqueda de rutas o en la logística, han demostrado ser una de las aplicaciones más prometedoras de la computación cuántica hasta el momento.

"En lo que nuestras computadoras cuánticas son realmente buenas es en optimizar cosas donde suceden o no suceden: como a alguien a quien se le asigna un horario particular o se le asigna una entrega particular", dijo Thom. "Si esas decisiones fueran independientes, estaría bien y sería fácil de hacer para una computadora clásica, pero en realidad afectan a los demás recursos del grupo y hay una especie de efecto de red".

En otras palabras, el mundo real es un caos. Puede haber varios vehículos en la carretera, cierres de carreteras, fenómenos meteorológicos, etc. En comparación con las computadoras clásicas, los atributos únicos inherentes a las computadoras cuánticas les permiten explorar estos factores simultáneamente para identificar la mejor ruta.

Esto "es completamente análogo a una red neuronal donde las neuronas se activan o no, y ellas y ellas tienen conexiones sinápticas con las otras neuronas, que excitan o inhiben la activación de las otras neuronas", explica Thom.

Y esto significa que los algoritmos cuánticos se pueden utilizar para optimizar conjuntos de datos de entrenamiento de IA para requisitos específicos, lo que cuando se entrena da como resultado un modelo más ágil y preciso, afirmó Lanting.

Muestreo y descarga cuánticos.

A más largo plazo, D-Wave y otros están buscando formas de implementar QPU más profundamente en el proceso de capacitación.

Uno de estos casos de uso implica aplicar la computación cuántica al muestreo. El muestreo se refiere a cómo los modelos de IA, como los LLM, determinan cuál debe ser la siguiente palabra, o más específicamente el token, en función de una distribución de probabilidades. Es por eso que a menudo se bromea diciendo que los LLM simplemente se completan automáticamente con esteroides.

“El hardware es muy bueno para producir muestras y puedes ajustar la distribución, por lo que puedes ajustar la ponderación de esas muestras. Y lo que estamos explorando es: ¿es esta una buena manera de insertar la computación cuántica de recocido de manera más estricta y directa en la carga de trabajo de capacitación?, explicó Lanting.

La startup francesa de computación cuántica Pasqal también ha estado jugando con la aplicación de la computación cuántica para descargar conjuntos de datos estructurados en gráficos que se encuentran comúnmente en las redes neuronales.

"En el aprendizaje automático no existe una forma realmente sencilla de representar los datos de forma clásica, porque el gráfico es un objeto complejo", explicó el codirector ejecutivo de Pasqal, Loïc Henriet, en una entrevista con El registro. "Se pueden incorporar datos estructurados en gráficos en la dinámica cuántica de forma relativamente natural, lo que da lugar a nuevas formas de tratar esos datos".

Sin embargo, antes de que esto pueda lograrse, los sistemas cuánticos tendrán que hacerse mucho más grandes y más rápidos, explicó Henriet.

"Los grandes conjuntos de datos no son prácticos por el momento", afirmó. “Es por eso que estamos aumentando la cantidad de qubits; la tasa de repetición. Porque con más qubits puedes incorporar más datos”.

Es difícil decir cuánto tiempo tendremos que esperar antes de que las redes neuronales de gráficos cuánticos se vuelvan viables. Pasqal ya tiene un sistema de 10,000 qubits en las obras. Desafortunadamente, las investigaciones sugieren que se necesitarán más de 10,000 qubits de corrección de errores, o alrededor de un millón de qubits físicos, sólo para competir con GPU modernas.

¿Un juego de fotónica de silicio?

Dejando a un lado los casos de uso exóticos de la IA cuántica, hay otras tecnologías que OpenAI podría estar aplicando y en las que Bartlett resulta ser un experto.

En particular, el antiguo empleador de Bartlett, PsiQuantum, ha estado desarrollando sistemas basados ​​en fotónica de silicio. Esto sugiere que su contratación podría estar relacionada con OpenAI. reportaron trabajar en un acelerador de IA personalizado.

Varias nuevas empresas de fotónica de silicio, incluidas Ayar Labs, Lightmatter y Celestial AI, han impulsado la tecnología como un medio para superar los límites del ancho de banda, que se ha convertido en un factor limitante para escalar el rendimiento del aprendizaje automático.

La idea aquí es que se pueden enviar muchos más datos a una distancia mucho más larga con luz que con una señal puramente eléctrica. En muchos de estos diseños, la luz es transportada por guías de ondas grabadas en el silicio, lo que suena muchísimo a “diseñar pequeñas pistas de carreras para fotones”.

Materia ligera cree Esta tecnología permitirá que múltiples aceleradores funcionen como uno solo sin incurrir en una penalización de ancho de banda por los datos que salen del chip. Mientras tanto Celestial ve un oportunidad aumentar enormemente la cantidad de memoria de alto ancho de banda disponible para las GPU al eliminar la necesidad de empaquetar conjuntamente los módulos directamente adyacentes a la matriz del acelerador. Ambas capacidades serían atractivas para una empresa que trabaje con sistemas de inteligencia artificial a gran escala.

Queda por ver si OpenAI finalmente perseguirá la IA cuántica o la fotónica de silicio, pero para una empresa cuyo fundador no es ajeno a realizar inversiones a largo plazo, no sería lo más extraño que Altman haya respaldado. ®

punto_img

Información más reciente

punto_img