5.7 C
New York

El informático que crea grandes imágenes a partir de pequeños detalles | Revista Quanta

Fecha:

Cuando era adolescente en la República Checa, Lenka Zdeborová Zdeborová vislumbró su futuro en una novela de Isaac Asimov. Un personaje de la serie “Fundación” de Asimov inventa un método matemático para predecir el camino de una civilización entera promediando el comportamiento aleatorio de miles de millones de individuos. El concepto le produjo una “sensación hipnótica”, recuerda Zdeborová, que volvió cuando más tarde encontró un método que realmente podía aplicar para dar sentido a una enorme cantidad de elementos impredecibles.

“Me di cuenta de que Asimov solo estaba describiendo la física estadística”, dijo, refiriéndose a una disciplina que describe las propiedades generales de la materia utilizando las reglas que se aplican a las moléculas individuales. Como estudiante de maestría en física en la Universidad Carolina de Praga, se deleitaba con su poder predictivo. Luego, mientras cursaba su doctorado, el asesor de Zdeborová le mostró un papel que aplicó las técnicas de la física estadística a la informática teórica: el estudio matemático de la computación y de cómo se comportan los algoritmos. La sensación familiar regresó con fuerza.

“Me quedé completamente fascinada con ese artículo”, dijo Zdeborová. “Siempre había tenido la impresión de que para estudiar informática había que ser un hacker y saber todo sobre Linux. Me di cuenta de que la informática teórica era tan fascinante como la física teórica y me dije: “Bueno, esto es lo que quiero hacer”.

Zdeborová ahora lidera el Laboratorio de Física Estadística de la Computación en el Instituto Federal Suizo de Tecnología de Lausana. Su trabajo se centra actualmente en cómo la física de las transiciones de fase en la materia (como el agua que se congela y se convierte en hielo) puede ayudar a modelar el comportamiento de los algoritmos, especialmente los utilizados en el aprendizaje automático.

¿Cuánto Hablé con Zdeborová sobre las similitudes entre el agua y los algoritmos, el uso de la física para comprender grandes modelos lingüísticos y la búsqueda de objetivos científicos poco razonables. La entrevista ha sido condensada y editada para mayor claridad.

Su trabajo cruza fronteras disciplinarias. ¿Se considera usted físico, informático o matemático?

Yo diría que todas las anteriores. Los problemas que me interesan son principalmente de informática y aprendizaje automático. Pero en informática teórica, todo debería demostrarse formalmente, hasta el último detalle. Con el aprendizaje automático actual, eso ya no sucede: es muy complicado.

Así que, desde una perspectiva de aproximación, me siento como un físico teórico porque, al igual que en física, se pueden intentar explicar los fenómenos con teorías que siguen siendo matemáticamente rigurosas, incluso si no tienen pruebas matemáticas formales.

¿Cómo ayuda la física estadística a comprender la informática?

Lo que se suele enseñar a los estudiantes sobre informática teórica es centrarse en el peor de los casos: instancias de un problema que dificultan demasiado su cálculo. Así es como empezó el campo; ahí es donde tenemos resultados hermosos. Pero hay una diferencia entre el peor de los casos y el caso típico. El aprendizaje automático es un claro ejemplo de ello. Por eso, incluso con datos de dimensiones muy altas (como imágenes médicas con millones de píxeles, donde queremos detectar ciertos marcadores de enfermedades), las instancias relevantes del problema a menudo no son tan difíciles computacionalmente como las peores.

Aquí es donde entra en juego la física estadística, porque históricamente es el campo de la ciencia que se ocupa de estos problemas de alta dimensión. Cuando se quiere describir el comportamiento de muchas moléculas que interactúan a la vez, la física estadística hace surgir las distribuciones de probabilidad. Se trata de objetos matemáticos que, de forma muy similar, aparecen en la informática cuando se describe cómo interactúan los bits de datos cuando se ejecuta un algoritmo determinado. Lo que ocurre es que la física estadística empezó hace un siglo, cuando la informática ni siquiera existía. Afortunadamente, cuando hice mi doctorado en la década de 2000, las disciplinas se estaban dando cuenta de lo mucho que tenían en común.

¿Qué tienen en común?

En ambos casos, extraer el comportamiento macroscópico de un sistema a partir de una descripción microscópica es difícil.

Aunque las leyes de Newton y la mecánica cuántica pueden darte una descripción muy detallada de cómo interactúan las moléculas de agua, ¿cómo podemos deducir que el agua se congelará a cero grados Celsius? ¡Eso no es nada obvio! Incluso en la década de 1940 no se había descubierto. Y todavía hay muchas preguntas sobre las transiciones de fase en el agua, especialmente a alta presión.

De manera similar, en informática existen problemas muy fáciles de definir con algoritmos relativamente simples, en los que no sabemos en qué condiciones funcionarán. En mi tesis doctoral, estudiamos el problema de la coloración de grafos, que puede entender un niño de 5 años. Tienes puntos y algunos están conectados con aristas, lo que crea un grafo. Quieres colorear cada punto con uno de tres colores. Y si dos puntos están conectados, no pueden tener el mismo color. Entonces, ¿puedes colorear el grafo o no?

Para cualquier algoritmo dado que resuelva este problema, se podría entender, incluso codificarlo, y funcionaría. Pero ¿qué sucedería si yo preguntara: "¿Puede decirme cuándo funcionará este algoritmo y cuándo no?". En el caso de la mayoría de los algoritmos, no lo sabemos. Y esa es la situación general en la informática teórica: incluso para un problema tan simple como ese, cuando empezamos a hacer preguntas naturales sobre el comportamiento de los algoritmos, a menudo no tenemos las respuestas.

Si es tan difícil comprender completamente los algoritmos, ¿cómo pueden ayudar las transiciones de fase?

Las transiciones de fase que estudiamos no son literalmente físicas, como el agua que se convierte en hielo, pero son análogas en el sentido de que se produce un cambio brusco y repentino en el comportamiento [del sistema] en determinadas condiciones. En el caso de las redes neuronales, una de las primeras transiciones que se caracterizó fue la de cómo la eficiencia del aprendizaje depende de la cantidad de datos de entrenamiento.

Se toma una red neuronal determinada que aprende a partir de datos de alta dimensión (como imágenes con millones de píxeles) y luego se analiza, en determinadas configuraciones simplificadas, cuántas muestras de entrenamiento se necesitan para que la red aprenda una función con un cierto nivel de precisión. Se obtiene una transición de fase en el sentido mismo del que estamos hablando, un cambio repentino en el rendimiento óptimo de ese sistema. Y estas condiciones nos indican algo sobre lo difícil o fácil que será el aprendizaje y si tiene sentido buscar mejores algoritmos.

¿Este enfoque le ha ayudado a aprender algo nuevo sobre estos sistemas complicados?

En un trabajo reciente, hicimos Encuentra una transición de fase en el desempeño de una versión simplificada de un modelo de lenguaje grande, pero lo que también fue interesante fue la naturaleza de las dos fases a cada lado de la transición.

En física, hay ciertas cantidades en la descripción matemática de una transición de fase que llamamos parámetros de orden. Permiten entender de qué se trata realmente la transición de fase. Esto nos permitió entender que el magnetismo se trata de la alineación de los átomos: en una fase, la alineación general es grande y en la otra fase (no magnética), no hay alineación.

Eso es lo hermoso que apareció en nuestra descripción matemática de los modelos del lenguaje. Había dos parámetros de orden, cada uno con un significado preciso. Uno determinaba si el aprendizaje que se produce depende en gran medida de la posición de las palabras en la oración. El otro parámetro de orden se refería específicamente al significado de cada palabra, la semántica.

Y cuando analizamos la transición de fase, descubrimos que por debajo de un cierto umbral de ejemplos de entrenamiento, solo importaba la posición, no la semántica. Y si teníamos más ejemplos por encima de ese umbral, solo importaba la semántica. Por lo tanto, en cierto sentido, es un nuevo tipo de transición de fase entre el aprendizaje posicional y el semántico que podríamos caracterizar en un modelo de lenguaje simplificado. Para mí, este es un pequeño paso hacia la comprensión propiedades emergentes en modelos de lenguaje grandes, como poder de repente hacer operaciones aritméticas, responder preguntas en griego o cosas así.

¿A dónde crees que podrían llevarte estos pequeños pasos?

La analogía que más me gusta es la de la termodinámica. Cuando tuvimos la máquina de vapor en el siglo XVIII, se originó la Revolución Industrial: los ferrocarriles, las empresas y muchas cosas funcionaban con la máquina de vapor, todo ello sin entender la termodinámica. Eso llegó décadas después, y se inspiró en el deseo de entender la máquina de vapor. A partir de ahí, surgieron muchas otras formas de física.

Probablemente sea un objetivo completamente descabellado, pero alguien tiene que inventar la termodinámica del aprendizaje automático. Me encantaría ser esa persona. Si no soy yo y es otra persona, también sería genial. Pero definitivamente seguiré trabajando para lograr ese objetivo.

Artículos relacionados

punto_img

Artículos Recientes

punto_img