Logotipo de Zephyrnet

Las redes neuronales profundas ayudan a explicar los cerebros vivos

Fecha:

En el invierno de 2011, daniel yamins, un investigador postdoctoral en neurociencia computacional en el Instituto de Tecnología de Massachusetts, a veces trabajaba duro hasta pasada la medianoche en su proyecto de visión artificial. Estaba diseñando minuciosamente un sistema que podía reconocer objetos en imágenes, independientemente de las variaciones de tamaño, posición y otras propiedades, algo que los humanos hacen con facilidad. El sistema era una red neuronal profunda, un tipo de dispositivo computacional inspirado en el cableado neurológico de los cerebros vivos.

"Recuerdo muy claramente el momento en que encontramos una red neuronal que realmente resolvió la tarea", dijo. Eran las 2 am, un poco demasiado temprano para despertar a su asesor, james di carlo, u otros colegas, por lo que Yamins emocionado dio un paseo en el aire frío de Cambridge. "Estaba realmente emocionado", dijo.

Habría contado como un logro digno de mención solo en inteligencia artificial, uno de los muchos que convertirían a las redes neuronales en las favoritas de la tecnología de IA en los próximos años. Pero ese no era el objetivo principal de Yamins y sus colegas. Para ellos y para otros neurocientíficos, este fue un momento crucial en el desarrollo de modelos computacionales para las funciones cerebrales.

DiCarlo y Yamins, que ahora dirige su propio laboratorio en la Universidad de Stanford, son parte de un círculo de neurocientíficos que utilizan redes neuronales profundas para dar sentido a la arquitectura del cerebro. En particular, los científicos han luchado por comprender las razones detrás de las especializaciones dentro del cerebro para diversas tareas. Se han preguntado no solo por qué las diferentes partes del cerebro hacen cosas diferentes, sino también por qué las diferencias pueden ser tan específicas: ¿por qué, por ejemplo, el cerebro tiene un área para reconocer objetos en general pero también para rostros en particular? Las redes neuronales profundas están demostrando que tales especializaciones pueden ser la forma más eficiente de resolver problemas.

De manera similar, los investigadores han demostrado que las redes profundas más competentes para clasificar el habla, la música y los aromas simulados tienen arquitecturas que parecen ser paralelas a los sistemas auditivo y olfativo del cerebro. Dichos paralelos también se muestran en redes profundas que pueden mirar una escena 2D e inferir las propiedades subyacentes de los objetos 3D dentro de ella, lo que ayuda a explicar cómo la percepción biológica puede ser rápida e increíblemente rica. Todos estos resultados sugieren que las estructuras de los sistemas neuronales vivos incorporan ciertas soluciones óptimas para las tareas que han asumido.

Estos éxitos son tanto más inesperados dado que los neurocientíficos se han mostrado escépticos durante mucho tiempo sobre las comparaciones entre cerebros y redes neuronales profundas, cuyo funcionamiento puede ser inescrutable. "Honestamente, nadie en mi laboratorio estaba haciendo nada con redes profundas [hasta hace poco]", dijo el neurocientífico del MIT nancy kanwisher. "Ahora, la mayoría de ellos los está capacitando de forma rutinaria".

Visión y redes profundas

Las redes neuronales artificiales se construyen con componentes de interconexión llamados perceptrones, que son modelos digitales simplificados de neuronas biológicas. Las redes tienen al menos dos capas de perceptrones, una para la capa de entrada y otra para la salida. Emparede una o más capas "ocultas" entre la entrada y la salida y obtienes una red neuronal "profunda"; cuanto mayor sea el número de capas ocultas, más profunda será la red.

Las redes profundas se pueden entrenar para seleccionar patrones en los datos, como patrones que representan imágenes de gatos o perros. El entrenamiento implica el uso de un algoritmo para ajustar iterativamente la fuerza de las conexiones entre los perceptrones, de modo que la red aprenda a asociar una entrada determinada (los píxeles de una imagen) con la etiqueta correcta (gato o perro). Una vez entrenado, la red profunda idealmente debería poder clasificar una entrada que no haya visto antes.

En su estructura y función general, las redes profundas aspiran libremente a emular cerebros, en los que las fuerzas ajustadas de las conexiones entre neuronas reflejan asociaciones aprendidas. Los neurocientíficos han señalado a menudo limitaciones importantes en esa comparación: Las neuronas individuales pueden procesar información más extensamente que los perceptrones “tontos”, por ejemplo, y las redes profundas frecuentemente dependen de un tipo de comunicación entre perceptrones llamada retropropagación que no parece ocurrir en el sistema nervioso. Sin embargo, para los neurocientíficos computacionales, las redes profundas a veces parecen ser la mejor opción disponible para modelar partes del cerebro.

Los investigadores que desarrollan modelos computacionales del sistema visual se han visto influenciados por lo que sabemos del sistema visual de los primates, en particular la vía responsable de reconocer personas, lugares y cosas denominada corriente visual ventral. (Una vía en gran parte separada, la corriente visual dorsal, procesa la información para ver el movimiento y las posiciones de las cosas). En los seres humanos, esta vía ventral comienza en los ojos y continúa hasta el núcleo geniculado lateral en el tálamo, una especie de estación de relevo para información sensorial. El núcleo geniculado lateral se conecta a un área llamada V1 en la corteza visual primaria, aguas abajo de la cual se encuentran las áreas V2 y V4, que finalmente conducen a la corteza temporal inferior. (Los cerebros de primates no humanos tienen estructuras homólogas).

El conocimiento neurocientífico clave es que el procesamiento de la información visual es jerárquico y avanza en etapas: las etapas anteriores procesan características de bajo nivel en el campo visual (como bordes, contornos, colores y formas), mientras que las representaciones complejas, como objetos y caras enteras , emergen solo más tarde en la corteza temporal inferior.

Esas ideas guiaron el diseño de la red profunda por Yamins y sus colegas. Su red profunda tenía capas ocultas, algunas de las cuales realizaban una "convolución" que aplicaba el mismo filtro a cada parte de una imagen. Cada convolución capturó diferentes características esenciales de la imagen, como los bordes. Las características más básicas se capturaron en las primeras etapas de la red y las características más complejas en las etapas más profundas, como en el sistema visual de primates. Cuando una red neuronal convolucional (CNN) como esta se entrena para clasificar imágenes, comienza con valores inicializados aleatoriamente para sus filtros y aprende los valores correctos necesarios para la tarea en cuestión.

La CNN de cuatro capas del equipo pudo reconocer ocho categorías de objetos (animales, botes, autos, sillas, caras, frutas, aviones y mesas) representados en 5,760 imágenes 3D fotorrealistas. Los objetos ilustrados variaban mucho en pose, posición y escala. Aun así, la red profunda coincidió con el rendimiento de los humanos, que son extremadamente buenos para reconocer objetos a pesar de la variación.

Sin que Yamins lo supiera, una revolución que se estaba gestando en el mundo de la visión por computadora también validaría de forma independiente el enfoque que él y sus colegas estaban adoptando. Poco después de que terminaron de construir su CNN, otra CNN llamada AlexNet se hizo un nombre en un concurso anual de reconocimiento de imágenes. AlexNet también se basó en una arquitectura de procesamiento jerárquica que capturaba características visuales básicas en sus primeras etapas y características más complejas en etapas superiores; se había entrenado en 1.2 millones de imágenes etiquetadas que presentaban mil categorías de objetos. En el concurso de 2012, AlexNet encaminó todos los demás algoritmos probados: según las métricas de la competencia, la tasa de error de AlexNet fue solo del 15.3%, en comparación con el 26.2% de su competidor más cercano. Con la victoria de AlexNet, las redes profundas se convirtieron en contendientes legítimos en el campo de la inteligencia artificial y el aprendizaje automático.

Yamins y otros miembros del equipo de DiCarlo, sin embargo, buscaban una recompensa neurocientífica. Si su CNN imitaba un sistema visual, se preguntaban, ¿podría predecir las respuestas neuronales a una imagen nueva? Para averiguarlo, primero establecieron cómo la actividad en conjuntos de neuronas artificiales en su CNN correspondía a la actividad en casi 300 sitios en la corriente visual ventral de dos macacos rhesus.

Luego usaron la CNN para predecir cómo responderían esos sitios del cerebro cuando a los monos se les mostraran imágenes que no formaban parte del conjunto de datos de entrenamiento. "No solo obtuvimos buenas predicciones ... sino que también hay una especie de consistencia anatómica", dijo Yamins: Las capas de etapa temprana, intermedia y tardía de la CNN predijeron los comportamientos de las áreas cerebrales temprana, intermedia y de nivel superior, respectivamente. . La forma siguió a la función.

Kanwisher recuerda estar impresionado por el resultado cuando se publicó en 2014. “No dice que las unidades en la red profunda se comporten individualmente como neuronas biofísicamente”, dijo. "No obstante, hay una especificidad sorprendente en la coincidencia funcional".

Especialización en sonidos

Después de que aparecieron los resultados de Yamins y DiCarlo, se inició la búsqueda de otros modelos cerebrales de red profunda mejores, en particular para regiones menos estudiadas que el sistema visual de primates. Por ejemplo, "todavía no tenemos una comprensión muy buena de la corteza auditiva, particularmente en los humanos", dijo. Josh McDermott, neurocientífico del MIT. ¿Podría el aprendizaje profundo ayudar a generar hipótesis sobre cómo el cerebro procesa los sonidos?

Ese es el objetivo de McDermott. Su equipo, que incluía Alejandro Kell y Yamins, comenzaron a diseñar redes profundas para clasificar dos tipos de sonidos: habla y música. Primero, codificaron un modelo de la cóclea, el órgano transductor de sonido en el oído interno, cuyo funcionamiento se comprende con gran detalle, para procesar el audio y clasificar los sonidos en diferentes canales de frecuencia como entradas a una red neuronal convolucional. La CNN fue capacitada tanto para reconocer palabras en clips de audio del habla como para reconocer los géneros de clips musicales mezclados con ruido de fondo. El equipo buscó una arquitectura de red profunda que pudiera realizar estas tareas con precisión sin necesidad de muchos recursos.

Parecían posibles tres conjuntos de arquitecturas. Las dos tareas de la red profunda podrían compartir solo la capa de entrada y luego dividirse en dos redes distintas. En el otro extremo, las tareas podrían compartir la misma red para todo su procesamiento y dividirse solo en la etapa de salida. O podría ser una de las docenas de variantes intermedias, donde algunas etapas de la red se compartían y otras eran distintas.

Como era de esperar, las redes que tenían rutas dedicadas después de la capa de entrada superaron a las redes que compartían rutas por completo. Sin embargo, una red híbrida, una con siete capas comunes después de la etapa de entrada y luego dos redes separadas de cinco capas cada una, funcionó casi tan bien como la red completamente separada. McDermott y sus colegas eligieron la red híbrida como la que mejor funcionaba con la menor cantidad de recursos computacionales.

Cuando enfrentaron esa red híbrida contra humanos en estas tareas, encajó bien. También coincidió con resultados anteriores de varios investigadores que sugirieron que la corteza auditiva no primaria tiene regiones distintas para procesar la música y el habla. Y en una prueba clave publicada en 2018, el modelo predijo la actividad cerebral en sujetos humanos: las capas intermedias del modelo anticiparon las respuestas de la corteza auditiva primaria, y las capas más profundas anticiparon áreas superiores en la corteza auditiva. Estas predicciones fueron sustancialmente mejores que las de los modelos que no se basan en el aprendizaje profundo.

“El objetivo de la ciencia es poder predecir qué van a hacer los sistemas”, dijo McDermott. "Estas redes neuronales artificiales nos acercan a ese objetivo en neurociencia".

Kanwisher, inicialmente escéptica sobre la utilidad del aprendizaje profundo para su propia investigación, se inspiró en los modelos de McDermott. Kanwisher es mejor conocida por su trabajo de mediados a finales de la década de 1990, que muestra que una región de la corteza temporal inferior llamada área facial fusiforme (FFA) está especializada para la identificación de rostros. El FFA es significativamente más activo cuando los sujetos miran imágenes de rostros que cuando miran imágenes de objetos como casas. ¿Por qué el cerebro segrega el procesamiento de rostros del de otros objetos?

Tradicionalmente, responder a estas preguntas de "por qué" ha sido difícil para la neurociencia. Entonces Kanwisher, junto con su posdoctorado Katharina Dobs y otros colegas, recurrieron a redes profundas en busca de ayuda. Usaron un sucesor de visión por computadora de AlexNet, una red neuronal convolucional mucho más profunda llamada VGG, y entrenaron dos redes profundas separadas en tareas específicas: reconocer caras y reconocer objetos.

El equipo descubrió que la red profunda entrenada para reconocer rostros era mala para reconocer objetos y viceversa, lo que sugiere que estas redes representan rostros y objetos de manera diferente. A continuación, el equipo entrenó a una sola red en ambas tareas. Descubrieron que la red se había organizado internamente para segregar el procesamiento de caras y objetos en las últimas etapas de la red. “VGG segrega más espontáneamente en las etapas posteriores”, dijo Kanwisher. "No tiene que segregarse en las etapas anteriores".

Esto concuerda con la forma en que está organizado el sistema visual humano: la ramificación ocurre solo aguas abajo de las etapas anteriores compartidas de la vía visual ventral (el núcleo geniculado lateral y las áreas V1 y V2). “Descubrimos que la especialización funcional del procesamiento de caras y objetos surgió espontáneamente en redes profundas entrenadas en ambas tareas, como lo hace en el cerebro humano”, dijo Dobs, quien ahora se encuentra en la Universidad Justus Liebig en Giessen, Alemania.

“Lo más emocionante para mí es que creo que ahora tenemos una forma de responder preguntas sobre por qué el cerebro es como es”, dijo Kanwisher.

Capas de aromas

Están surgiendo más pruebas de este tipo a partir de investigaciones que abordan la percepción de los olores. El año pasado, el neurocientífico computacional Robert Yang y sus colegas de la Universidad de Columbia diseñaron una red profunda para modelar el sistema olfativo de una mosca de la fruta, que ha sido cartografiada con gran detalle por neurocientíficos.

La primera capa del procesamiento de olores involucra neuronas sensoriales olfativas, cada una de las cuales expresa solo uno de los 50 tipos de receptores de olor. Todas las neuronas sensoriales del mismo tipo, unas 10 en promedio, llegan a un solo grupo de nervios en la siguiente capa de la jerarquía de procesamiento. Debido a que hay alrededor de 50 de estos grupos de nervios en cada lado del cerebro en esta capa, esto establece un mapeo uno a uno entre los tipos de neuronas sensoriales y los grupos de nervios correspondientes. Los grupos de nervios tienen múltiples conexiones aleatorias con las neuronas de la siguiente capa, llamada capa de Kenyon, que tiene alrededor de 2,500 neuronas, cada una de las cuales recibe alrededor de siete entradas. Se cree que la capa de Kenyon está involucrada en representaciones de alto nivel de los olores. Una capa final de unas 20 neuronas proporciona la salida que utiliza la mosca para guiar sus acciones relacionadas con el olor (Yang advierte que nadie sabe si esta salida califica como clasificación de olores).

Para ver si podían diseñar un modelo computacional para imitar este proceso, Yang y sus colegas primero crearon un conjunto de datos para imitar los olores, que no activan las neuronas de la misma manera que las imágenes. Si superpone dos imágenes de gatos y las agrega píxel a píxel, es posible que la imagen resultante no se parezca en nada a un gato. Sin embargo, si mezcla un olor de dos manzanas, es probable que todavía huela a manzana. "Esa es una información crítica que usamos para diseñar nuestra tarea de olfato", dijo Yang.

Construyeron su red profunda con cuatro capas: tres que modelaron capas de procesamiento en la mosca de la fruta y una capa de salida. Cuando Yang y sus colegas entrenaron esta red para clasificar los olores simulados, encontraron que la red convergía en la misma conectividad que se ve en el cerebro de la mosca de la fruta: un mapeo uno a uno de la capa 1 a la capa 2, y luego un escaso y mapeo aleatorio (7 a 1) de la capa 2 a la capa 3.

Esta similitud sugiere que tanto la evolución como la red profunda han alcanzado una solución óptima. Pero Yang sigue siendo cauteloso sobre sus resultados. “Quizás tuvimos suerte aquí, y quizás no se generalice”, dijo.

El siguiente paso en las pruebas será desarrollar redes profundas que puedan predecir la conectividad en el sistema olfativo de algún animal aún no estudiado, lo que luego puede ser confirmado por neurocientíficos. "Eso proporcionará una prueba mucho más estricta de nuestra teoría", dijo Yang, quien se trasladará al MIT en julio de 2021.

No solo cajas negras

Las redes profundas a menudo son ridiculizadas por no poder generalizar a datos que se alejan demasiado del conjunto de datos de entrenamiento. También son infames por ser cajas negras. Es imposible explicar las decisiones de una red profunda examinando los millones o incluso miles de millones de parámetros que la configuran. ¿No es un modelo de red profunda de alguna parte del cerebro simplemente reemplazando una caja negra por otra?

No del todo, en opinión de Yang. “Aún es más fácil de estudiar que el cerebro”, dijo.

El año pasado, el equipo de DiCarlo publicó resultados que asumieron tanto la opacidad de las redes profundas como su supuesta incapacidad para generalizar. Los investigadores utilizaron una versión de AlexNet para modelar la corriente visual ventral de los macacos y descubrieron las correspondencias entre las unidades neuronales artificiales y los sitios neuronales en el área V4 de los monos. Luego, utilizando el modelo computacional, sintetizaron imágenes que predijeron que provocarían niveles anormalmente altos de actividad en las neuronas de los monos. En un experimento, cuando estas imágenes "antinaturales" se mostraron a los monos, elevaron la actividad del 68% de los sitios neuronales más allá de sus niveles habituales; en otro, las imágenes aumentaron la actividad en una neurona mientras la suprimían en las neuronas cercanas. Ambos resultados fueron predichos por el modelo de red neuronal.

Para los investigadores, estos resultados sugieren que las redes profundas se generalizan a los cerebros y no son del todo insondables. “Sin embargo, reconocemos que ... quedan por explorar muchas otras nociones de 'comprensión' para ver si estos modelos agregan valor y cómo”, escribieron.

Las convergencias en estructura y desempeño entre redes profundas y cerebros no significan necesariamente que funcionen de la misma manera; hay formas en las que se puede demostrar que no. Pero puede ser que haya suficientes similitudes para que ambos tipos de sistemas sigan los mismos principios rectores generales.

Limitaciones de los modelos

McDermott ve un valor terapéutico potencial en estos estudios de redes profundas. Hoy en día, cuando las personas pierden la audición, generalmente se debe a cambios en el oído. El sistema auditivo del cerebro tiene que hacer frente a la entrada deficiente. “Entonces, si tuviéramos buenos modelos de lo que está haciendo el resto del sistema auditivo, tendríamos una mejor idea de qué hacer para ayudar a la gente a oír mejor”, dijo McDermott.

Aún así, McDermott es cauteloso acerca de lo que pueden ofrecer las redes profundas. “Hemos estado presionando mucho para tratar de comprender las limitaciones de las redes neuronales como modelos”, dijo.

En una sorprendente demostración de esas limitaciones, el estudiante de posgrado Pluma de Jenelle y otros en el laboratorio de McDermott se centraron en metameros, que son señales de entrada físicamente distintas que producen la misma representación en un sistema. Dos metamers de audio, por ejemplo, tienen diferentes formas de onda pero suenan igual para un humano. Utilizando un modelo de red profunda del sistema auditivo, el equipo diseñó metameros de señales de audio naturales; estos metamers activaron diferentes etapas de la red neuronal de la misma manera que lo hicieron los clips de audio. Si la red neuronal modeló con precisión el sistema auditivo humano, entonces los metamers también deberían sonar igual.

Pero eso no es lo que pasó. Los humanos reconocieron los metamers que producían la misma activación que los clips de audio correspondientes en las primeras etapas de la red neuronal. Sin embargo, esto no fue válido para los metamers con activaciones coincidentes en las etapas más profundas de la red: esos metamers sonaban como un ruido para los humanos. “Entonces, aunque bajo ciertas circunstancias este tipo de modelos hacen un muy buen trabajo replicando el comportamiento humano, hay algo que está muy mal en ellos”, dijo McDermott.

En Stanford, Yamins está explorando formas en las que estos modelos aún no son representativos del cerebro. Por ejemplo, muchos de estos modelos necesitan una gran cantidad de datos etiquetados para el entrenamiento, mientras que nuestros cerebros pueden aprender sin esfuerzo con tan solo un ejemplo. Se están realizando esfuerzos para desarrollar redes profundas sin supervisión que puedan aprender con la misma eficiencia. Las redes profundas también aprenden usando un algoritmo llamado retropropagación, que la mayoría de los neurocientíficos piensan que no puede funcionar en el tejido neural real porque carece de las conexiones adecuadas. “Se ha logrado un gran progreso en términos de reglas de aprendizaje algo más plausibles desde el punto de vista biológico que realmente funcionan”, dijo Yamins.

jose tenenbaum, un neurocientífico cognitivo del MIT, dijo que si bien todos estos modelos de red profunda son "pasos reales de progreso", principalmente realizan tareas de clasificación o categorización. Nuestros cerebros, sin embargo, hacen mucho más que categorizar lo que hay. Nuestro sistema de visión puede dar sentido a la geometría de las superficies y la estructura 3D de una escena, y puede razonar sobre los factores causales subyacentes; por ejemplo, puede inferir en tiempo real que un árbol ha desaparecido solo porque un automóvil ha pasado por delante. de ella.

Para comprender esta capacidad del cerebro, ilker yildirim, anteriormente en el MIT y ahora en la Universidad de Yale, trabajó con Tenenbaum y sus colegas para construir algo llamado modelo de gráficos inversos eficiente. Comienza con parámetros que describen una cara a renderizar sobre un fondo, como su forma, su textura, la dirección de la iluminación, la pose de la cabeza, etc. Un programa de gráficos por computadora llamado modelo generativo crea una escena 3D a partir de los parámetros; luego, después de varias etapas de procesamiento, produce una imagen 2D de esa escena vista desde cierta posición. Usando los datos 3D y 2D del modelo generativo, los investigadores entrenaron una versión modificada de AlexNet para predecir los probables parámetros de una escena 3D a partir de una imagen 2D desconocida. “El sistema aprende a retroceder del efecto a la causa, de la imagen 2D a la escena 3D que la produjo”, dijo Tenenbaum.

El equipo probó su modelo verificando sus predicciones sobre la actividad en la corteza temporal inferior de los macacos rhesus. Presentaron a los macacos 175 imágenes, que mostraban a 25 individuos en siete poses, y registraron las firmas neuronales de los "parches faciales", áreas de procesamiento visual que se especializan en el reconocimiento facial. También mostraron las imágenes a su red de aprendizaje profundo. En la red, la activación de las neuronas artificiales en la primera capa representa la imagen 2D y la activación en la última capa representa los parámetros 3D. “A lo largo del camino, pasa por un montón de transformaciones, que básicamente parecen llevarte de 2D a 3D”, dijo Tenenbaum. Descubrieron que las últimas tres capas de la red se correspondían notablemente bien con las últimas tres capas de la red de procesamiento facial de los macacos.

Esto sugiere que los cerebros utilizan combinaciones de modelos generativos y de reconocimiento no solo para reconocer y caracterizar objetos, sino para inferir las estructuras causales inherentes a las escenas, todo en un instante. Tenenbaum reconoce que su modelo no prueba que el cerebro funcione de esta manera. “Pero abre la puerta para hacer esas preguntas de una manera mecanicista más fina”, dijo. "Debería estar ... motivándonos a recorrerlo".

Nota del editor: Daniel Yamins y James DiCarlo reciben fondos de investigación del Colaboración de Simons en el cerebro global, que forma parte de la Fundación Simons, organización que también financia esta revista editorialmente independiente. Las decisiones de financiación de la Fundación Simons no influyen en ¿CuántoCobertura de. Por favor mira esta página para más información.

Este artículo fue reimpreso en Wired.com.

Fuente: https://www.quantamagazine.org/deep-neural-networks-help-to-explain-living-brains-20201028/

punto_img

Información más reciente

punto_img