Logotipo de Zephyrnet

La motivación detrás del uso de convoluciones gráficas

Fecha:

Graph Neural Networks (GNN) ha sido un área de rápido desarrollo en los últimos años. De acuerdo con la Estado de la IA informe de 2021, las GNN han evolucionado "de un nicho a uno de los campos más candentes de la investigación de la IA".  

La motivación detrás del uso de convoluciones gráficas


 

Este artículo es un extracto del libro Aprendizaje automático con PyTorch y Scikit-Learn es el nuevo libro de la aclamada y superventas Aprendizaje automático de Python serie, completamente actualizada y ampliada para cubrir PyTorch, transformadores, redes neuronales gráficas y mejores prácticas. 

En esta sección, veremos por qué queremos usar circunvoluciones en gráficos y discutiremos qué atributos queremos que tengan esas circunvoluciones.  

En el contexto de las imágenes, podemos pensar en la convolución como el proceso de deslizar un filtro convolucional sobre una imagen, donde, en cada paso, se calcula una suma ponderada entre el filtro y el campo receptivo (la parte de la imagen que está actualmente). encima de). El filtro puede verse como un detector de una característica específica. Este enfoque para la detección de características es adecuado para las imágenes por varias razones, por ejemplo, las siguientes prioridades que podemos colocar en los datos de la imagen: 

  1. Cambio de invariancia: Todavía podemos reconocer una característica en una imagen independientemente de dónde se encuentre (por ejemplo, después de la traducción). Un gato se puede reconocer como un gato ya sea que esté en la parte superior izquierda, inferior derecha o en otra parte de una imagen. 
  2. Localidad: los píxeles cercanos están estrechamente relacionados. 
  3. Jerarquía: Las partes más grandes de una imagen a menudo se pueden dividir en combinaciones de partes más pequeñas asociadas. Un gato tiene cabeza y patas; la cabeza tiene ojos y nariz; los ojos tienen pupilas e iris. 

Otra razón por la que las convoluciones son adecuadas para el procesamiento de imágenes es que la cantidad de parámetros entrenables no depende de la dimensionalidad de la entrada. Podría entrenar una serie de filtros convolucionales de 3×3 en, por ejemplo, una imagen de 256×256 o 9×9. (Sin embargo, si la misma imagen se presenta en diferentes resoluciones, los campos receptivos y, por lo tanto, las características extraídas diferirán. Y para imágenes de mayor resolución, es posible que deseemos elegir núcleos más grandes o agregar capas adicionales para extraer características útiles de manera efectiva. ) 

Al igual que las imágenes, los gráficos también tienen antecedentes naturales que justifican un enfoque convolucional. Ambos tipos de datos, imágenes y gráficos, comparten la localidad previa. Sin embargo, la forma en que definimos la localidad difiere. En las imágenes, el prior está en la localidad en el espacio 2D, mientras que con los gráficos, es la localidad estructural. Intuitivamente, esto significa que es más probable que un nodo que está a un borde de distancia esté relacionado que un nodo a cinco bordes de distancia. Por ejemplo, en un gráfico de citas, es más probable que una publicación citada directamente, que estaría a un borde de distancia, tenga un tema similar que una publicación con varios grados de separación. 

Un previo estricto para los datos del gráfico es invariancia de permutación, lo que significa que el orden de los nodos no afecta la salida. Esto se ilustra en Figura 1 y XNUMX, donde cambiar el orden de los nodos de un gráfico no cambia la estructura del gráfico: 

La motivación detrás del uso de convoluciones gráficas
Figura 1: Diferentes matrices de adyacencia que representan el mismo gráfico

 

Dado que el mismo gráfico se puede representar mediante múltiples matrices de adyacencia, como se ilustra en Figura 1 y XNUMX, en consecuencia, cualquier convolución gráfica debe ser invariante a la permutación. 

Un enfoque convolucional también es deseable para gráficos porque puede funcionar con un conjunto de parámetros fijos para gráficos de diferentes tamaños. Podría decirse que esta propiedad es aún más importante para los gráficos que para las imágenes. Por ejemplo, hay muchos conjuntos de datos de imágenes con una resolución fija donde podría ser posible un enfoque totalmente conectado (por ejemplo, utilizando un perceptrón multicapa). Por el contrario, la mayoría de los conjuntos de datos de gráficos contienen gráficos de diferentes tamaños. Aprende más con Aprendizaje automático con PyTorch y Scikit-Learn por Sebastian Raschka, Yuxi (Hayden) Liu y Vahid Mirjalili.

punto_img

Información más reciente

punto_img