Logotipo de Zephyrnet

Covarianza vs correlación: ¿cuál es la diferencia?

Fecha:

Tabla de contenidos.

En estadística, la covarianza y la correlación son dos nociones matemáticas. Ambas frases se utilizan para describir la relación entre dos variables. Este blog habla sobre covarianza versus correlación: ¿cuál es la diferencia? ¡Empecemos!

Introducción

La covarianza y la correlación son dos conceptos matemáticos utilizados en estadística. Ambos términos se utilizan para describir cómo se relacionan dos variables entre sí. La covarianza es una medida de cómo dos variables cambian juntas. Los términos covarianza versus correlación son muy similares entre sí en teoría de probabilidad y estadística. Ambos términos describen hasta qué punto una variable aleatoria o un conjunto de variables aleatorias pueden desviarse del valor esperado. Pero ¿cuál es la diferencia entre covarianza y correlación? Entendamos esto repasando cada uno de estos términos.

Se calcula como la covarianza de las dos variables dividida por el producto de sus desviaciones estándar. La covarianza puede ser positiva, negativa o cero. Una covarianza positiva significa que las dos variables tienden a aumentar o disminuir juntas. Una covarianza negativa significa que las dos variables tienden a moverse en direcciones opuestas.

Una covarianza cero significa que las dos variables no están relacionadas. La correlación sólo puede ser entre -1 y 1. Una correlación de -1 significa que las dos variables están perfectamente correlacionadas negativamente, lo que significa que a medida que una variable aumenta, la otra disminuye. Una correlación de 1 significa que las dos variables están perfectamente correlacionadas positivamente, lo que significa que a medida que una variable aumenta, la otra también aumenta. Una correlación de 0 significa que las dos variables no están relacionadas.

Contribuido por: Deepak Gupta

Diferencia entre covarianza y correlación

Aspecto Covarianza La correlación
Definición Mide la variabilidad conjunta de dos variables aleatorias. Mide la fuerza y ​​dirección de la relación lineal entre dos variables.
Gama de Colores Puede tomar cualquier valor desde infinito negativo hasta infinito positivo. Varía de -1 a 1.
Unidades Tiene unidades: el producto de las unidades de las dos variables. Adimensional (sin unidades), una medida estandarizada.
Normalización No normalizado: la magnitud depende de las unidades de las variables. Normalizado – independiente de la escala de variables.
Interpretación Difícil interpretar la fortaleza de la relación por falta de normalización. Fácil de interpretar porque es un coeficiente estandarizado (normalmente el de Pearson).r).
Sensibilidad Sensible a la escala y unidades de medida de las variables. No es sensible a la escala y unidades de medida ya que es una medida relativa.

Si está interesado en aprender más sobre Estadística, realizar un curso gratuito en línea le ayudará a comprender los conceptos básicos necesarios para comenzar a desarrollar su carrera. En Gran Academia de Aprendizaje, ofrecemos una Curso Gratis de Estadística para Ciencia de Datos. Este curso en profundidad comienza desde la perspectiva de un principiante y le presenta las diversas facetas de la estadística necesarias para resolver una variedad de problemas de ciencia de datos. Realizar este curso puede ayudarlo a impulsar su carrera en ciencia de datos.

In statistics, es frecuente que nos topemos con estos dos términos conocidos como covarianza y correlación. Los dos términos se utilizan a menudo indistintamente. Estas dos ideas son similares, pero no iguales. Ambos se utilizan para determinar la relación lineal y medir la dependencia entre dos variables aleatorias. ¿Pero son lo mismo? Realmente no. 

A pesar de las similitudes entre estos términos matemáticos, son diferentes entre sí.

La covarianza es cuando dos variables varían entre sí, mientras que la correlación es cuando el cambio en una variable da como resultado el cambio en otra variable.

En este artículo, intentaremos definir los términos matrices de correlación y covarianza, hablaremos sobre covarianza versus correlación y comprenderemos la aplicación de ambos términos.

¿Qué es la covarianza?

La covarianza significa la dirección de la relación lineal entre las dos variables. Por dirección queremos decir si el las variables son directamente proporcionales o inversamente proporcionales entre sí. (Aumentar el valor de una variable podría tener un impacto positivo o negativo en el valor de la otra variable).

Los valores de covarianza pueden ser cualquier número entre los dos infinitos opuestos. Además, es importante mencionar que la covarianza sólo mide cómo dos variables cambian juntas, no la dependencia de una variable de otra.

El valor de la covarianza entre 2 variables se logra tomando la suma del producto de las diferencias de las medias de las variables de la siguiente manera: 

Los límites superior e inferior de la covarianza dependen de las varianzas de las variables involucradas. Estas variaciones, a su vez, pueden variar con la escala de las variables. Incluso un cambio en las unidades de medida puede cambiar la covarianza. Por tanto, la covarianza sólo es útil para encontrar la dirección de la relación entre dos variables y no la magnitud. A continuación se muestran los gráficos que nos ayudan a comprender cómo se vería la covarianza entre dos variables en diferentes direcciones.

covarianza vs correlación

Ejemplo:

X Y
10 40
12 48
14 56
8 32

Paso 1: Calcular la media de X e Y 

Media de X ( μx ) : 10+12+14+8 / 4 = 11 

Media de Y(μy) = 40+48+56+32 = 44

Paso 2: sustituir los valores en la fórmula 

xi –X yi – ȳ 
10-11 = -1  40-44 = - 4
12 - 11 = 1 48 – 44 = 4
14 - 11 = 3 56 - 44 = 12
8-11 = -3 32 - 44 = 12 

Sustituye los valores anteriores en la fórmula. 

Cov(x,y) = (-1) (-4) +(1)(4)+(3)(12)+(-3)(12)

                  ___________________________

                                            4 

 Cov(x,y) = 8 / 2 =

Por lo tanto, la covarianza de los datos anteriores es 4. 

Comprobación rápida - Introducción a la ciencia de datos

¿Qué es la correlación?

El análisis de correlación es un método de evaluación estadística que se utiliza para estudiar la fuerza de una relación entre dos variables continuas medidas numéricamente.

No sólo muestra el tipo de relación (en términos de dirección), sino también qué tan fuerte es la relación. Por lo tanto, podemos decir que los valores de correlación tienen nociones estandarizadas, mientras que los valores de covarianza no están estandarizados y no pueden usarse para comparar qué tan fuerte o débil es la relación porque la magnitud no tiene significado directo. Puede asumir valores de -1 a +1. 

Para determinar si la covarianza de las dos variables es grande o pequeña, debemos evaluarla en relación con las desviaciones estándar de las dos variables. 

Para hacerlo tenemos que normalizar la covarianza dividiéndola por el producto de las desviaciones estándar de las dos variables, proporcionando así una correlación entre las dos variables.

El principal resultado de una correlación se llama coeficiente de correlación. 

covarianza vs correlación

El coeficiente de correlación es una métrica adimensional y su valor oscila entre -1 y +1. 

Cuanto más cerca esté de +1 o -1, más estrechamente relacionadas estarán las dos variables. 

Si no existe ninguna relación entre dos variables, entonces el coeficiente de correlación será ciertamente 0. Sin embargo, si es 0, entonces sólo podemos decir que no existe una relación lineal. Podrían existir otras relaciones funcionales entre las variables.

Cuando el coeficiente de correlación es positivo, un aumento en una variable también aumenta la otra. Cuando el coeficiente de correlación es negativo, los cambios en las dos variables son en direcciones opuestas.

Ejemplo: 

X Y
10 40
12 48
14 56
8 32

Paso 1: Calcular la media de X e Y 

Media de X ( μx ) : 10+12+14+8 / 4 = 11 

Media de Y(μy) = 40+48+56+32/4 = 44

Paso 2: sustituir los valores en la fórmula 

xi –X yi – ȳ 
10-11 = -1  40-44 = - 4
12 - 11 = 1 48 – 44 = 4
14 - 11 = 3 56 - 44 = 12
8-11 = -3 32 - 44 = 12 

Sustituye los valores anteriores en la fórmula. 

Cov(x,y) = (-1) (-4) +(1)(4)+(3)(12)+(-3)(12)

                  ___________________________

                                            4 

Cov(x,y) = 8 / 2 =

Por lo tanto, la covarianza de los datos anteriores es 4. 

Paso 3: Ahora sustituya la respuesta obtenida en la fórmula de correlación  

covarianza vs correlación

Antes de la sustitución tenemos que encontrar la desviación estándar de xey 

Tomemos los datos para X como se menciona en la tabla que son 10,12,14,8

Para encontrar la desviación estándar 

Paso 1: Encuentra la media de x que es x̄

 10+14+12+8 /4 = 11 

Paso 2: Encuentre cada desviación numérica: reste cada puntaje con la media para obtener la desviación media

10-11 = -1 
12 - 11 = 1
14 - 11 = 3
8-11 = -3

Paso 3: Cuadrar la desviación media obtenida 

-1 1
1 1
3 9
-3 9

Paso 4: suma los cuadrados 

1+1+9+9 = 20 

Paso 5: Encuentra la varianza 

Dividir la suma de cuadrados con n-1 que es 4-1 = 3 

20 / 3 = 6.6 

Paso 6: encuentra la raíz cuadrada

Cuadrado de 6.6 = 2.581

Por lo tanto, la desviación estándar de x = 2.581

Encuentre Y usando el mismo método 

La desviación estándar de y = 10.29

Correlación = 4 /(2.581 x10.29)

Correlación = 0.15065

Entonces, ahora puede comprender la diferencia entre covarianza y correlación.

[Contenido incrustado]

Aplicaciones de la covarianza

  1. La covarianza se utiliza en Biología: Genética y Biología Molecular para medir ciertos ADN.
  2. La covarianza se utiliza en la predicción del monto de inversión en diferentes activos en los mercados financieros. 
  3. La covarianza se utiliza ampliamente para cotejar datos obtenidos de estudios astronómicos/oceanográficos para llegar a conclusiones finales.
  4. En Estadística para analizar un conjunto de datos con implicaciones lógicas del componente principal podemos usar la matriz de covarianza
  5. También se utiliza para estudiar señales obtenidas de diversas formas.

Aplicaciones de correlación

  1. Tiempo versus dinero gastado por un cliente en sitios web de comercio electrónico en línea 
  2. Comparación entre los registros anteriores de previsión meteorológica a este año en curso. 
  3. Ampliamente utilizado en el reconocimiento de patrones.
  4. Se analiza el aumento de temperatura durante el verano versus el consumo de agua entre los miembros de la familia 
  5. Se mide la relación entre población y pobreza 

Métodos de cálculo de la correlación.

  1. El método gráfico
  2. El método de dispersión
  3. Tabla de correlación 
  4. Coeficiente de correlación de Karl Pearson 
  5. Coeficiente de desviación concurrente
  6. Coeficiente de correlación de rango de Spearman

Antes de entrar en detalles, primero intentemos comprender la varianza y la desviación estándar.

Comprobación rápida - Curso de Análisis Estadístico

Diferencia

La varianza es la expectativa de la desviación al cuadrado de una variable aleatoria de su media. De manera informal, mide qué tan lejos se encuentra un conjunto de números de su valor promedio.

Desviación Estándar

La desviación estándar es una medida de la cantidad de variación o dispersión de un conjunto de valores. Una desviación estándar baja indica que los valores tienden a estar cerca de la media del conjunto, mientras que una desviación estándar alta indica que los valores se distribuyen en un rango más amplio. Básicamente mide la variabilidad absoluta de una variable aleatoria.

La covarianza y la correlación están relacionadas entre sí, en el sentido de que la covarianza determina el tipo de interacción entre dos variables, mientras que la correlación determina la dirección y la fuerza de la relación entre dos variables.

Diferencias entre covarianza y correlación

Tanto las métricas de Covarianza como de Correlación evalúan dos variables en todo el dominio y no en un solo valor. Las diferencias entre ellos se resumen en forma de tabla para una referencia rápida. Veamos covarianza frente a correlación.

Covarianza La correlación
La covarianza es una medida para indicar en qué medida dos variables aleatorias cambian en conjunto. La correlación es una medida utilizada para representar qué tan fuertemente están relacionadas dos variables aleatorias entre sí.
La covarianza no es más que una medida de correlación. La correlación se refiere a la forma escalada de covarianza.
La covarianza indica la dirección de la relación lineal entre variables. Por otro lado, la correlación mide tanto la fuerza como la dirección de la relación lineal entre dos variables.
La covarianza puede variar entre -∞ y + ∞ Rangos de correlación entre -1 y +1
La covarianza se ve afectada por el cambio de escala. Si todos los valores de una variable se multiplican por una constante y todos los valores de otra variable se multiplican por una constante similar o diferente, entonces la covarianza cambia.  La correlación no se ve influenciada por el cambio de escala.
La covarianza asume las unidades del producto de las unidades de las dos variables. La correlación no tiene dimensiones, es decir, es una medida sin unidades de la relación entre variables.
La covarianza de dos variables dependientes mide cuánto covarían en promedio en cantidad real (es decir, cm, kg, litros). La correlación de dos variables dependientes mide la proporción de cuánto varían en promedio estas variables entre sí.
La covarianza es cero en el caso de variables independientes (si una variable se mueve y la otra no) porque entonces las variables no necesariamente se mueven juntas. Los movimientos independientes no contribuyen a la correlación total. Por tanto, las variables completamente independientes tienen una correlación cero.

Conclusión

La covarianza, denotada como Cov(X, Y), sirve como paso inicial para cuantificar la dirección de una relación entre las variables X e Y. Técnicamente, es el valor esperado del producto de las desviaciones de cada variable de sus respectivas medias. El signo de la covarianza revela explícitamente la dirección de la relación lineal: la covarianza positiva indica que X e Y se mueven en la misma dirección, mientras que la covarianza negativa sugiere una relación inversa. Sin embargo, una de las limitaciones de la covarianza es que su magnitud es ilimitada y puede verse influenciada por la escala de las variables, lo que la hace menos interpretable de forma aislada.

La correlación, en particular el coeficiente de correlación de Pearson (r), refina el concepto de covarianza estandarizándolo. El coeficiente de correlación es una cantidad adimensional que se obtiene dividiendo la covarianza de las dos variables por el producto de sus desviaciones estándar. Esta normalización limita el coeficiente de correlación a un rango entre -1 y 1, inclusive. Un valor de 1 implica una relación lineal positiva perfecta, -1 implica una relación lineal negativa perfecta y 0 indica que no hay relación lineal. El valor absoluto del coeficiente de correlación proporciona una medida de la fuerza de la relación.

Matemáticamente, el coeficiente de correlación de Pearson se expresa como:

Es esencial reconocer que tanto la covarianza como la correlación consideran sólo relaciones lineales y podrían no ser indicativas de asociaciones más complejas. Además, la presencia de una correlación no implica causalidad. La correlación sólo indica que existe una relación, no que los cambios en una variable provoquen cambios en la otra.

En resumen, la covarianza y la correlación son herramientas fundamentales para el análisis estadístico que brindan información sobre cómo se relacionan dos variables, pero es la correlación la que nos brinda una medida escalada e interpretable de la fuerza de esta relación.

Tanto la correlación como la covarianza están muy relacionadas entre sí y, sin embargo, difieren mucho. 

Cuando se trata de elegir entre covarianza o correlación, esta última es la primera opción, ya que no se ve afectada por el cambio de dimensiones, ubicación y escala, y también se puede utilizar para hacer una comparación entre dos pares de variables. Dado que está limitado a un rango de -1 a +1, es útil para realizar comparaciones entre variables en todos los dominios. Sin embargo, una limitación importante es que ambos conceptos miden la única relación lineal.

Preguntas frecuentes sobre Covarinca y Corelation

¿Qué indica una covarianza positiva sobre dos variables?

La covarianza positiva indica que a medida que una variable aumenta, la otra variable tiende a aumentar también. Por el contrario, cuando una variable disminuye, la otra tiende a disminuir. Esto implica una relación directa entre las dos variables.

¿Se puede utilizar la correlación para inferir la causalidad entre dos variables?

No, la correlación por sí sola no puede utilizarse para inferir causalidad. Si bien la correlación mide la fuerza y ​​​​la dirección de una relación entre dos variables, no implica que los cambios en una variable provoquen cambios en la otra. Establecer la causalidad requiere más pruebas y análisis estadísticos, a menudo mediante experimentos controlados o estudios longitudinales.

¿Por qué se prefiere la correlación a la covarianza al comparar relaciones entre diferentes pares de variables?

Se prefiere la correlación porque es una medida adimensional que proporciona una escala estandarizada de -1 a 1, que describe tanto la fuerza como la dirección de la relación lineal entre variables. Esta estandarización permite la comparación entre diferentes pares de variables, independientemente de sus unidades de medida, lo que no es posible con la covarianza.

¿Qué implica un coeficiente de correlación de 0?

Un coeficiente de correlación de 0 implica que no existe una relación lineal entre las dos variables. Sin embargo, es importante señalar que aún podría haber una relación no lineal entre ellos que el coeficiente de correlación no puede detectar.

¿Cómo es probable que los valores atípicos afecten la covarianza y la correlación?

Los valores atípicos pueden afectar significativamente tanto la covarianza como la correlación. Dado que estas medidas se basan en los valores medios de las variables, un valor atípico puede sesgar la media y distorsionar el panorama general de la relación. Un solo valor atípico puede tener un gran efecto en los resultados, llevando a una sobreestimación o subestimación de la verdadera relación.

I¿Es posible tener una covarianza alta pero una correlación baja?

Sí, es posible tener una covarianza alta pero una correlación baja si las variables tienen varianzas altas. Debido a que la correlación normaliza la covarianza mediante las desviaciones estándar de las variables, si esas desviaciones estándar son grandes, la correlación puede seguir siendo baja incluso si la covarianza es alta.

¿Qué significa si dos variables tienen una alta correlación?

Una correlación alta significa que existe una fuerte relación lineal entre las dos variables. Si la correlación es positiva, las variables tienden a moverse juntas; si es negativo, tienden a moverse en direcciones opuestas. Sin embargo, “alta” es un término relativo y el umbral de lo que constituye una correlación alta puede variar según el campo y el contexto.

Si desea obtener más información sobre conceptos estadísticos como covarianza versus correlación, mejore sus habilidades con Great Learning. Programa PG en Data Science y Business Analytics. El curso PGP DSBA está especialmente diseñado para profesionales que trabajan. y le ayuda a avanzar en su carrera. Puede aprender con la ayuda de sesiones de mentores y proyectos prácticos bajo la guía de expertos de la industria.. También tendrá acceso a asistencia profesional y a más de 350 empresas.. También puede consultar Great Learning Academy cursos certificados en línea gratuitos.

OTRAS LECTURAS

  1. ¿Qué es la reducción de dimensionalidad? Una descripción general
  2. Estadísticas inferenciales: descripción general | Introducción a la estadística inferencial
  3. Comprensión de las distribuciones en estadística
  4. Prueba de hipótesis en R: ejemplos de introducción y estudio de caso
punto_img

Información más reciente

punto_img