Cómo interpretar la relación entre más de una variable sin morir en el intento. Qué es la Covarianza y cómo se calcula – Estadística Descriptiva Parte 5

 

¿Te suena algo cómo el valor R^2? o ¿el término correlación? Son conceptos que indican si dos variables están relacionadas. Si una depende de la otra. Si quieres conocer en detalle qué significa correlación o R^2 es mejor empezar por el principio: qué es la covarianza y cómo se calcula es fundamental. En este post te lo voy a explicar 😉

Antes de nada te recomiendo que te descargues el ejemplo en Excel que voy a usar para explicarte qué es la Covarianza:

# ¿Cómo interpretar la dispersión entre dos variables?

Si recuerdas, en un artículo anterior te expliqué que la desviación típica es un indicador de de dispersión de una variable. ¿Qué pasa cuando tienes más de una variable? Existe alguna forma de saber cómo se relaciona una con la otra?

¡Exacto! La pregunta es. ¿Cómo mides la dispersión entre dos variables? Es decir, ¿cómo sé cuándo dispersa está una variable respecto a la otra? La respuesta tiene un nombre, y este nombre es la Covarianza. En una frase.

“La Covarianza es una especie de varianza entre dos variables”.

¿Qué indica la Covarianza?

  1. La covarianza positiva >> cuando uno variable crece la otra variable también. Tienen una relación directa.
  2. La covarianza negativa >> cuando una variable crece la otra variable decrece. Tienen una relación Inversa.

Basta de rollos. Con un ejemplo lo verás mejor. He recogido datos de la clasificación final de la temporada 2016 de la liga BBVA (fútbol español).

 

Para empezar voy a trabajar con dos variables.

  1. Número de Goles a Favor marcados en toda la temporada 2016
  2. Número de Partidos Ganados en toda la temporada 2016

Y he decido ver que relación tienen estas dos variables. He calculado la Covarianza:
La covarianza es 114.34. Indica que las dos variables tienen una relación directa. Cuando una crece la otra también.

Con el scatter plot de dos variables puedes ver cómo es la relación entre los Goles a Favor vs los Partidos Ganados es efectivamente directa.

La covarianza se representa con la \sigma_x_y. Significa la covarianza de la variable x con la variable y, que es la misma que la \sigma_y_x.

Los valores 42,44 y 433,63 de la diagonal son las varianzas y se expresa con \sigma^2. Recuerda que la varianza es el cuadrado de la desviación típica.

No hagas mucho caso del valor de la Covarianza. Se ve influido por las unidades. El valor en sí no te dice nada pero si el signo.

Y me dirás, ¿y por qué me explicas qué es la Covarianza? ¡Si casi no sirve de nada! Por dos motivos:

  1. La covarianza es muy importante para entender el concepto de correlación, la famosa R al cuadrado, el análisis de regresión
  2. Porque la covarianza es crucial en análisis de Componentes Principales, que ya te contaré más adelante.

Descubre cómo analizar los datos de tus proyectos con éxito.

Sin perder miles de horas descifrando fórmulas estadísticas incomprensibles.

# Para resumir la covarianza utiliza una matriz

Como ves la covarianza se representa con una matriz. Es la «famosa» matriz de covarianza. Y ahora vas aprender cómo se define la matriz de covarianza (más o menos te lo he dicho):

  • La diagonal corresponde a la varianzas de las variables.
  • Los valores de la covarianza están fuera de la diagonal

La matriz es simétrica. 

# ¿Qué es la Covarianza y cómo se calcula?

Tenía una pregunta que resolverte, “¿qué es la covarianza y cómo se calcula?” Para contestarte requiere un poco de lenguaje difícil y una ecuación. ¡Venga un esfuerzo!

La Covarianza es la media aritmética de los productos de las desviaciones de cada una de las variables respecto a sus medias respectivas.

«Ya empezamos con definiciones raras» De alguna forma está calculando las distancias a la media de los datos de la primera variable y de la segunda variable. Y hace una especie de ponderación, de media entre estas distancias

En lenguaje matemático sería algo así:

Tienes X_1, X_2,...., X_N valores de la variable x. Y tienes Y_1, Y_2,...., Y_N valores de la variable y.

    \[ \sigma_X_Y = \sum_{i=1}^{N}{\frac{(X_i-\overline{X})(Y_i-\overline{Y})}{N}} \]

  • (X_i-\overline{X}) >> Distancia de la primera variable a la media
  • (Y_i-\overline{Y}) >> Distancia de la segunda variable a la media

La media de las distancias a la media de las dos variables se consigue con el sumatorio y dividio entre N:

    \[ \sum_{i=1}^{N}{\frac{(X_i-\overline{X})(Y_i-\overline{Y})}{N}} \]

¿Se ve un poco más la idea? Fíjate como la Covarianza xy es la misma que la yx. La fórmula es simétrica entre variables.

# Cómo interpretar la relación entre más de una variable con el heatmap

Puedes hacer lo mismo con más de dos variables. Por ejemplo puedes añadir una tercera variable al análisis descriptivo: los Goles en Contra.

Mira cómo queda el asunto ahora:

Y los dos gráficos para completar el matrixplot, ¿te acuerdas?

Fíjate que el signo de la covarianza coincide con el tipo de relación entre las variables.

Algunos utilizan el heatmap para representar los valores de la matriz de covarianza. Consiste en poner colorines en las celdas de la matriz en lugar de números.

Como nos importan solo el signo de la covarianza he decidido poner dos colores distintos positivos y negativos:

La interpretación de la covarianza es cualitativa. De dirección de dispersión. De signo. No cuantitativa. El número no te dice nada.

El valor, el número, no tiene interpretación. Depende de las unidades y esto no mola.

Si buscas un indicador que no dependa de las unidades. Este indicador será mucho más útil, porque podrás comparar la relación entre distintas variables.

Este indicador es el famoso R^2 o coeficiente de Pearson o de correlación. ¿Te acuerdas que te lo preguntaba al principio?

… Esto mejor lo dejo para el siguiente post de esta serie. No te lo pierdas 😉

Aquí tienes más artículos sobre la Estadística Descriptiva:

Descubre cómo analizar los datos de tus proyectos con éxito.

Sin perder miles de horas descifrando fórmulas estadísticas incomprensibles.

Sobre el autor

12 comentarios en “Cómo interpretar la relación entre más de una variable sin morir en el intento. Qué es la Covarianza y cómo se calcula – Estadística Descriptiva Parte 5”

  1. Me esta gustando muchos los posts de estadistica descriptiva. Me cuesta encontrar mucho contenido de explicaciones de estasdistica descriptiva para gente que le cuesta mucho las matematicas. Muchas veces lo dificil es hacerlo fácil. Es el caso de la estadistica descriptiva lo dificil es explicarlo facil y te puedo asegurar que estoy asentando muchos conocimientos con tus posts

  2. Orlando Oliva

    Excelente material, te felicito Jordi.
    Me gustaría adquirir el software, pero en el país en que habito, en este momento es difícil realizar operaciones en divisas.
    Saludos.

    1. Hola Orlando! Creo que con open office se puedes realizar. Y sino con RStudio que es gratuito o PSPP. Abrazos!

  3. Hola, muchas gracias por este útil post.
    Mi pregunta es si es posible utilizar una variable como covarianza, y que nos diría esta de nuestras demás variables. O que hipótesis tendriamos si estamos usando una variable como covarianza?

    1. ¡Hola!

      ¿Una variable como covarianza?
      No acabo de etender lo que me preguntas.

      La covarianza es la desviación cruzada entre dos variables cuantitativas.

      Es un indicador. No es una variable 🙂

      ¡Abrazos!

    1. Hola Alex, puedes mirar la igualdad de varianzas con el test de Levene. O también la igualdad de la normalidad con el test Kolgomoroz Smirnov 🙂 Espero que te ayude

Los comentarios están cerrados.

Scroll al inicio