correlación estadística

La importancia de la correlación en estadística. Cómo interpretar relaciones lineales sin volverse loco – Estadística Descriptiva Parte 6

¿Es posible que el tiempo practicando deporte tenga que ver con una vida más longeva?

¿Hay alguna relación entre la cantidad de pan comido al día y el nivel de azúcar medio en sangre?

¿Puedes afirmar que estudiando más horas sacarás mejor notas en el examen de mates?

¿Cómo puedes contestar todas estas preguntas?

Con la famosa correlación.

A ver si consigo convencerte de la importancia de la correlación en estadística.

# Te explico la correlación con un ejemplo

Fíjate que todas las preguntas que has visto relacionan dos variables. Y estas variables son numéricas. Para poder responder estas preguntas puedes utilizar una medida de relación lineal: el coeficiente de correlación o correlación de Pearson.

Para no agobiarte voy a trabajar con un ejemplo muy sencillo. He cojido los datos de la clasificación de la liga española de fútbol del 2016. Puedes ver los datos aquí:

Como siempre el análisis de datos es una ciencia viva y quiere resolver problemas. Contestar preguntas. En este caso te planteo la siguiente:

¿Qué es más importante en un partido de fútbol: marcar goles o que no te marquen?

He decidido coger tres variable: partidos Ganados (ya que son 3 puntos), goles en contra y goles a favor.

Descubre cómo analizar los datos de tus proyectos con éxito.

Sin perder miles de horas descifrando fórmulas estadísticas incomprensibles.

# Para empezar mejor relacionar dos variables

Es mejor empezar por lo más sencillo. Te voy a mostrar la relación que hay entre los goles a favor y los partidos ganados. ¿Cómo se hace?

Pintas un scatter plot 2D o diagrama de dispersión.

De esta manera puedes intuir cómo crece una variable con la otra. O decrece. Recuerda que el signo de la covarianza te indica el sentido de la relación.

¿Qué recta puedes intuir que siga los puntos? Podría ser una recta como la que ves en la figura. Como la lógica dice la relación es creciente. La recta tiene pendiente positiva ¿Cómo sería la Covarianza? Positiva 😉 también.

Fíjate que con un scatter plot 2D tienes mucho ganado. Puedes relacionar las variables dos a dos de manera muy visual.

¿Y si haces lo mismo con la otra variable? Sería mirar la relación entre goles en contra vs partidos ganados

Tienes una relación decreciente. El signo de la Covarianza sería negativo y también el signo de la correlación 😉 ¿Ahora lo verás!

# La relación lineal entre dos variables: la correlación

Como te he dicho al principio la correlación es el indicador para saber si hay relación (LINEAL) entre dos variables numéricas es el coeficiente de correlación o correlación de Pearson.

Y como pasaba con la covarianza la correlación es una matriz.

En el caso de trabajar con dos variables tienes una matriz 2×2. La diagonal de la matriz son unos. Porque la relación es perfecta cuando relacionados una variable consigo misma. No te preocupes si no los has entendido. Ahora te lo explico.

¿De qué te informa la Correlación?

Qué es lo que tienes que saber de la correlación:

  1. La correlación indica el grado de relación lineal entre 2 variables numéricas
  2. No tiene unidades y puede tener valores entre -1 y 1.
  3. El signo positivo indica relación lineal creciente.
  4. El signo negativo indica relación lineal decreciente.
  5. Si la correlación es igual a -1 >> la relación lineal es perfecta. Es decreciente. Los puntos estarían encima de una recta perfecta con pendiente positiva.
  6. Si la correlación es igual a 1 >> la relación lineal es perfecta. Es creciente. Los puntos estarían encima de una recta perfecta con pendiente negativa.
  7. Si la correlación es 0 significa que la variables NO tienen ninguna relación lineal.

He dibujado una recta porque la correlación indica grado de relación LINEAL. Muy importante. ¿Qué significa linealidad?

Para los más matemáticos. La correlación es un ratio entre la dispersión entre las dos variables conjuntamente (covarianza) entre la dispersión de cada variable (desviaciones típicas de cada variable). En palabras es algo así:

correlación Partidos ganados vs Goles a Favor =

Covarianza entre Partidos Ganados y Goles Favor

dividido

Desv. Típica Partidos Gandaos · Desv. Típica Goles a Favor

En notación matemática:

    \[ r_X_Y = \frac{S_X_Y}{S_X·S_Y} \]

 

# La matriz de correlación con 3 variables

Fíjate ahora que la matriz de correlación es 3×3. Ahora estás relacionando parejas de variables dos a dos:

  • Partidos Ganados vs Goles a Favor
  • Partidos Ganados vs Goles en Contra
  • Goles a Favor vs Goles en Contra

En números puedes cuantificar la relación entre las parejas que acabas de ver. Fíjate en la figura:

  • Partidos Ganados vs Goles a Favor >> 0.843
  • Partidos Ganados vs Goles en Contra >> -0.808
  • Goles a Favor vs Goles en Contra >> -0.545

¿Cuál dirías que es la relación lineal más importante?

Según los datos que tienes la relación más importante es Partidos Ganados vs Goles a Favor.

¡Recuerda! Seguro que te has fijado que la diagonal tiene valores de 1. Es decir, que la relación es perfecta. Porque estás relacionando la variable consigo misma. Tienes un scatter plot 2D con los puntos encima de una línea recta.

Descubre cómo analizar los datos de tus proyectos con éxito.

Sin perder miles de horas descifrando fórmulas estadísticas incomprensibles.

# La importancia de la correlación estadística y cómo interpretarla

A partir de 0.8 se puede decir que la relación es ALTA.

Así que según los valores que has visto antes:

  • Partidos Ganados vs Goles a Favor >> 0.843
  • Partidos Ganados vs Goles en Contra >> -0.808
  • Goles a Favor vs Goles en Contra >> -0.545

Los Partidos Ganados tienen una relación BUENA con los Goles a Favor y los Goles en Contra.

Pero tienen una relación más alta con los Goles a Favor.

Con los datos de la temporada 2016 los goles a favor son más importantes que los goles en contra. (si no marcas goles difícilmente vas a ganar partidos).

La correlación es una herramienta estadística muy interesante para la comparación de variables numéricas de manera sencilla. Mi recomendación es que utilices gráficos de dispersión 2D y el coeficiente de correlación.

Cuando quieras relacionar más de 2 o 3 variables numéricas utilizarás un matrixplot y un grafico de correlación. Así podrás intuir las relaciones más importantes por parejas.

 

Foto de Portada: Jesús Dehesa

Ahora sabes una herramienta más para comparar variables numéricas y cuantificar la relación entre dos variables y así poder contestar preguntas cómo las que te planteaba al principio.

¿Ya tienes más claro cómo comparar variables?

2 comentarios en “La importancia de la correlación en estadística. Cómo interpretar relaciones lineales sin volverse loco – Estadística Descriptiva Parte 6”

  1. Francisco Javier V. P.

    Hola Jordi,
    Antes que nada decirte que me parecen una maravilla las entradas de tu blog y tu forma de explicar, te felicito y te recontrafelicito!
    Ahora, mi duda, cuando dices esto:

    Si la correlación es igual a -1 >> la relación lineal es perfecta. Es decreciente. Los puntos estarían encima de una recta perfecta con pendiente positiva.
    Si la correlación es igual a 1 >> la relación lineal es perfecta. Es creciente. Los puntos estarían encima de una recta perfecta con pendiente negativa.

    Quizas quisiste decir:
    Si la correlación es igual a -1 ….. encima de una recta perfecta con pendiente
    Si la correlación es igual a 1 ….. encima de una recta perfecta con pendiente
    ?

    Es que sino, no lo entiendo la verdad.
    Un saludo y gracias!

    1. Lo corrijo:

      Si la correlación es igual a -1 >> la relación lineal es perfecta. Es decreciente. Los puntos estarían encima de una recta perfecta con pendiente NEGATIVA.
      Si la correlación es igual a 1 >> la relación lineal es perfecta. Es creciente. Los puntos estarían encima de una recta perfecta con pendiente POSITIVA.

      Abrazos!

Los comentarios están cerrados.

Scroll al inicio