estadistica descriptiva

¿Cómo tomar el control de tus datos utilizando el resumen numérico? – Estadística Descriptiva parte 4

estadistica descriptiva

¿Recuerdas qué es un histograma? ¿O un boxplot? ¿O cuáles son los 10 mejores gráficos? A parte de con gráficos, puedes resumir los datos con números. En este post te voy a mostrar cómo hacerlo 😉  

Estos son los posts anteriores de la serie [1] , [2] y [3].

# El complemento perfecto para describir los datos es el resumen numérico

En la serie de estadística descriptiva te he hablado de gráficos. Cuáles son los mejores y en qué situaciones pueden ser útiles.

En este post quiero añadir un aspecto muy importante de la estadística descriptiva. El resumen numérico. Los conceptos están ligados al histograma y al boxplot. Si lees estos posts vas a jugar con ventaja.

¿Pero qué es exactamente el resumen numérico?

Pues fácil, son unos números (parámetros) que resumen dos características de la distribución de los datos.

¿Quieres conocer las dos características más importantes de una distribución?

Para ayudarte un poco, usaré un ejemplo de datos. Un conjunto de 249 personas en que se han recogido los datos del sexo y del peso. Puedes descargarte el ejemplo aquí.

# Los dos atributos de la distribución: el valor central y la dispersión

Ya te hablé en algún post sobre el valor central y la dispersión de los datos.

En un histograma puedes intuir más o menos dónde está el centro a ojo. Y más o menos saber la dispersión que tienen los datos de la media. En esta imagen lo puedes ver:

Ahora ya tienes la idea intuitiva de centralidad y dispersión. ¿Pero qué tal si vas un paso más allá? ¿Qué tal si cuantificas (le pones un número) a la dispersión y al valor central?

Esto es precisamente lo que vas a aprender en este post.

# ¿Cómo puedes medir el centro de la distribución?

Hay dos manera de calcular el valor central:

  1. Con la media a partir del valor de los datos
  2. Con la mediana a partir de las posiciones de los datos
  • La media:

Un poquito de notación te servirá… X_1, X_2, …. X_n son los valores de los pesos de 249 personas.

Tenemos X_1, X_2,...., X_2_4_9

La media es la suma de los valores dividido por el número de observaciones n.

Si te gusta la física también puedes entender la media como el centro de gravedad de la distribución. O el punto de equilibrio.

    \[ \frac{X_1+X_2+...+X_{249}}{249} \]

Matemáticamente se puede expresar en forma de sumatorio:

    \[ \overline{X} = \frac{\sum_{i=1}^{n}{X_i}}{n} \]

 

  • La mediana

La mediana la calculas a partir de la posición de los datos. Ordenas los datos de menor a mayor y buscas el valor que está en medio. Este valor es la mediana. ¿Fácil, verdad?.

Hay dos situaciones:

  1. Tienes un número impar de observaciones. La mediana es el valor central.
  2. Tienes un número par de observaciones. La mediana es el valor medio de los valores centrales.

 

En el ejemplo que te decía he calculado la media y la mediana con Excel:

Media: 66.21 kg

Mediana: 67.14 kg

Ya sabes los dos valores centrales de un conjunto de datos.

¿Cuándo es mejor uno u otro?

  1. La media es sensible a valores atípicos o extremos que pueden desvirtuar el cálculo. Sobre todo cuando tienes poquitos datos.
  2. La mediana es sensible a distribuciones sesgadas, donde hay valores que no aparecen en todo el rango de datos.
  3. Una recomendación: para histogramas en forma de montaña (simétricos) utiliza la media.
  4. En otros casos utiliza la mediana.

Hay que entender las limitaciones de cada opción.

# ¿Cómo puedes medir la dispersión de la distribución?

La dispersión se puede medir de dos formas:

  1. Con la desviación típica se mide la dispersión de los datos desde la media
  2. Con el rango intercuartílico a partir de las posiciones de los datos como haces con la mediana
  • La desviación típica

Una forma intuitiva de verla es como la distancia media entre los datos y la media. Te dice «cuanto de verdadera» es la media con los datos que tienes.

Pero utilizas la distancia al cuadrado entre el dato X_i y la media \overline{X}. Es decir, (X_i-\overline{X})^2.

La distancia cuadrática media es la varianza. Tiene la fórmula:

    \[ S^2 = \frac{\sum_{i=1}^{n}{(X_i-\overline{X})^2}}{n-1} \]

La varianza vale 399.82 kg^2. Fíjate que no tiene sentido real. 399.82 Kg^2 es un valor super alto. Se utiliza la raiz cuadrada para obtener las unidades en un sentido real. Y esto es precisamente la desviación estándar o típica.

    \[ S = \sqrt{\frac{\sum_{i=1}^{n}{(X_i-\overline{X})^2}}{n-1}} \]

Nota: Se utiliza n-1 en lugar de n en el denominador por motivos técnicos pero quédate con la idea que es una media.

 

El valor de la desviación típica del ejemplo es:

Desviación típica = 20.00 kg

  • El rango intercuartílico:

Se trata de dividir los datos ordenados de menor a mayor en 4 grupos iguales y observar la distancia que separa los grupos extremos.

Te pongo una receta que he sacado de este libro:

En este caso no utilizas nada de fórmulas. Sólo hace falta ordenar y calcular los cuartiles Q3 y Q1.

En el ejemplo, el rango intercuartílico es de 27.32 kg

 

Aquí tienes el resumen numérico del ejemplo:

Valor central

  • Media: 66.21 kg
  • Mediana: 67.14 kg

Dispersión

  • Desviación típica = 20.00 kg
  • Rango intercuartílico = 27.32 kg

# Una regla muy interesante

La desviación típica y la media son super útiles cuando tienes histogramas en forma de montaña. Bastante simétricos. ¿Te suena la distribución normal? Son histogramas que imitan la campana de Gauss.

Normalmente en mediciones reales tenemos este tipo de histogramas. De aquí su nombre.

Pues existe una regla muy muy interesante para este tipo de distribuciones “normales” basada en la experiencia 😉

Puede ser útil saber cuantas desviaciones típicas dista un punto de la media. Es aquí la idea de la estandarización. Usando esta transformación sabrás cuántas desviaciones típicas dista un punto de la media.

Esta es la fórmula de la estandarización:

    \[ Z_i = \frac{X_i-\overline{X}}{S} \]

Por ejemplo, una persona que pesa 92 kg, ¿cuánto distará de la media? Puedes utilizar la estandarización. Entonces el valor es:

    \[ \frac{92-66.21}{20} = 1.29 \]

Una persona que pesa 92 kg está 1.29 desviaciones típicas de la media.

Relacionado con lo anterior, puedes utilizar la siguiente regla basada en la experiencia.

 

GRÁBATE ESTA REGLA EN LA CABEZA…Durante mucho tiempo se ha visto que se cumple esta regla. Y te aseguro que es super útil:

En un histograma en forma de montaña, es decir, simétrico, se cumple:

  • El 68% de los datos se encuentran a 1 desviación típica de la media
  • El 95% está a menos de 2 desviaciones típicas de la media

Fuente: wikipedia

# Un resumen …

  1. Te he mostrado cómo se calcula el valor central. Dos formas de calcular: la media y la mediana
  2. Dos formas de calcular la dispersión: la desviación típica y el rango intercuartílico.
  3. La media y la desviación típica son valores fantásticos para histogramas en forma de montaña, simétricos (curiosamente son los que se repiten más 😉 ).
  4. Te he enseñado el histograma en forma de montaña y Z, una variable que indica a cuántas desviaciones típicas de la media se encuentra una observación.

 

A partir de éste, te he enseñado una regla MUY útil. ¡Grábatela!

Para histogramas en forma de montaña se cumple:

El 68% de los datos se encuentran a 1 desviación típica de la media

El 95% está a menos de 2 desviaciones típicas de la media

 

Foto de portada: flickr

Ya no te doy más la paliza. Espero que te hayan sido útiles los conceptos que están aquí escritos. Son valores numéricos que resumen los datos.
Recuerda ver los otros posts de la serie estadística descriptiva para completar la información 😉

5 comentarios en “¿Cómo tomar el control de tus datos utilizando el resumen numérico? – Estadística Descriptiva parte 4”

  1. Gracias por compartir conocimiento tan avanzado y gratuito de Excel al público de habla hispana.

Los comentarios están cerrados.

Scroll al inicio