¿Recuerdas qué es un histograma? ¿O un boxplot? ¿O cuáles son los 10 mejores gráficos? A parte de con gráficos, puedes resumir los datos con números. En este post te voy a mostrar cómo hacerlo 😉
Estos son los posts anteriores de la serie [1] , [2] y [3].
# El complemento perfecto para describir los datos es el resumen numérico
En la serie de estadística descriptiva te he hablado de gráficos. Cuáles son los mejores y en qué situaciones pueden ser útiles.
En este post quiero añadir un aspecto muy importante de la estadística descriptiva. El resumen numérico. Los conceptos están ligados al histograma y al boxplot. Si lees estos posts vas a jugar con ventaja.
¿Pero qué es exactamente el resumen numérico?
Pues fácil, son unos números (parámetros) que resumen dos características de la distribución de los datos.
¿Quieres conocer las dos características más importantes de una distribución?
Para ayudarte un poco, usaré un ejemplo de datos. Un conjunto de 249 personas en que se han recogido los datos del sexo y del peso. Puedes descargarte el ejemplo aquí.
# Los dos atributos de la distribución: el valor central y la dispersión
Ya te hablé en algún post sobre el valor central y la dispersión de los datos.
En un histograma puedes intuir más o menos dónde está el centro a ojo. Y más o menos saber la dispersión que tienen los datos de la media. En esta imagen lo puedes ver:
Ahora ya tienes la idea intuitiva de centralidad y dispersión. ¿Pero qué tal si vas un paso más allá? ¿Qué tal si cuantificas (le pones un número) a la dispersión y al valor central?
Esto es precisamente lo que vas a aprender en este post.
# ¿Cómo puedes medir el centro de la distribución?
Hay dos manera de calcular el valor central:
- Con la media a partir del valor de los datos
- Con la mediana a partir de las posiciones de los datos
En el ejemplo que te decía he calculado la media y la mediana con Excel:
Media: 66.21 kg
Mediana: 67.14 kg
Ya sabes los dos valores centrales de un conjunto de datos.
# ¿Cómo puedes medir la dispersión de la distribución?
La dispersión se puede medir de dos formas:
- Con la desviación típica se mide la dispersión de los datos desde la media
- Con el rango intercuartílico a partir de las posiciones de los datos como haces con la mediana
# Una regla muy interesante
La desviación típica y la media son super útiles cuando tienes histogramas en forma de montaña. Bastante simétricos. ¿Te suena la distribución normal? Son histogramas que imitan la campana de Gauss.
Normalmente en mediciones reales tenemos este tipo de histogramas. De aquí su nombre.
Pues existe una regla muy muy interesante para este tipo de distribuciones “normales” basada en la experiencia 😉
Puede ser útil saber cuantas desviaciones típicas dista un punto de la media. Es aquí la idea de la estandarización. Usando esta transformación sabrás cuántas desviaciones típicas dista un punto de la media.
Esta es la fórmula de la estandarización:
Por ejemplo, una persona que pesa 92 kg, ¿cuánto distará de la media? Puedes utilizar la estandarización. Entonces el valor es:
Una persona que pesa 92 kg está 1.29 desviaciones típicas de la media.
Relacionado con lo anterior, puedes utilizar la siguiente regla basada en la experiencia.
# Un resumen …
- Te he mostrado cómo se calcula el valor central. Dos formas de calcular: la media y la mediana
- Dos formas de calcular la dispersión: la desviación típica y el rango intercuartílico.
- La media y la desviación típica son valores fantásticos para histogramas en forma de montaña, simétricos (curiosamente son los que se repiten más 😉 ).
- Te he enseñado el histograma en forma de montaña y Z, una variable que indica a cuántas desviaciones típicas de la media se encuentra una observación.
A partir de éste, te he enseñado una regla MUY útil. ¡Grábatela!
Para histogramas en forma de montaña se cumple:
El 68% de los datos se encuentran a 1 desviación típica de la media
El 95% está a menos de 2 desviaciones típicas de la media
Foto de portada: flickr
…
Ya no te doy más la paliza. Espero que te hayan sido útiles los conceptos que están aquí escritos. Son valores numéricos que resumen los datos.
Recuerda ver los otros posts de la serie estadística descriptiva para completar la información 😉
Como siempre excelente explicación. Mil gracias
Gracias Alejandra!
Otra vez excelente Jordi, Muchas gracias!
Gracias Eduardo!
Intento que se entiendas los conceptos 😛
Un abrazo!
Gracias por compartir conocimiento tan avanzado y gratuito de Excel al público de habla hispana.