¡Salté de alegría! Aprobé una de las asignaturas más complicadas de la carrera. ¿Y cómo lo conseguí? Gracias a la famosa campana de Gauss. ¿Sabes que la campana de Gauss es la distribución normal? Pero, ¿por qué decimos que es normal? Y ¿Qué significa?
Una de las distribuciones más famosas y más importantes en el mundo estadístico es la distribución normal. Tiene forma de montaña, o campana, como lo quieras llamar. En este post te quiero enseñar el concepto de distribución normal y por qué es tan importante la normalidad en el mundo estadístico.
¡A por ello!
# ¿Qué significa “Normalidad”?
Ya sabes que los datos pueden representarse mediante histogramas. Durante muchos años se ha visto que muchos de los datos recogidos de la realidad tienen un histograma en forma de montaña, simétricos. Algo así:
Este tipo de histograma se ha repetido muchos muchos años. Y en muchas situaciones. Por esta razón se ha llamado normal o distribución normal. La forma es parecida a una montaña, y es más o menos simétrica.
La distribución normal es una función de distribución, es decir, es una fórmula que explica matemáticamente la forma de este tipo de histogramas de una variable aleatoria continua.
¡Ahora lo verás!
# ¿Qué es la distribución normal y por qué es tan importante? El Teorema del Límite Central
La palabra normal viene de la palabra griega «normalis», que significa conforme a la regla, a la norma. Que es lo típico. Que se repite muchas veces según la experiencia. Aplicado a los histogramas es típico encontrarse con histogramas «normales». Como el que te he enseñado antes.
Hasta tal punto que se ha decidido crear una función matemática que explique la forma de la campana o la montaña. Y el señor que lo hizo fue Gauss. De aquí el nombre de campana de Gauss o distribución Gaussiana. La función de la distribución normal es:
Esta función también llamada función de densidad normal tiene dos parámetros que son las media y desviación:
- La señora es la media
- La señora es la desviación estándar
Nota: la fórmula que acabas de ver es la distribución de probabilidad normal y si la media fuera 0 y la desviación estándar 1 tendríamos la forma de la distribución normal estándar o distribución z.
Como ves hay dos características que dominan la ecuación. La curva normal es distinta en los dos casos, la curva de la izquierda tiene una dispersión grande y una media más pequeña que la segunda curva normal de la derecha. Que tiene una dispersión pequeña y una media más alta. Los dos parámetros que gobiernan la curva normal son el valor central y de dispersión. O dicho de otra forma media y desviación estándar:
- media: valor central
- desviación típica o estándar: la dispersión
El valor central sitúa el histograma en el eje horizontal y la desviación indica cómo de alargada es la campana. A ver con esta imagen si te ayudo un poco más:
Pero creo que no te he contestado del todo. Me explico con un ejemplo:
Imagínate que vas cogiendo grupos de personas de una población y vas midiendo la altura media de cada grupo. Es decir, tus datos son la altura media del grupo 1 de personas, la altura media del grupo 2 de personas, etc.
Si has cogido conjuntos de datos en forma de 100 grupos de 50 personas y has calculada la altura media de cada grupo, tendrás 100 valores medios. Y estos valores son los que quieres representar con un histograma. ¿Se entiende?
Se cumple que el histograma de los valores medios es sigue una distribución normal. En forma de montaña. De hecho ese histograma tiene como valor central la media poblacional. Ahora entiendes por qué se da muchas veces, ¿verdad? Siempre que representes valores medios tendrás una distribución parecida a la normal.
El teorema central del límite (TCL) es una teoría estadística que establece que, dada una muestra aleatoria suficientemente grande de la población, la distribución de las medias muestrales seguirá una distribución normal.
Repito: La normalidad es muy importante porque el histograma de valores medios de cualquier magnitud sigue una distribución normal. No olvides esto. Ahora entiendes por qué la distribución Normal es tan famosa e importante.
Esto que acabas de aprender es el teorema del límite central y es el principio del concepto de intervalo de confianza.
Otra cosa curiosa es que en muchas técnicas o test estadísticos se usan sobre el supuesto que la variables aleatorias sigan una distribución normal. Para ello existen técnicas y test estadísticos para saber si una distribución es normal o no como test de Kolmogorov Smirnov o Shapiro Wilk.
# Memoriza una regla y triunfarás
Pero aún hay más. ¡Don’t worry! En otro post te expliqué que se cumple una regla empírica de la media y la desviación estándar en histogramas en forma de montaña. Precisamente esta regla se cumple también con la campana de Gauss o distribución normal:
La regla empírica
La regla que te voy a mostrar es muy utilizada en la práctica y es parecida a los intervalos de confianza. Así que mejor tenerla en cuenta 😉 Sólo necesitas tener en cuenta el valor central o media y la desviación típica:
- El 68% de los datos se encuentra a menos de una desviación estándar de la media.
- El 95% de los datos se encuentra a menos de 2 desviaciones estándar de la media.
Fuente: wikipedia. Curva normal de probabilidad
Un ejemplo: en una ciudad la temperatura máxima en el mes de Agosto sigue una distribución normal de media 23º y desviación típica 5º
- En el 68% de los Agostos la temperatura máxima oscilará entre el 23-5 = 18ºC y 23+5 = 28ºC
- En el 95% de los Agostos la temperatura máxima oscilará entre el 23-2*5 = 13ºC y 23+2*5 = 33ºC
Muy probablemente la temperatura máxima de esta ciudad no sea más baja que 13ºC y no sea más alta que 33ºC. ¿Se entiende la regla?
La Estandarización, ¿a cuántas desviaciones estándar estás de la media?
Otra de los cosas que puedes hacer es obtener a cuántas desviaciones estándar se encuentra un valor. Para conseguirlo puedes transformar los datos y estandarizarlos. ¿Qué significa? Quitarle la media y dividir por la desviación estándar para obtener la distribución estándar de tu variable aleatoria:
De esta manera obtienes unos nuevos datos que te indican a cuantas desviaciones estándar se encuentra cada valor de la media.
Un ejemplo: en el ejemplo anterior la temperatura máxima en el mes de Agosto sigue una distribución normal de media 23º y desviación típica 5º. Si un año tengo una temperatura de 31ºC, ¿estoy muy lejos de la media?
Estarás a 1.6 desviaciones estándar. Menos que el 95% de los casos que es a 2 desviaciones estándar.
¿Útil verdad? 🙂
# ¿Cómo se relaciona la distribución normal con la probabilidad?
La función de la normalidad va de la mano del histograma de densidad de probabilidad. En otro post te expliqué qué relación había entre la descriptiva del histograma y la distribución de probabilidad. Te recomiendo que te leas el post para entender un poquito más este tema.
Si no te lo has leído, no pasa nada. Sólo recordar que al final siempre se cumple que el área total debajo de la distribución normal es 1. Es decir la integral del área debajo la curva es 1. Y esto es precisamente la probabilidad total.
Cuando calculas el área de debajo de la curva, es decir la integral, estás calculando la probabilidad entre dos valores.
Un ejemplo de cálculo de la probabilidad
En el ejemplo de la temperatura máxima en Agosto (sigue una distribución normal de media 23º y desviación típica 5º)
La pregunta que te podrías hacer es por ejemplo: ¿Qué probabilidad tienes de medir una temperatura máxima entre 30ºC y 35ºC? La respuesta es la integral debajo la curva entre 30ºC y 35ºC. ¿Y cómo lo haces? Esto con los ordenadores es muy fácil:
Para calcular la probabilidad lo podemos hacer con Excel por ejemplo. Puedes poner esta linea en una celda y obtener el resultado de la probabilidad de la variable continua:
=DISTR.NORM.N(35;23;5;VERDADERO) – DISTR.NORM.N(30;23;5;VERDADERO)
El resultado es el 7.26% de probabilidad de pasar calor en esta ciudad. Por ser Agosto es una ciudad fresquita.
Con los ordenadores y las calculadoras esto es facilísimo. Antes, sin los ordenadores tan potentes que tenemos hoy, se utilizaban las famosas tablas estadísticas para calcular probabilidades.
Pero en C^2 vamos directos a las herramientas de cálculo. Así que en otro post te enseñaré a calcular las probabilidades de las distribuciones en R. Paso de cálculos a mano.
…
Ha llegado el final del viaje Zen de la distribución normal. Espero que te haya servido para entender la idea escondida detrás de la distribución normal y por qué es tan importante.
Gracias al distribución de Gauss muchos hemos aprobado asignaturas muy complicadas. Tan complicadas que no es “normal” que suspendan tantos alumnos 😉
Si te ha gustado el post tienes más relacionados con conceptos estadísticos:
- ¿Cómo tomar el control de tus datos utilizando el resumen numérico?
- Histograma. Las bases fundamentales de la estadística descriptiva
- Como ser más rápido estudiando variables numéricas: El Boxplot
- 10 gráficos estadísticos para sacar petróleo de tus datos antes de analizar nada
- Resumen de Estadística. El Material de Consulta Definitivo 1
- ¿Para qué sirve la Función de Densidad de Probabilidad?
Muy buen post. Que pena que no «existieras» cuando yo tuve que estudiar estadística.
Gracias Fran!
Que bueno lo de «existieras» entre comillas jejeje 😉
Gracias por pasarte!
Sempre és una alegria quan llegeixo aquests articles. La bona matemàtica ben explicada. Una abraçada crac!
Gràcies Jandro 😉
Abraçades!
Gracias, excelente publicación!
Gracias Norberto! Un placer tenerte por aquí de nuevo 🙂
No eres consciente, pero me estas ayudando MIL!!
Graciaaaaaaaaas!!
jajajaja
A veces me gustaría saberlo más!
De nada! espero que te sirva mucho el contenido!
Sigue aprendiendo!
Hola Jordi!
Estudio Psicologia en Alemania (si, en Aleman, si estoy de la Olla!) y me he cargado 2 veces el Estadisticas I (Descriptiva) .. tengo una sola oportunidad mas, si fallo… me expulsan de la Uni (…. )
Descubri tu pagina hoy y me estas ayudando muchisimo, Muchas Gracias!
Me gustaria recibir el material del curso que pone por aca en la pagina, pero no me funcina. Dice que «something is wrong» QUe podría estar pasando
Un saludo Desde Berlin!
Daniela
Espero que te haya servido para aprobar 🙂 Abrazos!
Antes de nada enhorabuena por tu super trabajo Jordi!
Hay una cosa que nunca entiendo. Si en un gran número de test hay que confirmar que exista una distribución normal en los datos de una variable, cuando haces regresiones múltiples o otros test de contraste y predicción, ¿has de hacer la comprobación para cada una de las variables, aunque haya muchas? ¿Y que pasa si falla una?
No sé si es una pregunta muy tonta..
¡Hola!
Los test estadísticos pueden ser paramétricos o no paramétricos.
Los paramétricos son más robustos y fiables siempre que se cumplan las restricciones como la normalidad.
Como dices, otro ejemplo son las regresiones lineales que se basan en modelos gaussianos de los datos.
Cuando apliques una regresión linea mira si los residuos son normales. De esta manera podrás verificar si tu modelo explica bien los datos.
Abrazos!
Seria correcto el realizar una investigacion de mercado si la regla empirica no se cumple?