post-el-zen-distribucion-normal

El Zen de la distribución Normal

¡Salté de alegría! Aprobé una de las asignaturas más complicadas de la carrera. ¿Y cómo lo conseguí? Gracias a la famosa campana de Gauss. ¿Sabes que la campana de Gauss es la distribución normal? Pero, ¿por qué decimos que es normal? Y ¿qué significa?

Una de las distribuciones más famosas y más importantes en el mundo estadístico es la distribución normal. Tiene forma de montaña, o campana, como lo quieras llamar. En este post te quiero enseñar qué es y por qué es tan importante la normalidad en el mundo estadístico. ¡A por ello!

# ¿Qué significa “Normalidad”?

Ya sabes que los datos pueden representarse mediante histogramas. Durante muchos años se ha visto que muchos de los datos recogidos de la realidad tienen un histograma en forma de montaña, simétricos. Algo así:

Este tipo de histograma se ha repetido muchos muchos años. Y en muchas situaciones. Por esta razón se ha llamado normal o distribución normal. La forma es parecida a una montaña, y es más o menos simétrico.

# ¿Por qué la distribución normal es tan importante? El Teorema del Límite Central

La palabra normal viene de la palabra griega “normalis”, que significa conforme a la regla, a la norma. Que es lo típico. Que se repite muchas veces según la experiencia. Aplicado a los histogramas es típico encontrarse con histogramas “normales”. Como el que te he enseñado antes.

Hasta tal punto que se ha decidido crear una función matemática que explique la forma de la campana o la montaña. Y el señor que lo hizo fue Gauss. De aquí el nombre de campana de GaussLa fórmula es esta:

    \[ f(x|\mu,\sigma) = \frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{1}{2}(\frac{x-\mu}{\sigma})^2} \]

Dos cositas a tener en cuenta:

  1. La señora \mu es la media
  2. La señora \sigma es la desviación estándar

Como ves hay dos características que dominan la ecuación. Estos números son los valores de valor central y de dispersión:

  • media: valor central
  • desviación típica o estándar: la dispersión

El valor central sitúa el histograma en el eje horizontal y la desviación indica cómo de alargada es la campana. A ver con esta imagen si te ayudo un poco más:

Pero creo que no te he contestado del todo. Me explico con un ejemplo:

Imagínate que vas cogiendo grupos de personas de una población y vas midiendo la altura media de cada grupo. Es decir, tus datos son la altura media del grupo 1 de personas, la altura media del grupo 2 de personas, etc.

Si has cogido 100 grupos de 50 personas y has calculada la altura media de cada grupo, tendrás 100 valores medios. Y estos valores son los que quieres representar con un histograma. ¿Se entiende?

Se cumple que el histograma de los valores medios es un histograma “normal”. En forma de montaña. Ahora entiendes por qué se da muchas veces, ¿verdad? Siempre que representes valores medios tendrás una distribución parecida a la normal.

El histograma de los promedios de los grupos es simétrico y en forma de montaña. Este es el teorema del límite central.

Repito: La normalidad es muy importante porque el histograma de valores medios de cualquier magnitud sigue una distribución normal. No olvides esto. Ahora entiendes por qué la distribución Normal es tan famosa e importante.

# Memoriza una regla y triunfarás

Pero aún hay más. ¡Don’t worry! En otro post te expliqué que se cumple una regla empírica de la media y la desviación estándar en histogramas en forma de montaña. Precisamente esta regla se cumple también con la campana de Gauss o distribución normal:

La regla empírica

La regla que te voy a mostrar es muy utilizada en la práctica. Así que mejor tenerla en cuenta 😉 Sólo necesitas tener en cuenta el valor central o media y la desviación típica:

  • El 68% de los datos se encuentra a menos de una desviación estándar de la media.
  • El 95% de los datos se encuentra a menos de 2 desviaciones estándar de la media.

Fuente: wikipedia

Un ejemplo: en una ciudad la temperatura máxima en el mes de Agosto sigue una distribución normal de media 23º y desviación típica 5º

  1. En el 68% de los Agostos la temperatura máxima oscilará entre el 23-5 = 18ºC y 23+5 = 28ºC
  2. En el 95% de los Agostos la temperatura máxima oscilará entre el 23-2*5 = 13ºC y 23+2*5 = 33ºC

Muy probablemente la temperatura máxima de esta ciudad no sea más baja que 13ºC y no sea más alta que 33ºC. ¿Se entiende la regla?

La Estandarización, ¿a cuántas desviaciones estándar estás de la media?

Otra de los cosas que puedes hacer es obtener a cuántas desviaciones estándar se encuentra un valor. Para conseguirlo puedes transformar los datos y estandarizarlos. ¿Qué significa? Quitarle la media y dividir por la desviación estándar.

    \[ Z_i = \frac{X_i-\overline{X}}{S} \]

De esta manera obtienes unos nuevos datos que te indican a cuantas desviaciones estándar se encuentra cada valor de la media.

Un ejemplo: en el ejemplo anterior la temperatura máxima en el mes de Agosto sigue una distribución normal de media 23º y desviación típica 5º. Si un año tengo una temperatura de 31ºC, ¿estoy muy lejos de la media?

    \[ \frac{31-23}{5} = 1.6 \]

Estarás a 1.6 desviaciones estándar. Menos que el 95% de los casos que es a 2 desviaciones estándar.

# ¿Cómo se relaciona la distribución normal con la probabilidad?

La función de la normalidad va de la mano del histograma de densidad de probabilidad. En otro post te expliqué qué relación había entre la descriptiva del histograma y la distribución de probabilidad. Te recomiendo que te leas el post para entender un poquito más este tema.

Si no te lo has leído, no pasa nada. Sólo recordar que al final siempre se cumple que el área total debajo de la distribución normal es 1. Es decir la integral del área debajo la curva es 1Y esto es precisamente la probabilidad total.

Cuando calculas el área de debajo de la curva, es decir la integral, estás calculando la probabilidad entre dos valores.

Un ejemplo de cálculo de la probabilidad

En el ejemplo de la temperatura máxima en Agosto (sigue una distribución normal de media 23º y desviación típica 5º)

La pregunta que te podrías hacer es por ejemplo ¿qué probabilidad tienes de medir una temperatura máxima entre 30ºC y 35ºC? La respuesta es la integral debajo la curva entre 30ºC y 35ºC. ¿Y cómo lo haces? Esto con los ordenadores es muy fácil:

En Excel por ejemplo, puedes poner esta linea en una celda y obtener el resultado de la probabilidad:

=DISTR.NORM.N(35;23;5;VERDADERO) – DISTR.NORM.N(30;23;5;VERDADERO)

El resultado es el 7.26% de probabilidad de pasar calor en esta ciudad. Por ser Agosto es una ciudad fresquita.

Con los ordenadores y las calculadoras esto es facilísimo. Antes, sin los ordenadores tan potentes que tenemos hoy, se utilizaban las famosas tablas estadísticas para calcular probabilidades.

Pero en C^2 vamos directos a las herramientas de cálculo. Así que en otro post te enseñaré a calcular las probabilidades de las distribuciones en R. Paso de cálculos a mano.

Ha llegado el final del viaje Zen de la distribución normal. Espero que te haya servido para entender la idea escondida detrás de la distribución normal y por qué es tan importante.

Gracias al señor Gauss muchos hemos aprobado asignaturas muy complicadas. Tan complicadas que no es “normal” que suspendan tantos alumnos 😉

Si te ha gustado el post tienes más relacionados con conceptos estadísticos:

 

Acerca del autor

Jordi Olle Sanchez

Autor de ConceptosClaros.com. Ayuda a investigadores apasionados a aplicar estadística y análisis de datos en sus proyectos para catapultar su carrera investigadora y adaptarse a la era de los datos. Accede a los recursos gratuitos para aplicar estadística en tus datos

Interacciones del lector

Comentarios

    • Gracias Fran!

      Que bueno lo de “existieras” entre comillas jejeje 😉

      Gracias por pasarte!

    • jajajaja
      A veces me gustaría saberlo más!
      De nada! espero que te sirva mucho el contenido!
      Sigue aprendiendo!

  1. Hola Jordi!
    Estudio Psicologia en Alemania (si, en Aleman, si estoy de la Olla!) y me he cargado 2 veces el Estadisticas I (Descriptiva) .. tengo una sola oportunidad mas, si fallo… me expulsan de la Uni (…. )
    Descubri tu pagina hoy y me estas ayudando muchisimo, Muchas Gracias!
    Me gustaria recibir el material del curso que pone por aca en la pagina, pero no me funcina. Dice que “something is wrong” QUe podría estar pasando
    Un saludo Desde Berlin!
    Daniela

  2. Antes de nada enhorabuena por tu super trabajo Jordi!

    Hay una cosa que nunca entiendo. Si en un gran número de test hay que confirmar que exista una distribución normal en los datos de una variable, cuando haces regresiones múltiples o otros test de contraste y predicción, ¿has de hacer la comprobación para cada una de las variables, aunque haya muchas? ¿Y que pasa si falla una?

    No sé si es una pregunta muy tonta..


Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

  Acepto la política de privacidad

Responsable del fichero: Jordi Ollé Sánchez
Finalidad; envío de mis publicaciones así como correos comerciales.
La Legitimación; es gracias a tu consentimiento.
Destinatarios:Como usuario e interesado te informo que los datos que me facilitas estarán ubicados en los servidores de Webempresa (proveedor de hosting de Conceptos claros) dentro de la UE. Ver política de privacidad de Webempresa
Podrás ejercer Tus Derechos de Acceso, Rectificación, Limitación o Suprimir tus datos enviando un email a jordi @ conceptosclaros.com o ante la Autoridad de Control
Encontrarás más información en política de privacidad
Pro-statistics-Mockup-presentacion

Descárgate los recursos gratuitos y empieza a construir las bases para analizar los datos de tus proyectos de investigación