Seguro que has pensado alguna vez en términos de intervalos de confianza de forma inconsciente. Es un concepto que utilizamos sin darnos cuenta y es súper útil en la práctica.
Por ejemplo:
Este mes ganaré 2000€ y gastaré más o menos entre 500€ y 850€. Ya te haces tus cálculos y ya puedes estimar en un margen de error los beneficios que tendrás. Más o menos tendré para mi a final de mes entre 1150€ en el peor de los casos y 1500€ en el mejor.
Ese precisamente es el objetivo de los intervalos, dar en un nivel de confianza, con un error conocido, la cantidad de euros que tendré de beneficio a final de mes.
Lo podemos extrapolar en la media de todos los meses del año.
Esto que haces a ojo y que está super bien, la estadística tiene herramientas para hacerlo de manera más científica. Quédate con esta idea.
Hoy te voy a enseñar uno de los conceptos que me ha costado más entender 🙂 . A ver si consigo transmitirlo bien 🙂 El intervalo de confianza para la media.
# Intervalo de Confianza y muestreo.
Te voy a poner un ejemplo directamente. Tienes un grupo de 10.000 tornillos (población). Quieres ver la longitud media de todos los tornillos. Dicho de otra forma, la media de toda la población o media poblacional. Pero … espera… ¡¡Medir 10.000 tornillos es una auténtica locura!!
No sería mejor coger un grupito pequeño al azar de 100 tornillos (muestra) y calcular la media de este grupito (media muestral). Y después poner un margen de error. (Un Intervalo de Confianza (IC))
Es decir calcular la media del grupito de 100 y decir más o menos la media de todo los tornillos está entre este valor y este otro con un 95% de seguridad. Es una manera de dar una estimación de la media poblacional sin necesidad de medir todos los tornillos. ¡Está fantástico!
Esto es precisamente para qué sirve el Intervalo de Confianza.
Ahora te toca ver cómo calcular el intervalo de confianza. Para mi es fundamental que entiendas el proceso. Que entiendas la idea de fondo.
Imagina que coges grupos de 100 tornillos y calculas la media (el promedio) de la longitud de los tornillos de cada grupito.
Es decir:
- Creas un primer grupito de 100 tornillos y calculas su media.
- Crear un segudno grupito de 100 tornillos y calculas su media.
- …
- Y así hasta 100 o 1000 grupitos. Da igual.
Esto es lo que represento esta imagen:
Al final lo que consigues es tener las medias de grupos de 100 tornillos. En este caso tendrás 100 grupos de 100 tornillos. Es decir tendrás 100 valores de medias. Estas medias las puedes representar con un histograma y ver su distribución.
Hemos generado una nueva variable con las medias de los grupitos. Recuerda que ¡Ahora tu variable es la media de los grupitos!
El histograma de las medias tiene una pinta de distribución normal cuando la muestra es más grande que 30.
Se ha visto, por experiencia, que el valor central de las medias es igual al de toda la población.
Pero la dispersión (desviación estándar o desviación típica) es la desviación de la población dividido entre la raíz del número de tornillos (n) de la muestra (100 tornillos en este caso). Quiero decirte que:
- La media de las medias es la media de la población
- La desviación estándar de las medias es la desviación estándar de la población dividido entre la raíz del número de la muestra. (error estándar SE)
Aquí te dejo la receta:
La desviación estándar de la media es el error estándar o error de muestreo. Depende de la cantidad de tornillos de la muestra que escojas para calcular la media.
Cuando la muestra es más pequeña que 30 la distribución de la media no tiene forma de gaussiana, tiene forma de t-student. Tiene más barriga. Pero ahora verás qué significa esto.
Lo demostró un empleado de Guiness. Dónde sus muestras eran muy pequeñas. La estadística también está relacionada con la cerveza! ¡Si!
# Cómo puedes interpretar el Intervalo de Confianza (IC)
El intervalo de confianza es la aplicación de la regla mágica por excelencia a esta distribución de las medias. La regla mágica la tienes explicada en este post. Recuerda que es solo aplicable a histogramas en forma de campana de Gauss 😉 .
Como has visto el histograma de las media es normal solo para muestras más grandes que 30. Entonces será válida para n> 30. (para muestras más pequeñas tendrás una distribución tipo t-student como has visto arriba)
En el caso de los tornillos tienes muestras más grandes que 30. El histograma de las medias será una campana de gauss. ¿Lo ves?
Ahora podemos aplicar la norma mágica y calcular una estimación puntual de la media poblacional pero con un margen de error. Utilizaremos el porcentaje
El 95% de las medias se encuentra aquí:
media +- 1.96*SE
¿Cuál es la gracia? No hace falta medir todos los tornillos. Sólo necesitas coger una muestra pequeñita.
Calculas la media y la desviación estándar de esa muestra y sabrás dónde estará la media de todos los tornillos con un 95% de posibilidades. ¡No me digas que no es genial! ¡Esta es la definición de intervalo de confianza en estadística más práctica!
En realidad lo que estamos es aplicando inferencia estadística para poder estimar la media como parámetro poblacional con un margen de error.
Nota: el 1.96 proviene del 95% por ciento de la normal estándar. Este es el grado de confianza en estadística para este caso. Mira esta figura para acordarte:
Fuente: wikipedia
¿Quieres profundizar en cómo hallar un intervalo de confianza y en el nivel de confianza estadística?
Puede haber dos límites de confianza estadística usados en la práctica. El 95% y el 99%. En realidad es un porcentaje de confianza estadística.
Normalmente se utiliza el 95% pero a veces puede que quieras afinar un poquito más. Por ejemplo con el 99%. En este caso tienes que trabajar con la distribución normal estándar. (El 1.96 también se saca de la distribución normal estándar jejeje)
Recuerda que la normal estándar tiene como estimaciones puntuales del parámetro media cero y desviación estándar uno.
La pregunta que tienes que resolver es. ¿Cuántas desviaciones estándar necesitas para tener un 99% dejando 0.5% a lado y lado?
El nivel de significación alpha es 1% porque es 100%-99%. La idea es dejar mitad y mitad de este nivel de significación alpha.
Lo puedes hacer con tablas, con RStudio, Excel.
Y aquí la formulilla:
media +- Zalpha/2*SE
# La fórmula. ¿Cómo hacer el intervalo de confianza de la media?
Antes te he dicho que la cosa cambia cuando el tamaño de la muestra es más pequeña. Tendrás que trabajar con t-student en lugar de la Gaussiana.
Para la media en variables numéricas continuas:
- Media para muestra grandes n>= 30
IC (95%) = media +- 1.96 SE
- Media para muestras pequeñas n<30
IC(95%) = media +- t-student 0.05/2 SE
La forma de la t-student depende del número de la muestra que tengas. Si quieres más información te puedo enseñar cómo hacerlo. Pero por hoy es suficiente. No quiero marearte más 😉
# ¿Cómo calcular el intervalo de confianza en Excel?
Te pongo un par de casos para que veas cómo puedes calcular el intervalo de confianza con un herramienta muy común: Excel. Para cálculos rápido Excel es una maravilla. Estos son los dos casos:
- Muestra de n = 100 y tienes una media de esta muestra de 21 y una desviación de 1.2. El intervalo de confianza de la media de la población se calcula con el nivel de confianza propio de la distribución normal.
- Muestra de n = 20 y tienes una media de esta muestra de 21 y una desviación de 1.2. Aquí tienes que trabajar con la t-student porque tienes una muestra menos de 30.
Tienes el vídeo que te explico paso a paso cómo hacerlo 🙂
Foto de portada de JJ Vico Bretones
…
Y hasta aquí el post del Intervalo de Confianza. Sé que es un concepto complicado pero es muy importante entender para qué sirve y cómo se calcula. En muchos estudios, publicaciones, en muchas aplicaciones de ingeniería se utiliza este intervalo de confianza.
Es necesario entenderlo y ver qué significa. Tienes también un pequeño ejemplo en Excel que te puede ayudar 😉
Recuerda que puedes acceder gratis al training gratuito de Estadística dónde vas a descubrir otras técnicas como el intervalo de confianza que se utilizan a diario para analizar los datos.
Y descubrirás un método para poder analizar los datos de tus proyectos con éxito. Accede al training gratuito de estadística aquí.
Hago una tesis doctoral sobre clima urbano donde tengo que comparar varias muestras de transectos.
Hola Gerard.
Puedes enviarme un consulta si tienes dudas acerca de tu tesis doctoral en el formulario de contacto.
Hola, algo no me cuadra, si haces la media de 100 grupos de 100 tornillos, al final estas midiendo 10000 tornillos, ¿no? Que es lo que no queremos xD
Efectivamente!
La estadística está para ahorrar tiempo.
Es un ejemplo para explicarte que la distribución de las medias es una distribución normal con media igual a la media de la muestra de los 100 tornillos y la desviación estándar igual al error estándar.
Gracias por comentar!
Entiendo que la pregunta apuntaba a que en ejemplo medias de igual forma los 10000 tornillos, pero en realidad solo te basta con medir 100 tornillos para llegar a la misma conclusión. Finalmente el ejemplo apuntaba a verificar esta esa última conclusión. Estoy en lo correcto? Cómo recomendación siempre igual es bueno aterrizar esto quizá con algún ejemplo en Excel 🙂
Saludos y excelente trabajo!
Hola Jordi, muchas gracias por el artículo!
me ayudo a entender perfecto el concepto.
Saludos
Buen artículo! Un detalle: SE hay que dividirlo por raíz de n, no por n
¡Cierto!
Lo modifico cuando tenga un segundo 🙂
Genial
Gracias Ada!
Muchas GRACIAS!!!!!
Gracias a ti Carlos por comentar!
Excelente, de verdad que gran explicación, saludos desde México
¡Excelente! Muchas gracias por tus explicaciones.
hoy en día hay muchas aplicaciones que te permiten realizar intervalos con cualquier nivel de confianza, me refiero a calcular percentiles de cualquier distribución y no necesariamente normales y seria bueno agregarlo como por ejemplo Probability Distributions.
buen día a todos: Por mas que busco una relación clara entre percentil y nivel de confianza, aun me cuesta entenderlo y si no existe también quisiera saberlo, si me ayudan seria genial
hola amigos, me pueden explicar percentil de cualquier distribución, no se mucho quiero entender perceltil del 5 % para una districucion estandar, que tiene que ver con el 95 % de confianza, quiza un link queme ayude este tema, la relación entre nivel de confianza y el percentil.
Wao, gran trabajo, me a servido de mucha ayuda, gracias por este trabajo tan bueno.
Hola, Jordi
Tengo una duda: Puedo hallar un intervalo de confianza de una muestra muy grande (por ejemplo, 8.000 valores)?? Y como puedo interpretar los resultados?
Está muy bien la explicación para entender lo que pude ser un intervalo0 de confianza pero creo que cometes dos errores.
a) Si la desviación es desconocida no se utiliza la normal sino la t de student
b) Aún en el caso de conocer el parámetro σ se toma σ/√n (raíz cuadrada del tamaño de la muestra) y no como pones tu s/n
Sin otro particular te saluda atentamente
Gracias por tu aportación Antonio!
Un abrazo