intervalo-confianza

¿Cómo interpretar un intervalo de confianza para la media?

 

Seguramente que inconscientemente has pensado algua vez con términos de suposiciones o probabilidades.

Por ejemplo. Este mes ganaré 2000€ y gastaré mas o menos entre 500€ y 850€. Más o menos tendré para mi entre 1150€ en el peor de los casos y 1500€ en el mejor.

Y esto lo puedes extrapolar. Puedes pensar en la media de todos los meses del año.

Esto que haces a ojo y que está super bien, la estadística tiene herramientas para hacerlo de manera más científica. Quédate con esta idea.

Hoy te voy  enseñar uno de los conceptos que me ha costado más de entender jejeje. A ver si consigo transmitirlo bien 🙂 El intervalo de confianza.

# La relación con el muestreo

Te voy a poner un ejemplo directamente. Tienes un grupo de 10.000 tornillos (población). Quieres ver la longitud media de todos los tornillos. Pero, ¡medir todos estos tornillos es una locura!

No sería mejor coger un grupito pequeño al azar de 100 tornillos y calcular la media de este grupito. Y después poner un margen de seguridad. (Un Intervalo de Confianza (IC))

Es decir calcular la media del grupito de 100 y decir más o menos la media de todo los tornillos está entre este valor y este otro con un 95% de seguridad.

Esto es precisamente el Intervalo de Confianza famoso.

Ahora te toca ver cómo se calcula el intervalo de confianza. Para mi es fundamental que entiendas el proceso. Que entiendas la idea de fondo.

Imagina que coges grupos de 100 tornillos y calculas la media (el promedio) de la longitud de los tornillos de cada grupito.

Al final lo que consigues es tener las medias de grupos de 100 tornillos. En este caso tendrás 100 grupos de 100 tornillos. Es decir tendrás 100 valores de medias. Estas medias las puedes representar con un histograma y ver su distribución.

Recuerda que ¡Ahora tu variable es la media de los grupitos!

El histograma de las medias tiene una pinta de distribución normal cuando la muestra es más grande que 30.

Se ha visto, por experiencia, que el valor central de las medias es igual al de toda la población.

Pero la dispersión (desviación estándar) es la desviación de la población dividido entre la raiz del número de tornillos (n) de la muestra (100 tornillos en este caso). Quiero decirte que:

 

  • La media de las medias es la media de la población
  • La desviación estándar de las medias es la desviación estándar de la población dividido entre la raiz del número de la muestra. (error estándar SE)

Aquí te dejo la receta:

La desviación estándar de la media es el error estándar o error de muestreo. Depende de la cantidad de tornillos de la muestra que escojas para calcular la media.

Cuando la muestra es más pequeña que 30 la distribución de la media no tiene forma de gaussiana, tiene forma de t-student. Tiene más barriga. Pero ahora verás que significa esto.

Lo demostró un empleado de Guiness. Dónde sus muestras eran muy pequeñas. La estadística también está relacionada con la cerveza! ¡Si!

# Cómo puedes interpretar el Intervalo de Confianza (IC)

El intervalo de confianza es la aplicación de la regla mágica por excelencia a esta distribución de las medias. La regla mágica la tienes explicada en este post. Recuerda que es solo aplicable a histogramas en forma de campana de Gauss 😉 .

Como has visto el hitograma de las media es normal solo para muestras más grandes que 30. Entonces será válida para n> 30. (para muestras más pequeñas tendrás una distribución tipo t-student como has visto arriba)

En el caso de los tornillos tienes muestras más grandes que 30. El histograma de las medias será una campana de gauss. ¿Lo ves?

Ahora podemos aplicar la norma mágica.

El 95% de las medias se encuentra aquí:

media +- 1.96*SE

¿Cuál es la gracia? No hace falta medir todos los tornillos. Sólo necesitas coger una muestra pequeñita.

Calculas la media y la desviación estándar y sabrás dónde estará la media de todos los tornillos con un 95% de posibilidades. ¡No me digas que no es genial!

Nota: el 1.96 proviene del 95% por ciento de la normal estándar. Mira esta figura para acordarte:

Fuente: wikipedia

¿Quieres profundizar?

Normalmente se utiliza el 95% pero a veces puede que quieras afinar un poquito más. Por ejemplo con el 99%. En este caso tienes que trabajar con la distribución normal estándar. (El 1.96 también se saca de la distribución normal estándar jejeje)

Recuerda que la normal estándar tiene media cero y desviación estándar uno.

La pregunta que tienes que resolver es. ¿Cuántas desviaciones estándar necesitas para tener un 99% dejando 0.5% a lado y lado?

El nivel de significación alpha es 1% porque es 100%-99%. La idea es dejar mitad y mitad de este nivel de significación alpha.

Lo puedes hacer con tablas, con RStudio, Excel.

Y aquí la formulilla:

media +- Zalpha/2*SE

# La receta para calcularlo

Antes te he dicho que la cosa cambia cuando el tamaño de la muestra es más pequeña. Tendrás que trabajar con t-student en lugar de la Gaussiana.

Para la media en variables numéricas continuas:

  • Media para muestra grandes n>= 30

IC (95%) = media +- 1.96 SE

  • Media para muestras pequeñas n<30

IC(95%) = media +- t-student 0.05/2 SE

La forma de la t-student depende del número de la muestra que tengas. Si quieres más información te puedo enseñar cómo hacerlo. Pero por hoy es suficiente. No quiero marearte más 😉 

# Un ejemplo en EXCEL

Te pongo un par de casos para que veas cómo puedes calcular el intervalo de confianza con un herramienta muy común: Excel. Para calculos rápido Excel es una maravilla. Estos son los dos casos:

  1. Muestra de n = 100 y tienes una media de esta muestra de 21 y una desviación de 1.2. El intervalo de confianza de la media de la población:
  2. Muestra de n = 20 y tienes una media de esta muestra de 21 y una desviación de 1.2. Aquí tienes que trabajar con la t-student porque tienes una muestra menos de 30.

Tienes el vídeo que te explico paso a paso cómo hacerlo 🙂

Foto de portada de JJ Vico Bretones

Y hasta aquí el post del Intervalo de Confianza. Sé que es un concepto complicado pero es muy importante que te lo cuenta. En muchos estudios, publicaciones, en muchas aplicaciones de ingeniería se utiliza este intervalo de confianza.

Es necesario entenderlo y ver qué significa. Tienes también un pequeño ejemplo en Excel que te puede ayudar 😉

Recuerda que puedes acceder gratis al curso de Estadística para Dummies de 7 días. Para dominar las bases del análisis de datos.

 

 

Acerca del autor

Jordi Olle Sanchez

Autor de ConceptosClaros.com. Ayuda a investigadores apasionados a aplicar estadística y análisis de datos en sus proyectos para catapultar su carrera investigadora y adaptarse a la era de los datos. Accede a los recursos gratuitos para aplicar estadística en tus datos

Interacciones del lector

Comentarios

  1. Gerard Taulé Codinach dice

    Hago una tesis doctoral sobre clima urbano donde tengo que comparar varias muestras de transectos.

  2. Ventrue dice

    Hola, algo no me cuadra, si haces la media de 100 grupos de 100 tornillos, al final estas midiendo 10000 tornillos, ¿no? Que es lo que no queremos xD

    • Jordi Ollé dice

      Efectivamente!
      La estadística está para ahorrar tiempo.
      Es un ejemplo para explicarte que la distribución de las medias es una distribución normal con media igual a la media de la muestra de los 100 tornillos y la desviación estándar igual al error estándar.
      Gracias por comentar!

      • pablo dice

        Entiendo que la pregunta apuntaba a que en ejemplo medias de igual forma los 10000 tornillos, pero en realidad solo te basta con medir 100 tornillos para llegar a la misma conclusión. Finalmente el ejemplo apuntaba a verificar esta esa última conclusión. Estoy en lo correcto? Cómo recomendación siempre igual es bueno aterrizar esto quizá con algún ejemplo en Excel 🙂

        Saludos y excelente trabajo!


Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

  Acepto la política de privacidad

Responsable del fichero: Jordi Ollé Sánchez
Finalidad; envío de mis publicaciones así como correos comerciales.
La Legitimación; es gracias a tu consentimiento.
Destinatarios:Como usuario e interesado te informo que los datos que me facilitas estarán ubicados en los servidores de Webempresa (proveedor de hosting de Conceptos claros) dentro de la UE. Ver política de privacidad de Webempresa
Podrás ejercer Tus Derechos de Acceso, Rectificación, Limitación o Suprimir tus datos enviando un email a jordi @ conceptosclaros.com o ante la Autoridad de Control
Encontrarás más información en política de privacidad
6-tecnicas-Mockup-presentacion

Y descubre: Un método eficaz para analizar los datos de tu proyecto o tesis doctoral con el fin de justificar tus resultados con seguridad y garantías de éxito