Pro Statistics Lección 6

Bienvenido al curso Pro Statistics

Puedes acceder a la versión Premium con tutoriales paso a paso, soporte y asesoramiento

Índice >> Lección 1 >> Lección 2 >> Lección 3 >> Lección 4 >> Lección 5 >> Lección 6 >> Lección 7 >> Lección 8 >> Lección 9 >> Lección 10 >> Lección 11 >> Lección 12 >> Lección 13 >>  Tutorial R >> Tutorial Excel >>Tutorial SPSS Errores >> Casos de Éxito >> Opciones para Aprender >> FAQ’s >> Lista de Softwares

Explorando una variable numérica (II)

Seguimos con más conceptos nuevos.

Poco a poco estás construyendo la estructura mental perfecta para entender y utilizar estrategias de exploración 🙂

En la lección de hoy vas a ver:

  1. El concepto de rangos (cuartiles).
  2. Cómo graficar estos rangos en forma de caja: el boxplot
  3. Cómo calcular la centralidad y dispersión de una distribución: con la famosa media, desviación estándar, mediana y rango intercuartílico.
  4. Resumir las características numéricas en una tabla

Tabla de contenidos# Ordenando los números y cogiendo fronteras# El valor central y dispersión: la mediana y el IQR# Construyendo el boxplot en detalle# Los valores anómalos con el boxplot# EXTRA: cuándo utilizar la media o la mediana

# ¿Cómo resumir la distribución por rangos? El boxplot

El boxplot es una herramienta sensacional para dibujar una variable numérica. Y observar la distribución en base al orden de tu variable numérica. Es decir, a los rangos.

El boxplot es una caja. Se puede dibujar en horizontal como el de la figura. O en vertical. Ahora que dominas el histograma puedes intuir el significado del boxplot 😉

Te invito que estés 1 minuto mirando la imagen comparando el boxplot y el histograma. ¿Qué paralelismos ves?

Te pongo un pequeño resumen:

  1. La caja localiza la mayor concentración en tu distribución. (Resume el 50% de los datos)
  2. La línea que parte la caja en dos es el valor central (la mediana). Si la mediana parte en dos la caja la distribución es simétrica.
  3. Las patas (las líneas) indican dónde existe menos concentración en la distribución. Son valores más alejados del valor central. (El 25% por un lado y el 25% por el otro de la caja)
  4. Los puntitos son valores muy alejados. Outliers o valores atípicos. Una persona que mida 2 m 10 cm es un outlier. ¿Se ve?

Para entender los detalles es muy importante ir poco a poco y comprender el concepto de rangos y cuartiles.

Aunque te he resumido un poquito el boxplot te he preparado un post con mucho cariño para que profundices un poco más sobre este gráfico.

VER EL ARTÍCULO

# Cómo calcular el valor central y la dispersión

Hasta ahora te he enseñado dos herramientas muy potentes para dibujarla:

  1. El histograma
  2. El boxplot

Como vistes en la lección anterior puedes caracterizar una distribución mediante medidas de centralidad y dispersión. Bien.

Te voy a mostrar con una imagen la relación entre valor central (media) / dispersión (desvación estándar) con un histograma y la densidad de puntos.

Dale 2 minutos a la imagen. Observa la altura de las barras y los puntos que ves.

  • Dónde hay las barras más altas tienes los puntitos más juntos.
  • Dónde las barras son más bajas los puntitos están más separados.

Ahora fíjate en la línea de la media (valor central) y la región de la dispersión. Estás empezando a entrar en el mundo de las distribuciones 🙂

Ahora que relacionas estos conceptos.

Es momento de mostrarte cómo calcular estas características:

  1. la centralidad: media y mediana
  2. la dispersión: desviación estándar y rango intercuartílico (IQR)

 

¡Let’s do it!

De nuevo, te envío a un artículo dónde está todo el detalle necesario para entender las magnitudes de centralidad y dispersión. ¡Hoy toca caña!

VER EL ARTÍCULO

# El resumen numérico completo

A parte de la centralidad y la dispersión puedes calcular otras características también interesantes.

  1. El máximo: es el valor máximo de tu variable numérica
  2. El mínimo: es el valor mínimo de tu variable numérica
  3. El rango: es la diferencia entre el máximo – mínimo
  4. La desviación estándar y el IQR
  5. El intervalo de confianza de la media
  6. La media y la mediana
  7. La moda: es el valor más repetido de tu variable numérica
  8. Cuartiles: pueden ser el Q1, Q2 y Q3

Un ejemplo de una tabla resumen puede ser esta:

Nota: por ahora no te voy a contar nada sobre el intervalo de confianza. De momento quiero que sepas que exista. Y en la parte III del curso ya te lo explicaré con detalle.

# Bonus1: los valores anómalos con el boxplot

Una manera de utilizar el boxplot es para cuantificar e identificar valores anómalos.

Como ya sabes los valores atípicos se pueden identificar porque están a una distancia de 1.5 veces el IQR de la caja del boxplot.

Para repasar te pongo unas imágenes ilustrativas para que entiendas cómo se dibujan los boxplots. Y cómo calcula los valores atípicos. A mi me ayudó mucho este cómic 😉

Nota: estas imágenes son de este libro. Estadística en Cómic.

Los valores atípicos algunas veces aparecen porque se han medido mal algunas observaciones de tus variables.

Si es así. Hay que quitar estas observaciones para que el análisis tenga coherencia 😉 Si ves que no es ningún problema es mejor dejarlas para no desvirtuar los análisis.

# Bonus 2: el qqplot

Por último no quiero dejarte sin una herramienta interesante. El qqplot.

Este gráfico muestra si tu variable numérica sigue una distribución normal. ¿Cómo lo hace? (tranquilo, en la lección 10 te enseñaré qué es una distribución normal)

Si todos los puntos de la variable están dentro de la zona roja sombreada puedes decir que tu variable sigue una distribución normal. Es decir, a una distribución en forma de montaña.

Simétrica. Como esta:

Esto es importante para saber si tu variable es normal y decidir el tipo de análisis que puedes hacer 🙂 Más adelante te explicaré más sobre la normalidad.

En la última lección de esta parte II de exploración te voy a resumir todo lo que has visto en las lecciones 5 y 6 con un ejemplo.

Todo el trabajo que has hecho de comprensión de estos conceptos será fantástico para entender cómo utilizarlos en la práctica.

¡Nos vemos en la lección siguiente! Es el turno de las variables categóricas 🙂

ACCEDE A LA FORMACIÓN PREMIUM C2

Training Fast Track Analizar Datos desde cero

ACCEDE AL TRAINING

Curso Analiza tu Estudio

ACCEDE AL CURSO

Scroll al inicio