boxplot-estadistica-descriptiva-parte2

Como ser más rápido estudiando variables numéricas: El Boxplot – Estadística descriptiva Parte2

boxplot-estadistica-descriptiva-parte2

¿Quieres saber cuál es la herramienta perfecta para comparar grupos? ¿Quieres comparar diferentes experimentos y saber cuál tiene los valores más grandes? Lo podrás hacer en un solo gráfico y de un vistazo. No te pierdas el segundo post de la serie Estadística Descriptiva. Sigue leyendo y te aseguro que sacarás un montón de información de este gráfico inofensivo: el boxplot.

En el post anterior te mostré qué es un histograma y los secretos escondidos que hay detrás. ¿Recuerdas que decía que el histograma es muy útil para observar cómo se distribuye tu variable numérica? El Boxplot también lo es. Si lo miras con cariño incluso te revelará más información en menos tiempo.

El interés del box-plot

El máximo interés del box-plot es visualizar la distribución de una variable numérica de la manera más simplificada posible. Sólo utiliza los valores de los cuartiles, los extremos (el mínimo y el máximo) y valores raros o outliers.

No depende de valores ponderados como la media. Simplemente se fija en las características de la posición. En el fondo, primero ordena la variable y después la caracteriza según la posición de los cuartiles y los valores extremos.

La gracia del boxplot es visualizar una variable numérica de diferentes grupos o categorías. Te facilita la vida cuando comparas varios grupos.

Por ejemplo, en el siguiente gráfico te muestro los puntos por partidos de 5 jugadores de la NBA. En él puedes ver cuál es el jugador que mete más puntos, o cuál es el más regular.

Por ejemplo Carmelo Anthony mete más puntos que el resto. Su caja azul se ve más arriba que las demás:

¿Qué necesitas para dibujar un Boxplot?

Para dibujar el diagrama de caja necesitas conocer los valores de posición, llamados cuartiles 1 ,2 y 3. La longitud de la caja es el rango intercuartílico (q3-q1). Y la longitud de los «palos» (las líneas que salen de la caja) son los valores extremos. También necesitas saber cúales son los valores «raros» o outliers. Los dibujarás con un puntito o una crucecita.

  1. Los cuartiles
  2. Una distancia para dibujar la caja
  3. Valores «raros» o outliers
  4. Valores extremos.

boxplot-histograma

Los cuartiles

Las medidas de posición sirven para cuantificar cómo de concentrada está la variable numérica. Para el box plot utilizarás los famosos cuartiles.

  1. Ordena la variable numérica de menor a mayor.
  2. Divide en grupos con el mismo número de observaciones.

Imagina que mides el peso de 100 pacientes de un hospital. Ordenas el peso de las 100 personas de menor a mayor. Haces 4 grupos con el mismo número de personas (4 grupos de 25 personas). El peso de la última persona de cada grupo es un cuartil.

 

Los cuartiles sirven para identificar fronteras. Responden a la pregunta: qué valor X tiene el 50% de los datos que son menores y 50% que son mayores. Este es la mediana o cuartil 2.

Pueden responder a otras preguntas como a partir de qué valor X divido los datos en dos partes: una con el 25% de los datos y el 75% de los datos. Este es el cuartil 1.

De alguna manera estos valores te informan de donde están los valores que parten los datos en el 25%, en el 50% y en el 75%.

Del ejemplo de los pesos de los 100 pacientes una vez ordenados, el paciente 25 es el cuartil 1, el paciente 50 es el cuartil 2 y el paciente 75 es el cuartil 3 (antes tienes que ordenar de menor a mayor.)

Un repaso:
– cuartil 1: valor X a partir del cual tengo el 25% de los datos por debajo y el 75% por arriba.
– cuartil 2 o mediana: valor X a partir del cual el 50% de los datos están por debajo y por arriba
– cuartil 3: valor X a partir del cual el 75% de los datos están por debajo y el 25% por arriba

Una distancia para dibujar la caja

La dimensión de la caja viene definida por el Q1 y el Q3. La distancia que hay entre estos dos valores es el rango intercuartílico. Así de fácil.

IQR = cuartil3-cuartil1

Valores extremos y valores raros

Ahora viene lo difícil. ¿Preparado? El boxplot es un instrumento muy astuto y no se fía de los valores muy muy grandes o los valores muy muy pequeños. Los calificará como raros y los pintará con una crucecita o un puntito.

Para distinguir si son valores raros o outliers el boxplot utiliza una regla muy sencillita. Cualquier valor que sea más grande que 1.5 veces la distancia de la caja + cuartil 3 es un valor muy muy grande. El bloxplot lo considerará un valor extraño o outlier. Lo dibujará con una cruz o un puntito.

También para los valores muy muy pequeños. Cualquier valor de la variable que sea menor que el cuartil 1 menos la distancia de la caja, el boxplot lo considerará un valor muy muy pequeño. Será un valor raro o outlier. Lo dibujará con una cruz.

Me preguntarás, ¿y la longitud de las patas del boxplot, cómo la sabes? Muy sencillo. El boxplot considera que el valor más alto que es normal (extremo superior), es el primer valor que se encuentra justo por debajo del cuartil 3 más 1.5 veces la longitud de la caja.

Para el valor más pequeño normal (extremo inferior) el boxplot  hace lo mismo. Considera que el valor más pequeño y NO raro, es el primer valor que se encuentra justo por encima del cuartil 1 menos la longitud de la caja.

La Píldora Estadística: el box-plot

Te dejo el vídeo de la colección Píldoras Estadísticas dónde te comparto el resumen del boxplot. Espero que ahora te quede un poquito más claro que antes 😉

Imagen de portada: flickr.com de Institut for global Health Barcelona


Hasta aquí la historia del boxplot. Como sé que te ha servido al menos un poquito sólo te pido que compartas en las redes el post y los vídeos. Me ayudarás a difundir el conocimiento estadístico 😀 ¡Un abrazo!

Acerca del autor

Jordi Olle Sanchez

Autor de ConceptosClaros.com. Ayuda a investigadores apasionados a aplicar estadística y análisis de datos en sus proyectos para catapultar su carrera investigadora y adaptarse a la era de los datos. Accede a los recursos gratuitos para aplicar estadística en tus datos

Interacciones del lector

Comentarios

  1. ernesto dice

    Jordi: Gracias, primera vez que entiendo estos cuadritos, al parecer cuando yo di estadistica médica en la carrera o no me lo dieron o lo pase por alto, no solo lo voy a leer y estudiar yo si no que se lo explicare a mi colectivo para que entienda mejor esos cuadritos que hasta ahora eran inentendibles, una vez mas gracias

    • Jordi Ollé dice

      jajajajaja

      La verdad que los cuadritos tienen mucha información escondida!
      Se utilizan mucho pero es importante entender la esencia de los conceptos 🙂 jejej

      1 fuerte abrazo!

      Da gusto tener lectores como tu!

      • Eduardo dice

        Jordi,
        A menudo compartes materiales muy útiles e interesantes.
        En particular, considero que este post es excelente por lo claro y sintético.
        Gracias por compartir tus conocimientos de forma tan esmerada.
        Felicitaciones!!!

  2. gloria dice

    Jordi, super bien este post… me encata lo sencillo que haces que se vea todo, felicidades!!

    Solo una cosita… en la imagen del boxplot pones que el límite es «q3+1.5 IQR». Sin embargo, en los apuntes mencionas que es «cuartil 1 menos la distancia de la caja» y en el video (que creo que es lo correcto) dices «q1-1.5 IQR».

    Un abrazo!


Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

  Acepto la política de privacidad

Responsable del fichero: Jordi Ollé Sánchez
Finalidad; envío de mis publicaciones así como correos comerciales.
La Legitimación; es gracias a tu consentimiento.
Destinatarios:Como usuario e interesado te informo que los datos que me facilitas estarán ubicados en los servidores de Webempresa (proveedor de hosting de Conceptos claros) dentro de la UE. Ver política de privacidad de Webempresa
Podrás ejercer Tus Derechos de Acceso, Rectificación, Limitación o Suprimir tus datos enviando un email a jordi @ conceptosclaros.com o ante la Autoridad de Control
Encontrarás más información en política de privacidad
6-tecnicas-Mockup-presentacion

Y descubre: Un método eficaz para analizar los datos de tu proyecto o tesis doctoral con el fin de justificar tus resultados con seguridad y garantías de éxito