bases fundamentales de la estadística descriptiva

Histograma. Las bases fundamentales de la estadística descriptiva (Estadística gráfica Parte 1)

Vamos a sincerarnos… 🙂 ¿Te ha pasado alguna vez que cuando ves un histograma te imaginas apilando fichas en el tablero del clásico juego Cuatro en raya?

El histograma es de las primeras herramientas gráficas que nos explican en cualquier curso de estadística. Y no es para menos, ya que es una de las herramientas fundamentales de la estadística descriptiva.

La genialidad del histograma reside en su simplicidad: resume la variable numérica de un modo sencillo y eficaz.

En el fondo trocea una variable cuantitativa en intervalos.

Una vez la recorta la pinta en un diagrama de barras. La altura de las barras es la frecuencia. Y cada barra se sitúa en su debida clase o intervalo. 

Pero es que encima de ser un gráfico sencillo, nos permite entender qué es una función de densidad de probabilidad, el cual es un concepto mucho más abstracto y muy importante.

Y para más inri, se parece al cuatro en raya 😛

Este es el primer post de la serie estadística gráfica, dónde te quiero explicar las herramientas gráficas más interesantes para que las entiendas y las utilices para visualizar tus datos. La intención de estos posts es que puedas usar e interpretar los gráficos de la mejor manera posible. Para ello te voy a ir definiendo los conceptos estadísticos que hay detrás de cada gráfico.

¡Espero que te sean muy útiles!

Es de las primeras herramientas gráficas que nos explican en cualquier curso de estadística,…pero, ¿sabes la estadística que hay detrás? ¿sabes cómo dibujarlo correctamente? Es interesante que veas y entiendas conceptos como: la frecuencia absoluta, la frecuencia relativa, el número de «bins», las clases…

¿Para qué se usan los histogramas? Una aplicación: la pirámide de la población

Empezamos con un ejemplo de aplicación del histograma.

Seguro que has visto alguna vez una pirámide de población. Puedes ver que se trata de muchas barras que nos indican la cantidad de hombres o de mujeres que tienen una determinada edad.

Te he puesto un ejemplo de una pirámide de la población de Cataluña para el 2015. Para dibujar esta pirámide necesitas saber las personas que viven en Cataluña y sus edades. Existen muchas páginas web que nos reflejan estos datos. Yo he encontrado los datos aquí.

Este gráfico te permite de manera muy visual saber cómo está distribuida la población por edades. Ver si una población es joven, si se está envejeciendo etc. Los sociólogos, incluso, clasifican las formas de las pirámides. (de los histogramas :))

Si es más gruesa de la parte inferior significa que tenemos una población que es joven y, es típica de los países menos desarrollados económicamente o, si es más gruesa en la parte media es una población que se está envejeciendo, típica de los países más «ricos» etc. Te dejo una página web muy interesante donde puedes ver las pirámides de población de todos los países del mundo.

piramide-poblacion-histograma

Como puedes ver en la figura la pirámide de la población está formada por dos histogramas girados.

  • Un histograma de las edades de hombres (azul)
  • Un histograma de las edades de mujeres (rojo)

Puedes descargarte los datos que he usado. Como has visto el histograma se trata de barras y cada barra indica la cantidad de la variable que queremos representar en un determinado segmento o intervalo o clase:) .

Es super útil como representación gráfica de la distribución de tu conjunto de datos. Si tienes un volumen alto de datos puedes intuir que tipo de distribución de probabilidad tienen tu variable.

El histograma se utiliza para representar variables cuantitativas o variables numéricas, en el fondo, datos numéricos.

La información representada por un histograma es muy potente y relevante para comprender la distribución y su forma.

¿Qué es un histograma? … con un símil: histograma y el 4 en raya

Ahora ya has visto que la pirámide de las población es un histograma (mejor dicho, dos histogramas). Pero detrás de él tienes más cosas que aprender. Para ello quiero explicarte el significado del histograma con un símil. ¡Venga empezamos!

Para mí un histograma es como poner fichas en una especie de tablero del mítico juego Cuatro en Raya, ¿te acuerdas?

Imagínate que en lugar de hacer la pirámide de la población de Cataluña  la queremos hacer del Pueblo de Pequeñiland. En el ayuntamiento de Pequeñiland tenemos el censo de la población y podemos disponer de la base de datos de la edad (variable numérica) y el sexo (variable categórica) de todos los habitantes del pueblo.

Piensa que cada persona es una ficha del juego con un número que es la edad y que puede ser roja o amarilla. (amarilla = Mujer, roja = Hombre). El número es la variable numérica y el color una variable categórica o cualitativa. Esta última te permite agrupar (clustering) según el sexo. Separas los dos colores.

histograma-cuatro-en-ralla-pequeñiland

Para el color rojo (el grupo de hombres) vas colocando fichas en el tablero del cuatro en raya teniendo en cuenta que cada columna del tablero representa un grupo de edades (de 10 en 10 por ejemplo). Fíjate en la figura.

Vas creando el mapa o el diagrama de la población fácilmente colocando la fichas en tu personalizado tablero del cuatro en raya. Puedes crear el tablero del juego con tantas columnas como quieras, cada columna tendrá como etiqueta un rango de edad, por ejemplo entre 0-5 años, 5-10 años, 10-15 años etc. Tienes libertad para diseñar tu propio tablero. (La distribución de fichas será distinta por cada tablero que diseñes. Pero las fichas que vas a utilizar son las mismas.)

Estamos haciendo dos cosas

  1. Personalizar el tablero. Decidir cuantas columnas tiene mi tablero y que rango de edad tiene cada una. Eso es la definición del intervalo de clases. En la imagen puedes ver que son de 0 a 10 años. Todos los intervalos son iguales.
  2. Segundo colocar las fichas en la columna correspondiente. Cuando ponemos una ficha encima de la otra, en realidad, lo que nos interesa ver es la altura de las columna de fichas. La altura representa la frecuencia absoluta. Estas alturas de fichas son el número de personas de ese rango de edad.  En el fondo estamos contando. (frecuencia absoluta)

Histograma y el tablero de fichas

Si te fijas en al imagen y en los valores representados en realidad el histograma es un diagrama de barras dónde la altura es la frecuencia o el número de observaciones por cada clase o intervalo. El eje vertical representa las frecuencias y el eje horizontal la magnitud en forma de intervalos de clase. Transformamos la variable a discreta creando una tabla de frecuencias previa.

Si unieses las barras con una línea dibujaría un contorno llamado polígono de frecuencias.

Los conceptos: frecuencias y clases

El histograma también llamado histograma de frecuencias. Las frecuencias absolutas representan el número de personas u observaciones que tenemos en cada clase o en cada intervalo. Estas alturas representan frecuencias absolutas o frecuencias relativas. Ahora te lo desarrollo un poco más 😉

Te le pongo fácil:

  1. La altura de las barras es la frecuencia absoluta. Cantidad de personas de un mismo rango de edad.
  2. La etiqueta de cada barra son las clases. Las clases son  intervalos de la variable numérica, en este caso rango de edades. Cada clase es un bin del histograma. La resolución de un histograma es proporcional a la cantidad de clases o bins.

En lugar de pensar en frecuencia absoluta o número de sujetos de una misma clase puedes pensar en porcentaje de la población. Eso es, en frecuencia relativa. Simplemente:

frecuencia relativa = frecuencia absoluta / número de datos

La frecuencia relativa representa la proporción de población con un rango de edad determinado.

Además de esto puedes pensar en acumular las frecuencias. Eso es podemos calcular la frecuencia absoluta o relativa acumulada. Acumulada significa sumar las fichas de cada columna por orden. En al figura que te he puesto seria lo siguiente:

frecuencia acumulada 1 = altura primera columna = 1
frecuencia acumulada 2 = altura primera columna + altura segunda columna = 1 + 3 = 4
frecuencia acumulada 3 = altura primera columna + altura segunda columna + altura tercera columna= 1 + 3 +3 = 7

El concepto de acumular las frecuencias nos puede servir para visualizar los datos de otra manera. Puede ser interesante si quieres ver la uniformidad de la distribución de tus datos.

Así que podrías dibujar un histograma de frecuencias absolutas, un histograma de frecuencias relativas o un histograma de frecuencias acumuladas. Son representaciones gráficas basadas en tablas de frecuencias que ahora verás.

El lenguaje matemático y estadístico

Si eres purista y te gusta esto de las mates aquí te dejo con la notación matemática para los conceptos de frecuencia absoluta, frecuencia relativa, frecuencia absoluta acumulada y frecuencia relativa acumulada. En ocasiones vas a ver que estos conceptos se colocan en forma de tabla. Te muestro la tabla de frecuencias correspondiente al histograma de Pequeñiland aquí. Si abres el archivo podrás ver que por cada clase le corresponde un valor de frecuencias. Y por cada frecuencias podrías representarla con el histograma.

  • Número de datos: N
  • Datos, variable numérica (edad): x = [x_1, x_2, ..., x_N_-_1, x_N]
  • Número de clases o BINS: G
  • Frecuencia absoluta: f = [f_1, f_2, ..., f_G_-_1, f_G]
  • Frecuencia relativa: fr = [fr_1, fr_2, ..., fr_G_-_1, fr_G]
  • Frecuencia absoluta acumulada: F = [F_1, F_2, ..., F_G_-_1, F_G]
  • Frecuencia relativa acumulada: Fr = [Fr_1, Fr_2, ..., Fr_G_-_1, Fr_G]
  • Fórmula de la frecuencia relativa:

    \[ fr_i = \frac{f_i}{N} \]

  • Fórmulas frecuencia absoluta acumulada:

\\F_1 = f_1\\F_2 = f_1+f_2\\F_3 = f_1+f_2+f_3\\...\\F_c = f_1+f_2+f_3+...+f_c

Esto es todo lo que te quería contar sobre el histograma en estadística. Espero que hayas comprendido para qué se usan los histogramas y para sirve un histograma de frecuencias. Ha sido un post un poco teórico pero necesario para poder usar este gráfico. El siguiente paso, aprende a dibujar el histograma en Excel.

Si has llegado hasta aquí te recomiendo que le des un vistazo a otros artículos sobre estadística aplicada.

¡1 abrazo! 🙂

11 comentarios en “Histograma. Las bases fundamentales de la estadística descriptiva (Estadística gráfica Parte 1)”

  1. Martin Guzman

    Que exelente deseo recibir siempre este tipo de iformacion. Gracias muchas gracias por tu aporte

    1. Fernando Procel

      Hola Jordi. Es muy generoso de tu parte compartir tus conocimientos hacia la comunidad, sobre todo a quienes estamos inmersos de una u otra forma en el fascinante mundo de la estadística. Sigue adelante.
      Saludos desde Riobamba (Ecuador),
      Fernando Procel

  2. Hola Jordi, Excelente trabajo, Explica muy bien conceptos de uso diario de los cuales no tenemos claridad de la forma en que nuestras herramientas de análisis los Obtienen… Muchas Gracias!!!

    1. ¡Gracias Norberto!
      Tienes razón. Cuando usamos herramientas de análisis en el día a día a veces perdemos la esencia que hay detrás. Y una de las misiones de blog es que estos conceptos queden claros y el material sirva de guía/recordatorio.
      Un saludo!

  3. Hola Jordi, gracias por tu trabajo, estos artículos me están sirviendo mucho . Necesitaba acercarme a la estadística pero estoy hecha un lío. Queria preguntarte si eras tan amable de «explicar para tontos» para que puede servir saber las frecuencias absolutas y relativas ACUMULADAS, no entiendo qué valor práctico pueden tener saber «la uniformidad de la distribución de los datos»

    Gracias anticipadas

    1. Entiendo que te duda recae en la frecuencias acumuladas.
      Las frecuencias acumuladas sirven para ver grandes saltos en determinadas clases de manera gráfica y con respecto a los clases anteriores.
      Es decir, imagínate que tienes una muestra de edades dónde hay un salto muy grande en personas en la edad entre 50 y 60 años. Este salto lo verías reflejado de manera muy clara en la gráfica acumulada y lo podrías comparar con los saltos de las otras clases.
      Es difícil de explicar sin poder adjuntar ninguna gráfica. Me encargaré de explicarlo, ampliando este post o escribiendo uno de nuevo 🙂
      Gracias

  4. Estic llegint tots els teus posts. sóc estudiant del Master de Ciències de dades de la UOC. Ets un crack i molt didàctic nanu, en algun dels articles t’ho havia de dir!
    No descarto més endavant quan acabi el Master fer el teu curs per acabar de consolidar coneixements.
    🙂

  5. Hola Jordi, llegué a tu página por una amiga y me ha resultado muy útil todo lo que he descargado. En especial me han ayudado mucho tus consejos sobre R. Trabajo mucho con R y hay momentos en los que me trabo y no veo cómo seguir.
    Saludos, desde Cuba

Los comentarios están cerrados.

Scroll al inicio