¿Para qué sirve la Función de Densidad de Probabilidad? Te lo explico con un script de R

Me costó entender el concepto de Función de Densidad de Probabilidad. De hecho si no fuera por experimentar y «tocar» datos no lo hubiera entendido nunca. Con la típica explicación de profe de 20 minutos con un montón de fórmulas me hubiera quedado igual. A sí que creo que vas a agradecer que te introduzca este concepto con un ejemplo 😀 . Venga empecemos… ¿para qué sirve la Función de Densidad de Probabilidad?

Puedes descargarte el ejemplo aquí;

DESCARGA EL EJEMPLO

Training Gratuito de Estadística

Descubre cómo analizar los datos de tus proyectos con éxito.

Sin perder miles de horas descifrando fórmulas estadísticas incomprensibles.

El ejemplo: Distribución de la población de una gran ciudad

Imagínate que quieres estudiar la altura de las personas de una población de una gran ciudad. La variable numérica es la altura de las personas en cm.

En esta ciudad son 2M de personas. Quieres ves como se distribuye la altura en cm de todas las personas que habitan en la gran ciudad. Pero recoger todos los datos de la población es imposible. Como dice un colega mío «¡Tardarías 1000!»

Así que decides encuestar a 100 personas al azar (es decir escoges una muestra aleatoria) y miras el histograma de densidad. (Recuerda que el de densidad significa que la suma de las áreas del histograma suma 1)

Pero ves que aún no te queda claro como se distribuyen las alturas de las personas. Crees que son pocas las personas que has encuestado. Te sientes con energía y encuestas a 1000 personas. Y pintas el histograma de densidad.

Buff… Empiezas a intuir cómo de distribuye tu variable numérica pero eres ambicioso. Contrastas a 10 personas para hace la encuesta a 1000 personas cada. En total tienes una muestra de 10.000 personas. Y pintas el histograma de densidad.

Fíjate como cada vez la distribución de tu variable es cada vez más suave y puedes intuir mejor como es la forma de la distribución. De hecho, de la densidad de la distribución.

Imagínate que res capaz de obtener los valores de la altura de 100.000 personas. Y pintas el histograma de densidad.

Ahora puedes ver como eres capaz de un contorno mucho más fino. Podrías dibujar el contorno fácilmente. ¡Mira esta imagen!

La función de densidad es precisamente este contorno. Es una linea continua que representa la distribución de densidad de TODA LA POBLACIÓN.

Como te he comentado el área de toda las barras del histograma suma 1. ¿Puedes adivinar qué área tiene la función de densidad? Fácil, 1. Es la probabilidad total de la distribución. Es LA propiedad por excelencia de esta función.

El ejemplo en R

En este vídeo te explico el ejemplo que te he expuesto de forma práctica. Es un script que va fantástico para entender que es una función de densidad de probabilidad.

DESCARGA EL EJEMPLO

Training Gratuito de Estadística

Descubre cómo analizar los datos de tus proyectos con éxito.

Sin perder miles de horas descifrando fórmulas estadísticas incomprensibles.

¿Para qué sirve la Función de Densidad de Probabilidad?

No te he explicado porqué se dice de probabilidad. El área debajo de la curva es la probabilidad. Puedes calcular área debajo de la curva dentro de un intervalo. Puedes usar esta función para responder preguntas como:

¿Qué probabilidad tengo de obtener una personas entre 150cm y 166 cm? Simplemente calculas el área debajo la función entre 150cm y 166cm.

La función de densidad de probabilidad es una teoría para definir cómo se distribuye una variable numérica en una población. Es una teoría o una función matemática que viene a ser lo mismo.

Hay muchas distribuciones teóricas que se han inventado a lo largo de la historia. La más conocida la distribución normal. También la distribución de t-student, la de Poisson, la Gamma etc…

Son teorías matemáticas para expresar como se distribuye una variable numérica en la población.

Pero, ¿para qué sirve la Función de Densidad de Probabilidad?

Tener una teoría de la distribución de una variable numérica en una población
Calcular la probabilidad de ocurrencia. El área debajo de la curva
Tener distribuciones de referencia cómo la distribución normal

Hasta aquí el post sobre la densidad de probabilidad. Espero que te haya gustado y los más importante que hayas entendido para qué sirve esta concepto que parecía tan complicado 😉 Recuerda que te puedes descargar el ejemplo de R aquí. ahora ya sabes para qué sirve la Función de Densidad de Probabilidad

¿Te ha servido el ejemplo de R para complementar la explicación?

Artículos relacionados.

Las 7 enseñanzas top de Ciencia de Datos en 2023 que he compartido con mis alumnos de AD

Análisis de Supervivencia paso a paso

Lista de gráficos estadísticos con R-Gallery y cómo implementarlos en la práctica

Sobre el autor

Jordi Ollé

Autor de ConceptosClaros.com. Ayuda a investigadores apasionados a aplicar estadística y análisis de datos en sus proyectos para catapultar su carrera investigadora y adaptarse a la era de los datos. Accede a los recursos gratuitos para aplicar estadística en tus datos

21 comentarios en “¿Para qué sirve la Función de Densidad de Probabilidad? Te lo explico con un script de R”

yobs
04/04/2017 a las 10:21

excelente
1. Jordi Ollé
  05/04/2017 a las 09:15
  
  Thanks!
Gabriel C
29/04/2017 a las 02:51

Jordi, muchas gracias!!! La estadística es hermosa pero aún falta mucho para que haya cursos más aplicados que ayuden a entender mejor y tu post ayuda mucho.

Saludos
1. Jordi Ollé
  03/05/2017 a las 13:26
  
  Muchas gracias Gabriel!
  Este tipo de comentarios me empujan a seguir compartiendo contenidos como este 🙂
Federico..
24/05/2017 a las 21:02

Excelente aporte. Tenía algunas dudas antes de ver este post y se aclararon, además de la utilidad del ejemplo en R. Gracias!!!
Ojalá la estadística se explicara así (aunque no es posible siempre)
1. Jordi Ollé
  26/05/2017 a las 12:04
  
  Muchas muchas gracias Federico,
  De eso trata el blog de acercar conocimientos complicados de manera más sencilla y amable.
  
  Un abrazo y gracias por pasarte!
JM
27/09/2017 a las 15:41

Super claro todo. Enhorabuena
1. Jordi Ollé
  27/09/2017 a las 17:11
  
  Muchas gracias 🙂
Jeny
27/09/2017 a las 23:10

Una pregunta estaba revisando el libro de Peter Stoner la ciencia Habla, donde hace una lista de varias profecías bíblicas y analiza su probabilidad, sin embargo lo analiza en forma dependiente, si yo quisiera tratar cada suceso como dependiente q formula utilizaría.o sería la más recomendable
Jeny
27/09/2017 a las 23:13

Perdón, Peter Stoner, lo analiza en forma independiente.
1. Jordi Ollé
  09/11/2017 a las 16:03
  
  Hola Jeny!
  Para comparar medias entre dos grupos es importante entender si las variables son dependientes o no.
  Dos variables son dependientes si es la misma observación pero al paso de 3 meses (después de un tiempo).
  Por ejemplo, mides el peso de una muestra de pacientes antes y después de una dieta.
  En este caso, hablamos de 2 variables dependientes.
  Puedes acceder a mi curso gratuito dónde te puedes descargar una lista de las pruebas estadísticas.
  https://conceptosclaros.com/curso-estadistica-dummies/
  
  1 fuerte abrazo!
Alejandro
03/12/2017 a las 09:48

Hola… soy Alex. En el ejemplo tu trabajas con datos obtenidos de R (hablo de los 100, 100′, 10000..) pero que pasa cuando tenemos datos obtenidos de muestreo, por ejemplo fuí campo y obtuve la talla de 350 peces. Como elaboro un histograma de densidad, ocupo mis datos o tengo que extrapolar mis dato?, aun me falta entender eso. En lecciones anteriores mencionaste que cuando tiene dos histogramas con diferentes frecuencias no puedes compararlos, así que puedes ocupar el histograma de densidad, pero como es esto posible?, cómo sería la interpretación? Agradezco la ayuda. Muchos saludos.
1. Jordi Ollé
  21/12/2017 a las 15:20
  
  Hola Alejandro!
  
  Puedes utilizar el código que te doy en el ejemplo. De esta manera podrás pinar el histograma de densidad sin problemas.
  Siempre que tengas 2 variables pintadas con un histograma de densidad podrás compararlas perfectamente.
  
  Espero haberte ayudado!
Juan Torregrosa Valls
29/01/2018 a las 13:25

Hola Jordi,

adquirí el curso de FastTrack y quiero hacer algo parecido al ejemplo que tienes de dos funciones de densidad en un mismo gráfico pero he buscado en ejemplos y no me aclaro mucho.

La cuestión es que tengo un dataset en txt separado con tabulaciónes extraído del excel donde tengo dos variables, una localización (0, 1) y temperatura en grados. La cuestión es que quiero que se vea en un mismo gráfico las distribuciónes de probabilidad donde la mediana y la media de cada gráfico se vean… podrías echarme un cable?

Por otro lado de esta misma variable me gustaría hacer la U de Mann Whitney… que ya la tengo pero… de que manera opinas que es mejor presentar esos datos?

Gracias!
1. Jordi Ollé
  07/02/2018 a las 17:37
  
  Hola Juan!
  
  En el mismo curso Fast Track tengo un ejemplo donde puedes ver las dos distribuciones en un mismo gráfico.
  El ejemplo es el de comparación de medias.
  
  Por si no lo ves claro aquí te dejo un ejemplo más simples para que lo puedas replicar:
  https://stackoverflow.com/questions/6939136/how-to-overlay-density-plots-in-r
  
  ¡Espero que te sirva!
GILBERTO JIMENEZ
27/04/2018 a las 18:25

Excelente
SERGIO CARDOZO PARRA
01/05/2018 a las 18:59

Hombre, lo mínimo que puedo hacer es agradecerle por usar su tiempo para crear estas cosas, muy claro y muy útil.
Moises Diaz
18/03/2020 a las 22:45

Muy bien explicado, saludos desde Republica Dominicana!
JESUS
08/04/2020 a las 16:54

Excelente explicación. Éxito en tus proyectos.
1. Jordi Ollé
  15/06/2020 a las 16:43
  
  Gracias Jesus!
  1. Carlos
    19/09/2020 a las 10:04
    
    Hola Jordi,
    
    A pesar de estar el vídeo muy bien, creo que no se terminan de aclarar todos los conceptos. Aquí existen tres conceptos: el histograma, el cual su eje y puede tener frecuencias absolutas o relativas en tanto por 1 respecto al número total de muestras, la función de densidad de probabilidad o PDF, y la función cumulativa CDF. Mi pregunta es: que diferencia hay entre lo que has hecho (un histograma, aunque supongsmos que está normalizado a 1 su eje y, ya que la altura de cada Bin está dividido por el número total) y su PDF asociadas?