Me costó entender el concepto de Función de Densidad de Probabilidad. De hecho si no fuera por experimentar y «tocar» datos no lo hubiera entendido nunca. Con la típica explicación de profe de 20 minutos con un montón de fórmulas me hubiera quedado igual. A sí que creo que vas a agradecer que te introduzca este concepto con un ejemplo 😀 . Venga empecemos… ¿para qué sirve la Función de Densidad de Probabilidad?
Puedes descargarte el ejemplo aquí;
El ejemplo: Distribución de la población de una gran ciudad
Imagínate que quieres estudiar la altura de las personas de una población de una gran ciudad. La variable numérica es la altura de las personas en cm.
En esta ciudad son 2M de personas. Quieres ves como se distribuye la altura en cm de todas las personas que habitan en la gran ciudad. Pero recoger todos los datos de la población es imposible. Como dice un colega mío «¡Tardarías 1000!»
Así que decides encuestar a 100 personas al azar (es decir escoges una muestra aleatoria) y miras el histograma de densidad. (Recuerda que el de densidad significa que la suma de las áreas del histograma suma 1)
Pero ves que aún no te queda claro como se distribuyen las alturas de las personas. Crees que son pocas las personas que has encuestado. Te sientes con energía y encuestas a 1000 personas. Y pintas el histograma de densidad.
Buff… Empiezas a intuir cómo de distribuye tu variable numérica pero eres ambicioso. Contrastas a 10 personas para hace la encuesta a 1000 personas cada. En total tienes una muestra de 10.000 personas. Y pintas el histograma de densidad.
Fíjate como cada vez la distribución de tu variable es cada vez más suave y puedes intuir mejor como es la forma de la distribución. De hecho, de la densidad de la distribución.
Imagínate que res capaz de obtener los valores de la altura de 100.000 personas. Y pintas el histograma de densidad.
Ahora puedes ver como eres capaz de un contorno mucho más fino. Podrías dibujar el contorno fácilmente. ¡Mira esta imagen!
La función de densidad es precisamente este contorno. Es una linea continua que representa la distribución de densidad de TODA LA POBLACIÓN.
Como te he comentado el área de toda las barras del histograma suma 1. ¿Puedes adivinar qué área tiene la función de densidad? Fácil, 1. Es la probabilidad total de la distribución. Es LA propiedad por excelencia de esta función.
El ejemplo en R
En este vídeo te explico el ejemplo que te he expuesto de forma práctica. Es un script que va fantástico para entender que es una función de densidad de probabilidad.
¿Para qué sirve la Función de Densidad de Probabilidad?
No te he explicado porqué se dice de probabilidad. El área debajo de la curva es la probabilidad. Puedes calcular área debajo de la curva dentro de un intervalo. Puedes usar esta función para responder preguntas como:
¿Qué probabilidad tengo de obtener una personas entre 150cm y 166 cm? Simplemente calculas el área debajo la función entre 150cm y 166cm.
La función de densidad de probabilidad es una teoría para definir cómo se distribuye una variable numérica en una población. Es una teoría o una función matemática que viene a ser lo mismo.
Hay muchas distribuciones teóricas que se han inventado a lo largo de la historia. La más conocida la distribución normal. También la distribución de t-student, la de Poisson, la Gamma etc…
Son teorías matemáticas para expresar como se distribuye una variable numérica en la población.
Pero, ¿para qué sirve la Función de Densidad de Probabilidad?
- Tener una teoría de la distribución de una variable numérica en una población
- Calcular la probabilidad de ocurrencia. El área debajo de la curva
- Tener distribuciones de referencia cómo la distribución normal
Hasta aquí el post sobre la densidad de probabilidad. Espero que te haya gustado y los más importante que hayas entendido para qué sirve esta concepto que parecía tan complicado 😉 Recuerda que te puedes descargar el ejemplo de R aquí. ahora ya sabes para qué sirve la Función de Densidad de Probabilidad
¿Te ha servido el ejemplo de R para complementar la explicación?
excelente
Thanks!
Jordi, muchas gracias!!! La estadística es hermosa pero aún falta mucho para que haya cursos más aplicados que ayuden a entender mejor y tu post ayuda mucho.
Saludos
Muchas gracias Gabriel!
Este tipo de comentarios me empujan a seguir compartiendo contenidos como este 🙂
Excelente aporte. Tenía algunas dudas antes de ver este post y se aclararon, además de la utilidad del ejemplo en R. Gracias!!!
Ojalá la estadística se explicara así (aunque no es posible siempre)
Muchas muchas gracias Federico,
De eso trata el blog de acercar conocimientos complicados de manera más sencilla y amable.
Un abrazo y gracias por pasarte!
Super claro todo. Enhorabuena
Muchas gracias 🙂
Una pregunta estaba revisando el libro de Peter Stoner la ciencia Habla, donde hace una lista de varias profecías bíblicas y analiza su probabilidad, sin embargo lo analiza en forma dependiente, si yo quisiera tratar cada suceso como dependiente q formula utilizaría.o sería la más recomendable
Perdón, Peter Stoner, lo analiza en forma independiente.
Hola Jeny!
Para comparar medias entre dos grupos es importante entender si las variables son dependientes o no.
Dos variables son dependientes si es la misma observación pero al paso de 3 meses (después de un tiempo).
Por ejemplo, mides el peso de una muestra de pacientes antes y después de una dieta.
En este caso, hablamos de 2 variables dependientes.
Puedes acceder a mi curso gratuito dónde te puedes descargar una lista de las pruebas estadísticas.
https://conceptosclaros.com/curso-estadistica-dummies/
1 fuerte abrazo!
Hola… soy Alex. En el ejemplo tu trabajas con datos obtenidos de R (hablo de los 100, 100′, 10000..) pero que pasa cuando tenemos datos obtenidos de muestreo, por ejemplo fuí campo y obtuve la talla de 350 peces. Como elaboro un histograma de densidad, ocupo mis datos o tengo que extrapolar mis dato?, aun me falta entender eso. En lecciones anteriores mencionaste que cuando tiene dos histogramas con diferentes frecuencias no puedes compararlos, así que puedes ocupar el histograma de densidad, pero como es esto posible?, cómo sería la interpretación? Agradezco la ayuda. Muchos saludos.
Hola Alejandro!
Puedes utilizar el código que te doy en el ejemplo. De esta manera podrás pinar el histograma de densidad sin problemas.
Siempre que tengas 2 variables pintadas con un histograma de densidad podrás compararlas perfectamente.
Espero haberte ayudado!
Hola Jordi,
adquirí el curso de FastTrack y quiero hacer algo parecido al ejemplo que tienes de dos funciones de densidad en un mismo gráfico pero he buscado en ejemplos y no me aclaro mucho.
La cuestión es que tengo un dataset en txt separado con tabulaciónes extraído del excel donde tengo dos variables, una localización (0, 1) y temperatura en grados. La cuestión es que quiero que se vea en un mismo gráfico las distribuciónes de probabilidad donde la mediana y la media de cada gráfico se vean… podrías echarme un cable?
Por otro lado de esta misma variable me gustaría hacer la U de Mann Whitney… que ya la tengo pero… de que manera opinas que es mejor presentar esos datos?
Gracias!
Hola Juan!
En el mismo curso Fast Track tengo un ejemplo donde puedes ver las dos distribuciones en un mismo gráfico.
El ejemplo es el de comparación de medias.
Por si no lo ves claro aquí te dejo un ejemplo más simples para que lo puedas replicar:
https://stackoverflow.com/questions/6939136/how-to-overlay-density-plots-in-r
¡Espero que te sirva!
Excelente
Hombre, lo mínimo que puedo hacer es agradecerle por usar su tiempo para crear estas cosas, muy claro y muy útil.
Muy bien explicado, saludos desde Republica Dominicana!
Excelente explicación. Éxito en tus proyectos.
Gracias Jesus!
Hola Jordi,
A pesar de estar el vídeo muy bien, creo que no se terminan de aclarar todos los conceptos. Aquí existen tres conceptos: el histograma, el cual su eje y puede tener frecuencias absolutas o relativas en tanto por 1 respecto al número total de muestras, la función de densidad de probabilidad o PDF, y la función cumulativa CDF. Mi pregunta es: que diferencia hay entre lo que has hecho (un histograma, aunque supongsmos que está normalizado a 1 su eje y, ya que la altura de cada Bin está dividido por el número total) y su PDF asociadas?