material consulta estadística

Resumen de Estadística. El Material de Consulta Definitivo 1

¡Aquí tienes la primera entrega de 3 superpost de Resumen de Estadística! No pierdas más el tiempo en buscar en internet. Tienes el resumen de Estadística definitivo. Este post está diseñado para que sigas un camino conceptual que va desde 0 conocimiento a saber manejarte con una variable numérica. Ten paciencia en el próximo mes te presentaré las dos entregas que faltan. ¡Disfrútalo!

Introducción a la Estadística​

La ESTADÍSTICA es una ciencia que te permite tener una mejor interpretación de los fenómenos que observas. Te ofrece herramientas para estudiar y evaluar acontecimientos reales a partir de datos.

La ESTADÍSTICA tiene un sinfín de aplicaciones. Sólo necesitas observaciones de acontecimientos reales. La ESTADÍSTICA te proporcionará una valoración OBJETIVA. Aprenderás gracias a los datos.

La ESTADÍSTICA responde a preguntas y tiene un OBJETIVO definido detrás de cada aplicación.

¿Quieres saber ejemplos de aplicación?

¿Quieres saber las etapas en una INVESTIGACIÓN ESTADÍSTICA?

Datos y variables

Para conseguir un OBJETIVO, la ESTADÍSTICA utiliza DATOS obtenidos a partir de observar la realidad. La ESTADÍSTICA se encargará de aprovechar los DATOS: los traducirá y los evaluará para que aprendas y tomes decisiones.

Los DATOS son observaciones de VARIABLES. Por ejemplo: la altura, el peso, el coeficiente de inteligencia, la calidad del vino, la velocidad del viento, la lluvia por metro cuadrado, el país de origen ...

La tabla de datos. Antes de usar la estadística ordena tus datos en una tabla

Tipos de variables. Aprende qué variables puedes observar

Muestra y población

Se pueden RECOLECTAR datos directamente observando la realidad o de un experimento controlado y concreto.

  • Observa la realidad. Por ejemplo guarda los datos de la velocidad de viento media diaria durante 1 mes. Observas cada día que valor de velocidad media tienes- Al final del mes obtienes 30 observaciones. 
  • Crea tu propio experimento. Muy típico en medicina, biología. Un experimento: dos grupos de personas. Uno de los cuáles toma un fármaco y la otra no. Quieres ver si el fármaco es efectivo o no. Si el fármaco es efectivo quieres inferir los resultados de este grupo a toda la población.

Imagina que quieres evaluar el salario medio de un habitante de la ciudad de Barcelona. En lugar de RECOLECTAR los datos observando toda la POBLACIÓN de Barcelona prefieres escoger un pequeño grupo de personas, una MUESTRA.

Tener disponibles los datos de toda la POBLACIÓN puede ser imposible cuando el número de INDIVIDUOS es MUY MUY grande. ¿Qué haces? Escoges una MUESTRA representativa de la población.

Escogiendo la muestra

El hecho de escoger una muestra de la población es llamado MUESTREAR.

  • Muestra aleatoria. Se trata de escoger la muestra al azar. Todas la teorías de la inferencia estadística son validas si la muestra es aleatoria.
  • Muestreo por etapas. La idea es mostrear aleatoriamente por etapas de mayor a menor entidad. ¿No has entendido nada? Lo vemos en un ejemplo:
Por ejemplo quieres obtener una muestra representativa de la Comunidad Valenciana:
Etapa1 => provincia =>te creas una muestra aleatoria las provincias
Etapa2 => comarcas =>te creas una muestra aleatoria de comarcas que están en las provincias de la Etapa1
Etapa3 => pueblos =>te creas una muestra aleatoria de pueblos que están en las comarcas de la Etapa2
  • Muestreo estratificado:​ se trata de muestrear aleatoriamente según un estrato con una determinada proporción en la población.
Por ejemplo, quieres la muestra representativa de una población confeccionada con 30% mujeres y 70% hombres. Si la muestra es de 100 personas, la idea es hacer una muestra aleatoria de 30 mujeres y una muestra aleatoria de 70 hombres. Estás respetando las proporciones 30 – 70. El estrato es el la variable categórica sexo.

Debes seleccionar qué estratos son importantes para tu investigación.

Las dos ramas de la estadística

Ligado al concepto de TABLA DE DATOS...

ESTADÍSTICA DESCRIPTIVA. La tabla de datos no te dice nada a simple vista. Es necesario describir los datos mediante gráficos o valores que los resuman.

La ESTADÍSTICA DESCRIPTIVA sintetiza las características de los datos y los dibuja para que los puedas interpretar.

Ligado al concepto de muestra y población ...

ESTADÍSTICA INFERENCIAL. Los datos de una muestra puden ser válidos o no. ¿Todos los estudios que haces en una muestra son representativos de toda la población?

El objetivo de la ESTADÍSTICA INFERENCIAL: convertir los resultados observados en una regla general o en una teoría

Analizando una variable numérica

En esta sección tienes información de cómo DESCRIBIR UNA variable numérica. Es parte de la estadística descriptiva.

Histograma y distribución

El histograma es un gráfico de barras y te da la idea de cómo esta distribuida la variable.

Para dibujar un histograma necesitas saber el número de BINS o clases.

Las clases son intervalos numéricos. Cada barra del histograma tiene su clase asignada.

La altura de cada barra es la frecuencia. La frecuencia es el número de observaciones que están dentro de una clase. Por cada clase tienes un valor de frecuencia. Mira el post del histograma 😀 encontrarás algún ejemplo de la tabla de frecuencias. 

La distribución de una variable numérica es el contorno de un histograma.

Densidad de probabilidad

​Puedes dibujar el histograma de densidad: el área de todas las barras suma 1. Las unidades del eje "y" son densidades. Se expresan como frecuencia absoluta/unidad de la variable numérica.

Te pongo un ejemplo. Estoy pintando el histograma de una muestra aleatoria de una población de personas. Estoy mirando sus alturas en cm. (Puedes descargarte el ejemplo en R 😀 )

Imagina que tienes una muestra aleatoria de 100 observaciones y dibujas el histograma de densidad.

Imagina que tu muestra es más grande y tenemos 1000 observaciones y dibujas el histograma de densidad.

Imagina que tu muestra es más grande y tenemos 10000 observaciones y dibujas el histograma de densidad.

Con toda la población obtenemos un histograma con clases super pequeñas. Podemos dibujar un contorno.

Imagina que tienes los datos de toda la población y el número de observaciones es tan grande que puedes crear clases super pequeñas. Entonces, el contorno del histograma será como una función continua. Esta es la función de densidad de probabilidad.
  1. La función de densidad de probabilidad no es más que un histograma de densidad llevado al límite.
  2. ​​El contorno de este histograma es una densidad de probabilidad. Es una función teórica.
  3. ​Su nombre es debido a que el área debajo la distribución de densidad de probabilidad es la probabilidad. El área total de la distribución de probabilidad es 1. Es la probabilidad total.
  4. ​Para calcular probabilidades hay que calcular el área debajo la curva (es decir la integral de la función densidad de probabilidad).
  5. La distribución de densidad de probabilidad es una ley teórica de la población. En mates es una función continua.

Medidas para describir la distribución

MEDIDAS DE CENTRALIDAD

  • LA MEDIA es el valor del punto de equilibrio de los datos (de la distribución)

Imagina que tus datos son el peso en kg de un grupo de 30 personas. La media parte el grupo en dos. El peso total de cada grupo será el mismo.

  • LA MEDIANA es el valor que parte en dos grupos los datos. Estos tienen el 50% en número de datos cuando los tienes ordenados de pequeño a grande.

El área debajo de la distribución es igual a la derecha que a la izquierda de la mediana.

  • LA MODA es el valor más repetido de la variable numérica.

MEDIDAS DE DISPERSIÓN y POSICIÓN

  1. EL CUARTIL 25 es el valor que parte en dos grupos los datos. Un grupo tiene el 25% de los valores más pequeños y el 75% son valores más grandes.
  2. EL CUARTIL 50 es LA MEDIANA
  3. EL CUARTIL 75 es el valor que parte en dos grupos los datos. Un grupo tiene el 75% de los valores más pequeños y el 25% son valores más grandes.
  4. RANGO INTERCUARTÍLICO (IQR): es la diferencia entre Q3 - Q1
  • DESVIACIÓN ESTÁNDAR y VARIANCIA es el valor de la dispersión a la media. Es la media de la suma de las distancias a la media.
  • EL MÁXIMO, EL MÍNIMO y EL RANGO también son medidas de dispersión. (El rango es las distancia entre el mínimo y el máximo)

¿Para qué sirve la media y la mediana?

¿No entiendes que es la dispersión de una distribución? ¡Mira esto!

¿Quieres fórmulas? No te asustes son fáciles 🙂

Características de una distribución

Las dos medidas más utilizadas para describir la forma de una distribución son:

Asimetría. ¿Es la distribución simétrica o no? Un ejemplo de distribución simétrica es la distribución Normal.

Curtosis o medida de la centralidad. ¿Tiene valores centrados o son dispersos? ¿Es la distribución ancha o estrecha?

Gráficos descriptivos de una variable

  • Histograma

Es el diagrama de barras por excelencia. Te permite saber muy rápidamente cómo está distribuida tu variable numérica. La variable numérica se divide en intervalos o clases y se dibuja una barras por clase. Cada barra corresponde a la frecuencia de ocurrencia.

  • Diagrama de frecuencias​

El diagrama de frecuencias es equivalente al histograma. Es la unión de las barras mediante una línea. Te da información de cómo está distribuida tu variable. Es un diagrama de línea que te permite comparar dos o más variables numéricas y ver su distribución.

  • La nube de puntos (este me lo he sacado de la manga)​

Simplemente representas los valores de la variable numérica en puntos para hacerte una idea de el rango de la variable, el valor mínimo el máximo y la dispersión. 

  • Box-plot

Este gráfico es muy interesante. Trabaja con los valores del cuartil1, mediana o cuartil2, cuartil3. Además utiliza el valor máximo y mínimo así cómo refleja valores anómalos.

Este gráfico te da una idea muy clara de cómo se distribuye tu variable numérica.

El valor anómalo está muy lejos de la mayoría de los valores de la variable numérica. Por ejemplo el sueldo de Messi es enorme comparado con la media del sueldo de sus compañeros. Es un valor anómalo.
  • QQ-plot

Es un gráfico que te permite:

  1. Ver si muestra es cercana a la distribución teórica que esperas.
  2. Comparar dos muestra numérica y ver si tienen una distribución parecida​

Se pintan los valores de los cuartiles de tu variable numérica en función de los cuartiles de la distribuicón teórica que quieres comparar o la variable numérica que quieres comparar.

Una de las prácticas más utilizadas es para saber si una variable numérica está cerca de la distribución normal.

NO TE VAYAS SIN DESCARGARTE UN EJEMPLO 

¡Aquí tienes el primer superpost! No pierdas más el el tiempo en buscar en internet. Tienes el resumen de Estadística definitivo. Este post está diseñado para que sigas un camino conceptual que va desde 0 conocimiento a un bueno. Sino entiendes alguna cosa ves para arriba para encontrar el significado. No olvides de ponerlo en favoritos. Lo vas a agradecer. ¡Ya lo verás!

¿Te ha servido el post? Está resumido lo sé, pero ¿se entiende bien?

Acerca del autor

Jordi Olle Sanchez

Autor de ConceptosClaros.com. Ayuda a investigadores apasionados a aplicar estadística y análisis de datos en sus proyectos para catapultar su carrera investigadora y adaptarse a la era de los datos. Accede a los recursos gratuitos para aplicar estadística en tus datos

Interacciones del lector

Comentarios

    • Jordi Ollé dice

      Hola Gilary!

      Las medidas de centralidad pueden ser la media o la mediana.
      Si tienes distribuciones en forma de montaña. Es decir un histograma simétrico parecido a la distribución normal utiliza la media.
      Si tienes distribuciones diferentes a la distribución en forma de montaña utiliza la mediana.

      Si lo que quieres es centralizar los datos. Es decir escalar los datos. Lo mejor es quitar la media y dividir por la desviación estándar. (X-Media)/Desviación Estándar.
      De esta manera conseguirás tener la variable numérica centrada en 0 y desviación estándar 1.

      Espero que te sirva!

      Un abrazo!

  1. Roberto dice

    Este material es justo mi idea que en un correo te comente

    Creo que esto es lo que hay que enseñar como un razonamiento logico-estadistico
    o como logico-investigativo.

    Con C2 y ejemplos cocinados poder desarrollar en el estudiante ese ojo que le permita
    al futuro investigador dejar que los datos hablen.

    Claro concidero que es previo a quererlo hacer investigador

    • Jordi Ollé dice

      Gracias Roberto!
      ültimamente he recibido muchos emails y voy un poco liado. A lo mejor se me ha saltado alguno!
      Gracias por tus mensajes!

  2. Ernesto dice

    Una vez mas gracias Jordi, entendí de maravilla todo ahora falta llevarlo a la práctica es verdad que es inconcebible un profecional que no domine aunque sea un poco la estadistica saludos Ernesto R

  3. Alan Córdova dice

    Hola Jordí, los comandos para los para dibujar el boxplot, el qqplot mediante plotly no están en el R que se descarga.

    Podrías enviarmelos?.

    Alan

    • Jordi Ollé dice

      Están a bajo del código 🙂

      # Dibujamos el boxplot de x
      plot_ly(y = muestra[,1], type = «box»,name = » «)%>%
      layout(title = «Box-Plot»,yaxis = list(title = «Muestra X»))

      # Dibujamos el qqplot de x
      gg_qq(x,distribution = «norm»,labels = «x»)

  4. Jose Pedro dice

    Excelente post Jordi! Estoy comenzando a meterme en el mundo del machine learning y en la mayoría de los tutoriales y kernels utilizan estos conceptos pero sin explicarlos. Este post me ha servido de maravilla para recordar conceptos que hace un tiempo estudié en facultad pero que tenía un poco olvidados, y son fundamentales para meterse en el mundo de la ciencia de datos. Muchas gracias y saludos desde Uruguay!


Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

  Acepto la política de privacidad

Responsable del fichero: Jordi Ollé Sánchez
Finalidad; envío de mis publicaciones así como correos comerciales.
La Legitimación; es gracias a tu consentimiento.
Destinatarios:Como usuario e interesado te informo que los datos que me facilitas estarán ubicados en los servidores de Webempresa (proveedor de hosting de Conceptos claros) dentro de la UE. Ver política de privacidad de Webempresa
Podrás ejercer Tus Derechos de Acceso, Rectificación, Limitación o Suprimir tus datos enviando un email a jordi @ conceptosclaros.com o ante la Autoridad de Control
Encontrarás más información en política de privacidad
6-tecnicas-Mockup-presentacion

Y descubre: Un método eficaz para analizar los datos de tu proyecto o tesis doctoral con el fin de justificar tus resultados con seguridad y garantías de éxito