Bienvenido al curso Pro Statistics
Puedes acceder a la versión Premium con tutoriales paso a paso, soporte y asesoramiento
Índice >> Lección 1 >> Lección 2 >> Lección 3 >> Lección 4 >> Lección 5 >> Lección 6 >> Lección 7 >> Lección 8 >> Lección 9 >> Lección 10 >> Lección 11 >> Lección 12 >> Lección 13 >> Tutorial R >> Tutorial Excel >>Tutorial SPSS Errores >> Casos de Éxito >> Opciones para Aprender >> FAQ’s >> Lista de Softwares
¿Cómo analizar tus datos con el Mapa de Técnicas de Análisis y catapultar tu capacidad como técnico e investigador?
En las lecciones anteriores has visto conceptos fundamentales.
Estos están súper relacionados con la etapa de análisis de tus datos.
Entender el ABC del análisis de datos es muy importante.
Después de esta lección tendrás en mente un mapa mental de los problemas tipo y las técnicas más utilizadas en la práctica. Y esto es fundamental.
Con este mapa asimilado. Poseerás técnicas más que suficientes para avanzar en tu camino y saber plantear tus estudios como un profesional.
Sin este conocimiento te sentirás perdido y en un mar de dudas.
Esta lección te aportará luz y podrás, por fin, encarar el análisis de datos de tu proyecto 🙂
… ¿Listo? … ¡Despegamos!
Tabla de contenidos# Antes de utilizar el mapa de técnicas explora tus datos# Descubre los 6 problemas tipo# Extra: técnicas avanzadas que están de moda
# Antes de utilizar el mapa de técnicas explora tus datos
Sólo un pequeño aviso y consejo.
Antes de decidir qué tipo de análisis es muy importante explorar bien tu tabla de datos.
Entenderla.
Visualizarla.
Cuestionarla.
Una vez hecho ya puedes pasar a la metodología de análisis. Te he explicado cómo hacerlo en la segunda parte del curso.
No tienes excusa ahora 😉
Mi recomendación es ir de cosas las más sencillas posibles a otras más complicadas. Y siempre todo lo que hagas para alcanzar el objetivo que te hayas marcado en tu investigación.
Dicho esto te muestro el mapa de técnicas tan ansiado 🙂
# Descubre los 6 problemas tipo
Para que tengas una visión global te he listado los 6 problemas tipo del mapa del análisis 🙂
Con este mapa ordenarás tu cabeza y te sentirás mucho más cómodo con la estadística Aplicada 😉
Comparación de grupos >>
¿Cómo de diferentes son las distribuciones de mi variable numérica con respecto a los grupos de mi variable categórica?
Este problema, también conocido como comparación de medias es muy habitual. Y te voy a dar un par de ejemplos.
Imagínate que tienes un conjunto de 100 trabajadores. 50 de ellos son hombres y las otras 50, son mujeres. Tu variable categórica es el género. Con dos grupos: hombres y mujeres. ¿Si?
Y “tu pregunta de investigación” es si el sueldo anual es diferente dependiendo del género.En este ejemplo te he puesto dos variables:
- Por un lado, la variable numérica: el sueldo anual
- Por el otro, la variable categórica: el género
En este tipo de problemas vas a comparar los valores centrales de las distribuciones. Por este motivo el nombre técnico es el de comparación de medias.
Otro ejemplo. Imagínate que quieres comparar si dos especies de la tabla de datos Iris tienen la longitud del pétalo diferente o no.
En este caso puedes, primero, dibujar las distribuciones de la longitud del pétalo con las herramientas que ya sabes.
A simple vista puedes ver que el grupo de setosa tiene valores más bajos que versicolor.
Pero, ¿estadísticamente son diferentes? Es decir, ¿la población de setosa realmente tiene valores más bajos que versicolor? Esto es inferencia 😉
Voy a tratar de nombrarte las técnicas para solucionar este tipo de problemas en el mapa del análisis que te puedes descargar al final del artículo.
Comparación de proporciones >>
¿Cómo de diferentes son las proporciones de mis grupos de variables categóricas?
Este problema, también conocido como comparación de proporciones es un clásico. Es el mismo problema que el anterior pero con la particularidad que trabajarás con variables categóricas. O tablas de contingencias si lo prefieres 😉
Imagínate que tienes por un lado el porcentaje de fumadores y no fumadores de una población y por el otro el porcentaje de la población que ha tenido cáncer de pulmón.
Puedes saber el porcentaje de fumadores que han tenido cáncer y el porcentaje de no fumadores que han tenido esta enfermedad.
Comparar estas dos proporciones es el problema que te planteo. Se trata de saber si las dos proporciones de la población tienen o no diferencias estadísticamente. A partir, como siempre, de los datos de la muestra.
Voy a tratar de nombrarte las técnicas para solucionar este tipo de problemas en el mapa del análisis que te puedes descargar al final del artículo.
Relaciones en la tabla de contingencias >>
¿Qué dependencia tienen los grupos entre variables categóricas?
Este problema, también conocido como test de independencia de Chi Cuadrado es otro clásico. El objetivo es ver si los grupos están relacionados entre variables categóricas.
Te pongo un ejemplo y lo verás más claro. Imagínate que tienes datos de la repartición de tareas en casa entre chicos y chicas de parejas que llevan, como mínimo, 5 años viviendo juntos.
Imagínate que las tareas las puede hacer la chica, el chico, alternando uno u otro o conjuntamente. Tu variable categórica tiene 4 grupos. Y otra variable categórica que es tareas de casa con varios grupos: “lavar la ropa”, “lavar los platos”, “cocinar”, “hacer la compra”, “planificar vacaciones.
El objetivo de este tipo de problemas es ver si hay relación entre quién hace las tareas y el tipo de tarea de casa. ¿Se entiende?
Voy a tratar de nombrarte las técnicas para solucionar este tipo de problemas en el mapa del análisis que te puedes descargar al final del artículo.
Relaciones entre variables numéricas >>
¿Qué relación existe entre dos o más variables numéricas?
Este problema, también conocido como análisis de correlación es muy utilizado. Muchos lo engloban como un problema de exploración porque requiere gráficos como el matrixplot y diagramas de correlación.
Pero es, en el fondo, es un análisis. Y es muy semejante al problema 3 de la dependencia de grupos de variables categóricas (test Chi cuadrado).
En este problema vas a ver si hay relación entre variables numéricas por parejas. Por ejemplo. Tienes datos de 200 familias sobre las ganancias y los gastos. ¿Es verdad que se cumple que cuánto más tienes más gastas?
Vas a relacionar la variable numérica gastos con la variable numérica ganancias.
Esta pregunta se puede resolver con un análisis de correlación y ver si dependen las ganancias con las pérdidas.Te voy a poner otro ejemplo. Esta vez es de coches.
Imagínate que tienes una tabla de datos con dos variables numéricas de 48 modelos de coche. Consumo y peso.
Quieres ver si hay relación entre el consumo y el peso. Y lo vas a hacer con la ayuda de la correlación.
Voy a tratar de nombrarte las técnicas para solucionar este tipo de problemas en el mapa del análisis que te puedes descargar al final del artículo.
Modelos y predicción >>
¿Qué modelo matemático me permite predecir una variable en función de otras?
Hay muchas técnicas y modelos matemáticos para conseguir predecir una variable en función de la otra. Pero primero es mejor entender qué quiere decir un modelo de predicción.
¡Un ejemplo!
Es un caso médico muy común conseguir un modelo que te permita calcular la frecuencia cardíaca máxima en función de datos como la edad, la presión baja y alta, el sexo, la altura y el peso.
Si el médico tiene un modelo así podrá predecir con un margen de error aceptable la frecuencia máxima de un paciente sólo utilizando su edad, la presión baja y alta, la altura y el peso.
De esta manera se evita realizar una prueba complicada y costosa de esfuerzo. ¿Se ve?
Continúo con el ejemplo de los coches:
Si te acuerdas tenías una tabla de datos con dos variables numéricas. El consumo de distintos modelos de coche y el peso de estos modelos. Bien.
Ahora lo que vamos es a calcular un modelo lineal. Que te permita predecir el consumo de un modelos de coche en función del peso.
Aquí hay que entender dos cosas:
- Primero lo que hacemos es calcular el modelo matemático a partir de datos de la tabla.
- Después utilizamos nuevos datos para predecir la variable consumo en función del peso.
Para explorar este tipo de problemas utilizamos las mismas herramientas que en el problema de la correlación.
Te he preparado un artículo muy bueno dónde te explico qué es un modelo de predicción y además aprenderás qué es un modelo de regresión simple 🙂
Comprobar las restricciones >>
¿Cómo comprobar las restricciones de pruebas estadísticas?
Para utilizar muchos de los test estadísticos y solucionar este tipo de problemas es necesario que cumplan con restricciones. Las dos restricciones más famosas son:
- Si las distribuciones numéricas son normales
- Si las varianzas entre grupos son iguales.
En la guía del análisis encontrarás más información en relación a los test y gráficos para comprobar estas restricciones 😉
GUÍA DEL ANÁLISIS
Hoy quiero ofrecerte más valor. Te voy a regalar la guía del análisis.Ya verás que es una guía muy esquemática. No pretendo explicarte todas las técnicas una por una. Esto daría para un libro o para un curso. Más bien es una guía de consulta.
De esta manera tendrás la visión global de las situaciones más comunes. Y las técnicas que puedes utilizar y restricciones de uso.
# Extra: técnicas avanzadas que están de moda
Hasta aquí has visto un mapa de técnicas. Una visión 360º de los problemas tipo que te permiten estructurar las ideas en tu cabeza y ser más eficaz al analizar datos.
Con esta visión global puedes crecer muy rápidamente porque tienes las bases asentadas.
Lo grande del análisis de datos es que no paras de aprender. Y dependiendo de tu aplicación adaptarás el análisis o buscarás otras maneras de abordar tu problema.
A parte de las técnicas que has visto en la guía del análisis existen otras que están muy de moda y se utilizan mucho en disciplinas como el data mining (exploración masiva de datos en busca de patrones) o el machine learning (modelos matemáticos par aprender de los datos)
Te voy a listar unas cuántas para que entiendas un poco más todo el potencial de este mundo cada vez más en auge.
Modelos de predicción avanzados como los modelos regresión polinñomica, regresión logística y modelos como:
Los modelos lineal generalizados o GLM están más que de moda. Y se utilizan muchísimo. Son modelos parecidos a regresiones lineales pero con la complejidad que se está modelando el error. Estos modelos se adaptan a las necesidades de tus datos y las fórmulas matemáticas pueden ser muy complejas. Y tienen un sinfín de aplicaciones: en biología, diseño industrial, control automática, machine learning, procesado de imágenes.
O Modelos mixtos. Son regresiones lineales pero se añade un factor de azar que dependen de algunos variables numéricas y/o categóricas.
También existen otras técnicas como:
La reducción dimensional (PCA) se trata de reducir la dimensión de tus datos. Escogiendo qué parte de tus datos es la más importante y cuál es ruido.
El clustering es muy utilizado para agrupar variables por grupos según patrones o características. Es muy utilizado en machine learning no supervisado.
Algoritmos de clasificación como los regression trees. Fantásticos algortimos para poder agrupas las observaciones según características.
Y muchas más que me dejo en el tintero.
Conceptos claros es un bloq que va creciendo y te iré ampliando el conocimiento en estas técnicas 🙂
…
Las lecciones oficiales del curso Pro Statistics terminan aquí. Ahora tienes tiempo para pasarte por los bonus del curso e ir repasando algunos conceptos si es necesario.
Espero de corazón haberte ayudado durante todo este curso.
Espero, también, haberte dado la visión global del análisis de datos. Tanto en la exploración como en el análisis.
Si tienes cualquier duda o petición me puedes contactar en el formulario de contacto.
Si quieres avanzar a paso firme y aprender a aplicar los conceptos que has visto durante el curso puedes acceder al curso Analiza tu Estudio. Un acelerador de tu carrera como investigador 🙂
¡Un abrazo grande!
¡No dejes de perseguir tus sueños!
Jordi
…
ACCEDE A LA FORMACIÓN PREMIUM C2
Training Fast Track Analizar Datos desde cero
Curso Analiza tu Estudio