En este nuevo post te voy a explicar 7 técnicas de análisis de datos que puedes aplicar hoy en tus proyectos científicos o de investigación.
Lo bueno es que estas técnicas son aplicables aunque no seas científico o investigador. Simplemente si tienes datos y quieres explotarlos para tomar mejores decisiones y avanzar.
Vamos a desvelar estas técnicas que seguro que te ayudarán a enfocar tus proyectos y saber cómo trabajarlos.
El objetivo del artículo de hoy es que conozcas lo que puedes pedirle a tus datos sin entrar en los detalles. Un paso fundamental antes de empezar a aprender y atender a los detalles de las técnicas.
¡Vamos a ello!
Antes de conocer las técnicas de análisis de datos… La estrategia es lo primero
Antes de desvelarte la lista de técnicas de análisis de datos es importante resaltar algo increíblemente importante y que seguramente pasas por alto ahora mismo.
Para que puedas explotar los datos de forma ordenada lo primero es la estrategia.
Los que somos ingenieros, científicos tendemos a perdernos en los detalles.
Aquí se trata de alejarnos y pensar en el contexto de tu proyecto.
Me refiero a:
- Qué quieres conseguir con tus datos.
- Qué preguntas quieres contestar con tus datos.
Y esas preguntas tienen que estar relacionadas si o si con la problemática que soluciona tu proyecto que estés desarrollando.
Déjame ponerte un ejemplo:
- Es muy diferente tratar de comparar los factores que afectan a una lesión grave de una lesión leve.
- Que ser capaz de estimar cuándo se va a lesionar el jugador y dónde.
Los datos pueden ser los mismos en ambos casos pero las técnicas y estrategias de análisis de datos serán completamente diferentes.
Antes de conocer las técnicas coge papel y lápiz y escribe:
- ¿Cuál es la problemática que quieres solucionar? El problema a solucionar
- ¿Cuál es el contexto de tu proyecto? Qué se ha hecho hasta ahora en relación a tu problema
Una vez hayas hecho este ejercicio escribe:
- En una frase define qué quieres conseguir de tus datos.
- Lista 5 preguntas que quieres contestar si o si de tus datos.
Para poder realizar este ejercicio y listar bien las preguntas que quieres contestar de tus datos te recomiendo que mires las técnicas que te voy a listar en este artículo.
Ya verás que dentro de los tipos de preguntas puedes:
- comparar
- relacionar
- modelizar los datos (causa-efecto)
- segmentar
- reducir la complejidad
- predecir /estimar
¿Preparada para conocer las técnicas?
¡Vamos a ello!
1- Técnicas de descripción y exploración de los datos
Las técnicas de descripción o exploración de los datos son fundamentales.
Se trata de traducir las tablas de datos en gráficos y tablas resumidas que que puedas entender.
Ya sabes que los datos no son más que listas de números y letras ordenadas por variables.
Que a simple vista puedas sacar información.
En cambio si conviertes esa información a gráficos ya puedes obtener mucho jugo de esos datos.
Para ello te he preparado algunos artículos para que puedas convertir tus datos en gráficos relevantes para ti:
Una cosa importante.
La descripción te acompañará siempre en cualquier análisis de datos: ya sea para crear un modelo estadístico o para entrenar un algoritmo etc…
Presta la atención que se merece 😉
2- Técnicas de asociación y correlación
Una de las cosas que seguro que vas a hacer en algún momento es relacionar o asociar.
Se trata de ver si dos características están relacionadas de alguna forma.
El concepto más común de la asociación es la correlación Se trata de evaluar si dos variables cuantitativas están asociadas.
Por ejemplo, evaluar si la esperanza de vida está relacionada con el PIB per cápita de los países.
Fíjate que aquí no obtienes la información de que la esperanza de vida depende del PIB per cápita sino que sólo puedes llegar a la conclusión que están relacionadas las dos variables.
Si quieres saber si la esperanza de vida depende del PIB per cápita (causalidad) tendrás que utilizar las técnicas del punto 4.
La correlación no es causalidad.
3- Técnicas comparativas
Aquí quiero que pienses en comparar grupos.
Por ejemplo:
- Comparar un grupo control de uno de investigación.
- Comparar países por continentes.
- Comparar ventas por productos.
- Etc…
Se trata de ver si los grupos son diferentes o no y qué diferencias hay.
Una de las técnicas más utilizadas para ello son las tablas ANOVA.
4- Modelos estadísticos o modelos causales
Si en el punto 2 vas a conseguir cuantificar la asociación entre variables, aquí vamos a modelar las relaciones causa-efecto.
Es decir:
¿La esperanza de vida depende del PIB per cápita de los países?
Se trata de poner la Esperanza de vida en función del PIB per cápita.
Matemáticamente:
- Esperanza de vida = f(PIB per cápita) = b + a*PIB per cápita
Eso es precisamente lo que conseguimos con los modelos estadísticos.
Demostrar si los factores afectan a una respuesta.
Si el PIB per cápita afecta a la esperanza de vida.
En realidad, las técnicas de asociación y comparación complementan los modelos estadísticos que son los más potentes para sacar jugo a los datos.
Algunos modelos estadísticos:
- Regresiones logísticas
- Regresión lineal
- Modelos lineales generalizados
- etc…
En las técnicas del punto 5, 6 y 7 vamos a dar un salto en la complejidad y el valor que puedas extraer de tus datos.
Son técnicas de reconocimiento de patrones 🙂
5- Segmentación de datos
La primera de las tres técnicas de machine learning o reconocimiento de patrones es la segmentación de datos o clustering.
Crear grupos de clientes similares, pacientes similares, piezas similares etc… similares a unas determinadas características.
Eso es segmentación.
Es agrupar.
Está claro que tu puedes agrupar los países por continentes por ejemplo.
Esos grupos son conocidos.
Pero a lo mejor queremos agrupar los países según aspectos como, esperanza de vida, índice de natalidad, tasa de paro etc…
Eso ya no es tan evidente.
Para conseguirlo puedes utilizar técnicas de clustering como k-means, Gaussian Mixture Models, de segmentación de datos.
El objetivo principal es crear estos nuevos grupos según las características que tu elijas.
6- Reducción dimensional
En muchas ocasiones el número de variables a tener en cuenta hace que el problema sea complicado de abordar.
Por ello, puedes reducir el problema.
Reducir el número de variables para que el problema sea manejable.
Incluso estas técnicas se utilizan para poder representar en dos o tres dimensiones muchas variables a la vez.
Puedes acceder a este artículo sobre PCA que es realmente muy bueno.
7- Algoritmos y modelos predictivos
El último grupo de técnicas que puedes utilizar son los algoritmos o modelos que nos permitan realizar proyecciones, predecir o estimar.
En el fondo, se trata de saber qué va a ocurrir con nuevos datos.
Estas técnicas se basan en aprender de datos pasados para poder estimar lo que va a ocurrir con nuevos datos.
Por ejemplo:
- Estimar qué probabilidades tiene un paciente sobreviva a una determinada enfermedad.
- Estimar los viajes o transportes de la semana que viene en las tiendas de la ciudad.
- Estimar las ventas en el próximo mes.
- Estimar las averías en tuberías de agua en los próximos 20 años.
- Etc…
¿Se ve la idea?
Mira este artículo sobre el ABC del machine learning para poder entender un poco mejor este grupo de técnicas.
¡A por ello!
—
Ahora ya conoces 7 posibles técnicas de análisis de datos que estoy seguro que puedes utilizar en tus proyectos hoy mismo.
Lo bueno de este listado es que es el orden lógico de trabajo que puedes seguir en tus proyectos y es el que te cuento más en detalle en el training gratuito de Analiza tus Datos.
¡Te espero dentro!
Buen artículo. Es sencillo, pero nos da las pistas necesarias para ubicarnos y trabajar mejor el planteamiento de nuestra investigación.