Sabes que objetivos persigues con tus datos.
Sabes qué hipótesis de investigación quieres contestar.
Es momento de tratar tus datos para transformarlos en resultados.
¿Cómo?
¿Qué técnica aplico?
¿Qué pasos necesito dar?
Bien.
Tranquilo. Es cuestión de saber qué técnica utilizar en cada caso. Y no es tarea fácil.
Para encontrar la mejor técnica lo primero es entender la visión de los tres niveles investigativos que te ayudarán a definir la estrategia de análisis de datos de tu proyecto.
Es fundamental para entender el nivel de madurez de tu proyecto.
¿Empezamos?
Cómo analizar los datos: las dos estadísticas o dos visiones prácticas de la estadística aplicada
Una de las claves para entender cómo analizar tus datos es convencerte que la estadística es la herramienta para transformar datos en conocimiento.
Y no hablo de estadística como una rama de las matemáticas.
No.
Hablo de la estadística aplicada.
La estadística práctica.
No te voy a hablar de matemática y voy a evitar las fórmulas matemáticas casi por completo.
Para empezar quiero que entiendas las dos ramas de la estadística.
O las dos grandes herramientas estadísticas.
La estadística descriptiva
La estadística descriptiva trata de traducir tu tabla de datos en gráficos que puedas interpretar.
Y también, en características numéricas como la media, la desviación, el intervalo de confianza etc.
Se trata de un vistazo saber qué te dicen tus datos. Qué puedes ver de tu tabla de datos.
La estadística inferencial
Cualquier tabla de datos es una muestra de todo un conjunto de la población.
Por ejemplo, si quieres analizar cómo crece una determinada especie de lechuga con diferentes estrategias de cultivo deberemos recoger una muestra (un pequeño conjunto) de lechugas de una determinada especie.
No podemos analizar todas las lechugas del universo (población)
La inferencia trata de aportar conclusiones generales con un cierto error a partir de los datos de una muestra. Es decir, de un pequeño conjunto de datos.
La estadística inferencial se encarga precisamente de obtener modelos estadísticos generales a partir de casos particulares cuantificando el error que cometemos por no tener todos los datos posibles.
Esta es la gracia.
En resumen:
- La estadística descriptiva: dibuja
- Y la estadística inferencial: pronostica
Con esto claro ya puedes entender la pirámide del Análisis de datos.
¡Te ayudará a saber que estrategia de análisis de datos aplicar!
La pirámide del Análisis de Datos o los tres niveles investigativos
Para diseñar un buen plan de acción de análisis de datos es importante conocer qué podemos hacer con nuestros datos.
¡Eso es!
¡Qué posibilidades existen!
Para ello quiero compartir contigo los tres niveles investigativos.
O los tres niveles de tratamiento de datos que puedes aplicar en tus proyectos.
De más básico a más avanzado:
- NIVEL I – DESCRIPTIVO
- NIVEL II – INFERENCIAL
- NIVEL III – PREDICTIVO O DE RECONOCIMIENTO DE PATRONES
Te voy a poner un ejemplo de cada uno de ellos para que me entiendas.
Vamos a seguir el siguiente problema o investigación:
Imagínate que eres oftalmólogo y quieres encontrar diferencias entre los pacientes sanos y pacientes con glaucoma. El glaucoma es un deterioro del campo de visión debido a un deterioro del nervio óptico.
Para estudiar el glaucoma necesitamos estudiar precisamente el nervio óptico. Y medir sus dimensiones en pacientes sanos y pacientes con glaucoma. Y encontrar grupos de pacientes en relación a la gravedad del glaucoma.
Podríamos definir niveles de gravedad del glaucoma para poder diagnosticar rápidamente el estado del paciente. Y de alguna forma, a partir de las mediciones del nervio óptico, pronosticar el nivel de gravedad de glaucoma de los pacientes que tienen y tendrán.
Sin darme cuenta te acabo de describir los tres niveles investigativos 🙂 Vamos paso a paso…
¡Vamos a ello!
NIVEL I – DESCRIPTIVO
Se trata de explicar con gráficos y resúmenes numéricos los datos.
El objetivo es buscar indicios, encontrar tendencias y respuestas de tus datos. ¡Ojo! Sin evidencias estadísticas. Sin probabilidades o p-valores.
Por ejemplo, si queremos estudiar el glaucoma en los pacientes y hemos medido las dimensiones del nervio óptico en diferentes puntos del ojo podemos describir los datos en los pacientes sanos y los que tienen glaucoma.
Podemos comparar la distribución del grosor del nervio óptico en diferentes puntos del ojo.
Podemos comparar por sexo o por rangos de edad esas distribuciones.
Y empezar a encontrar indicios, tendencias de los datos en los dos grupos de pacientes.
NIVEL II – INFERENCIAL
Se trata de aplicar test estadísticos para responder hipótesis de investigación en tres sentidos:
- Relacional
- Comparativo
- Modelos causa-efecto
El objetivo es encontrar respuestas y contestar preguntas de investigación.
Te lo cuento un poco más en detalle:
A. Relacional: Encontrar relaciones entre las variables. Por ejemplo, relacionar la edad del paciente con grosor del nervio óptico.
B. Comparativo: Comparar grupos de pacientes. Los sanos y los que tienen diagnosticado el glaucoma. Encontrar qué medidas del nervio óptico son estadísticamente diferentes. O encontrar características del paciente que sean diferentes (como la edad, el peso, presión arterial)
C. Modelos causa – efecto: se trata de inferir (calcular) modelos estadísticos para poder entender el fenómeno causa efecto.
Podríamos pensar en un modelo que nos permita entender la influencia que tienen las mediciones del nervio óptico, la edad, el peso y la presión arterial en las probabilidades de tener glaucoma.
- El EFECTO sería las probabilidades de tener glaucoma
- Las CAUSAS: edad, peso, presión arterial, dimensiones del nervio óptico
En este punto, tenemos que definir la variable respuesta o de salida – EFECTO (la que queremos analizar) y definir las características que influyen en la salida – CAUSAS.
De aquí puedes encontrar una relación causa y efecto y explicar la relación estadísticamente.
¿Qué te parece?
Mola, ¿verdad?
Pero esto no es todo.
Aún nos falta el nivel predictivo. El más avanzado.
NIVEL III – PREDICTIVO Y RECONOCIMIENTO DE PATRONES
El último estadio o nivel investigativo son los modelos o algoritmos predictivos y de reconocimiento de patrones.
El objetivo es crear herramientas para ser aplicadas y solucionar problema reales.
Es un nivel aplicativo.
A. Modelos predictivos: la predicción es construir un algoritmo matemático que sea capaz de predicir con la máxima exactitud lo que va a pasar.
En el caso del ejemplo del glaucoma podríamos pensar en un modelo predictivo capaz de predecir las probabilidad de un paciente de tener glaucoma a partir de las mediciones del nervio óptico y características generales del paciente (como la edad, peso, presión arterial etc…)
Esa sería una herramienta excelente para un oftalmólogo. ¿No crees?
B. Reconocimiento de patrones: reconocer patrones significa encontrar indicios basado en cálculos estadísticos a partir de los datos.
Por ejemplo, encontrar niveles de gravedad del glaucoma.
Podríamos definir grupos de pacientes con:
- Grupo I – Un nivel bajo
- Grupo II – Nivel intermedio
- Grupo III – Nivel medio-alto
- Grupo IV – Nivel alto
Estos grupos de forma natural nos darían la gravedad del glaucoma en ese paciente.
Estadísticamente podemos crear a partir de las mediciones del nervio óptico y características generales del paciente (como la edad, peso, presión arterial etc…) grupos estadísticamente diferentes.
Estos grupos estaràn relacionados con las dimensiones del nervio óptico, y por tanto, con la gravedad de la enfermedad.
¿Se entiende?
Este tipo de técnicas son propias del clustering o la segmentación.
C. Combinar reconocimiento de patrones con predicción: Incluso, se podría pensar en una aplicación mixta de los dos anteriores. Primero encontrar los grupos de la gravdedad de glaucoma (Grupo I – bajo, Grupo II – intermedio, Grupo III -medio/alto y Grupo IV – alto). En definitiva crear las etiquetas, los grupos a partir de las características de los pacientes.
Y después crear un clasificador predictivo capaz de calcularte la probabilidad de estar en el grupo de paciente bajo, intermedio, medio-alto o alto, sabiendo solamento las variables que hemos medido (mediciones del nervio óptico y características generales del paciente; como la edad, peso, presión arterial etc…)
Esta herramienta además de darte la probabilidad de tener glaucoma o no también te podría dar información del nivel o gravedad de la enfermedad.
¡Sería una investigación genial!
…
Fíjate que acabamos de definir de un mismo proyecto diferentes estadios de complejidad con datos.
Y eso es precisamente la clave para entender y clasificar las técnicas estadísticas.
Ahora quiero que pienses en estos niveles investigativos y trates de darle una pensanda a tu proyecto.
Seguro que encuentras maneras de aportar más valor e innovación.
Cuéntame qué mejoras harías en la estrategia de tu proyecto.
¡Te espero en los comentarios!
Jordi, no deja de maravillarme tu dedicación, claridad y generosidad para compartir estos materiales. Para mi y mi educación son muy valiosos.
¡Genial Alberto!
Espero que te ayude mucho 🙂
Me abre la visión de expandir mis conocimientos en como utilizar la estadística, y realizar cosas geniales.
Te comento que soy estadístico de profesión y lamento decirte que hasta ahora no había visto todo lo que se puede investigar con las herramientas de la estadística, todo este conocimiento que acabo de leer voy a ponerlo en practica, y me siento entusiasmado de empezar ahora y mejorar mis proyectos modestos que se basaban solo en lo descriptivo.
Mil gracias por estos aportes, y me alegro de haberlo conocido.
Gracias Jordi.