Ya lo sé.
No eres de números.
O eso crees.
Puede que alguna vez hayas odiado las mates y más la estadística.
En la universidad fue la asignatura que no te gustó y te costó más. El profe era terriblemente aburrido. Y lo que contaba también.
¡Vale! Acepto tu malestar.
Déjame con este artículo ayudarte a ver los números desde otra perspectiva.
Y entender cómo ordenar tu mente para que puedas superar la estadística y la puedas utilizar en tu vida profesional divirtiéndote por el camino 🙂
# El síndrome del extraterrestre
¡Si! Probablemente no sepas muy bien cómo aprender estadística y superarla de verdad.
Crees que no eres de números y esto no es para ti.
Te sientes un extraterrestre en el universo numérico. Sea cual sea. En mates, estadística o con datos.
Sabes que necesitas entender los datos y la estadística para ser mejor en tu trabajo, en tus proyectos.
Pero…
Se te hace un mundo.
Lo has intentando algunas veces. Pero el tono que recuerdas en las clases de la universidad es aburrido y poco práctico.
Esos recuerdos te alejan de poder superar la estadística de una vez por todas.
Algo te suena. Chi cuadrado, intervalos de confianza, p-valor, normalidad y alguna cosa más…
¡Tranquilo! No es tu culpa.
La estadística es una ciencia que acompaña una habilidad: el análisis de datos.
¡Eso es! Es la parte práctica que nunca te han contado.
Aprender e interpretar lo que observas. Esto es precisamente el análisis de datos. Y es lo que te enseñaré en el blog.
¡Bien!
Para aprender a analizar los datos y contribuir con grandes resultados en tus proyectos necesitas ser amigo/a de la estadística.
¿Por qué? Porque es el lenguaje central para interpretar resultados.
De nada sirve aprender a manejar herramientas de cálculo (softwares estadísticos) si no entiendas la esencia de los conceptos.
Y me da igual que pienses que no eres de números porque, en realidad, no es importante.
Es una etiqueta que hay en tu mente y que te han impuesto.
Los que son de letras y los de números… diferencia del que sabe leer y escribir muy bien, del que sabe contar y calcular muy bien.
¡Menuda tontería!
Ahora te voy a demostrar que lo que necesitas es un camino para poder ordenar tu mente e ir superando la estadística paso a paso!
¡Let’s go!
# Cómo ordenar la mente para lograr aprender con seguridad y disfrutando del camino
Es muy probable que tu inquietud sea hoy saber seleccionar el test o técnica para poder analizar los datos de tus investigaciones o proyectos.
Sabes que existen algunas técnicas que podrías utilizarla pero no sabes cómo hacerlo. Te sentirías inseguro cuando lo intentes. Y más, pensando en la cantidad de técnicas que existen hoy.
Es normal, al principio puedes percibir que no tienes el control del conocimiento y todo te suene un poco a lo mismo.
Bien.
Para ayudarte, he decidido aportarte claridad.
¡Visualiza este árbol!
En él, está la respuesta a lo que andas buscando.
Seguramente estás pensando que soy un flipado pero, de verdad, creo que está es la clave del éxito y disfrute de tu aprendizaje.
Y fíjate muy bien en la imagen. Es diferente al árbol que hubieses dibujado 🙂
Aparece una parte muy interesante que seguramente no habías pensado.
Sabes de lo que hablo, ¿verdad?
# El árbol de la Estadística Aplicada
El árbol que ves lo llamo el árbol de la estadística Aplicada (no soy muy original con los nombres, lo reconozco)
Déjame simplificar el árbol de conocimiento de una manera esquemática y sencilla:
¡Eso es! Tres partes fundamentales:
- Las raíces: los conceptos base
- El tronco: la metodología y el software
- Las ramas: las técnicas de análisis
Ahora mismo tienes el foco en qué técnicas aplicar y qué test utilizar.
Te estás centrando en la parte alta del árbol. Lo que se ve. Las ramas.
La verdad es que existen muchísimas técnicas que puedes utilizar y, al principio, puedes sentirte agobiado y superado por tantas cosas a aprender. ¡Pero tranquilo!
Para que tu árbol de la estadística sea fuerte y hermoso. Con una gran copa. Con grandes ramas necesitas alimentar muy bien las bases (las raíces)
Y hacer un tronco suficientemente robusto como para poder manejar los datos como nadie.
Déjame explicarte las partes fundamentales del árbol de la estadística.
# Las raíces: los conceptos Base
¡Esta parte es fundamental!
Aquí te encargarás de conocer con ejemplos prácticos los conceptos relacionados:
- Con las tablas de datos. Cómo se organizan, qué son las variables y qué tipos existen.
- Con la estadística descriptiva: conocer los conceptos fundamentales de descripción de datos y para qué se utilizan.
- Con la estadística inferencial: los conceptos más esenciales que nos servirán para aprender y dominar las técnicas de las ramas del árbol
Voy a ayudarte un poco más a entender tus raíces.
La tabla de datos y variables: tu materia prima
Te pongo un ejemplo. Imagínate que eres biólogo y quieres comparar especies de flores.
Lo primero que vas a hacer es recoger datos de flores que te interese estudiar, ¿verdad?
Se trata de recoger las dimensiones (ancho y largo) de diferentes flores. Podemos distinguir dos aspectos en cuánto a la estructura:
- Variables = dimensiones de las flores = características = columnas
- Observaciones = cada flor que medimos = filas
Nuestra muestra es el número de flores que vamos a medir. Imagínate N = 150, 150 filas con 5 variables. En total, en la imagen has recogido:
- Las dimensiones de las flores (4 variables)
- El tipo de especies (1 variable)
Como ves, la tabla de datos es una matriz de números y letras que engloban las características de lo que estás observando. Simplemente.
Y se organiza en forma de tabla. De matriz.
Vamos a entender un poquito mejor las variables. ¡Que es muy importante!
Ahora te ayudaré a entender qué tipos de variables existen.
Para no alargarme, con esta imagen tienes suficiente para conocer los tipos que hay. Fíjate con los ejemplos:
Estamos avanzando con las raíces. ¡Vamos a seguir descubriendo los conceptos base!
Las dos estadísticas: descriptiva e inferencial
Para construir unas buenas raíces necesitas entender las dos estadísticas. Es un paso fundamental antes de entrar en materia.
Una tabla de datos por sí sola no dice nada. Necesitas herramientas gráficas y pequeñas características para entenderla.
La estadística descriptiva dibuja y se utiliza para entender la información escondida de tu tabla de datos.
En cambio, la estadística inferencial pretende ir un paso más allá y aportar conclusiones generales a partir de los datos de tu muestra (de tu tabla de datos)
La población es el conjunto global y la muestra es la pequeña parte que has observado. Que has recogido datos.
Quédate con una idea maestra:
La descriptiva dibuja y te ayuda entender tu tabla de datos. La inferencia te ayuda a responder preguntas globales (de la población) a partir de tus datos (de tu muestra)
Para ir creciendo en estas dos estadísticas te voy a listar los conceptos que creo que son fundamentales para que tengas unas raíces sólidas y te permitan crecer muy rápido.
Simplemente tendrás que ir aprendiendo este listado de conceptos poco a poco para poder avanzar, más delante, mucho más rápido en tu aprendizaje.
Estadística descriptiva: podemos clasificar los conceptos en función de qué variables describimos o dibujamos:
Variables cuantitativas:
- Tabla de frecuencias
- Valor central (media o mediana))
- Dispersión (desviación estándar, rango intercuartílico)
- Medidas de posición (cuartiles, percentiles)
- Distribución (histograma, boxplot, densidad)
- Correlación y covarianza
- Scatterplot y matrixplot
Variables cualitativas
- Tablas de contingencias
- Concepto de proporciones
- Distribución
- Diagrama de barras y sectores
En la estadística inferencial es vital entender:
- El concepto de muestra y población
- Qué son las distribuciones de variables
- Qué es y para qué sirve la distribución de densidad de probabilidad y las probabilidades
- El poder de la distribución normal
- Qué son los intervalos de confianza y su gran poder
- Tipos importantes de distribuciones de probabilidad
- El contraste de hipótesis y el p-valor
- La esencia de los modelos predictivos y sus dos super poderes
Viendo estos conceptos con ejemplos puedes nutrir las raíces de gran alimento para seguir creciendo y aprender técnicas avanzadas de análisis.
¡Let’s go!
# Las ramas: las técnicas estadísticas. Descubre el mapa de técnicas
Tu árbol crecerá y cada vez entenderás mejor las técnicas o test estadísticos para obtener grandes resultados de tus datos.
Las ramas de tu árbol pueden ser increíblemente grandes.
El tema es que ¡existen muchísimas técnicas! Y al principio, puede parecer una locura aprender todo.
Para ayudarte a reducir la complejidad he clasificado las técnicas en 6 problemas tipo para que de esta forma te quede mucho más claro en qué situación te encuentras.
Ya verás que te sentirás mucho más tranquilo 🙂
Te presento el mapa de técnicas de Análisis
La figura que ves a continuación están representados los problemas tipos que nos servirán para aprender las técnicas 🙂
Voy a tratar de ayudarte con varios ejemplos de cada problema tipo 🙂
Comparación de medias (grupos)
En este ejemplo tratamos de comparar tres especies de flores.
La característica que nos interesa comparar son las dimensiones de las flores. (cuantitativa)
Se trata de observar si tenemos diferencias significativas entre especies y en qué característica tenemos más diferencias.
¿Se ve?
- Una variable cuantitativa que ejerce de variable respuesta. Es la variable que quieres analizar.
- Y los grupos es la variables de estudio. En este caso los grupos de especies. Tenemos 3 tipos.
En los gráficos que ves en la imagen puedes observar que la variable respuesta es el ancho del pétalo. Y comparamos en función de la especie.
¡Voilà! Esta es la esencia de la comparación de media 🙂
Comparación de proporciones
Antes hemos comparado distribuciones (medias) siempre teniendo en cuenta variables cuantitativas.
Podemos también comparar proporciones o porcentajes que viene a ser lo mismo.
Tienes algunos ejemplos de proporciones en esta imagen. Los porcentajes de los quesitos son proporciones 😉
El objetivo de este problema tipo es comparar porcentajes entre grupos.
Aquí debajo, un ejemplo bastante típico.
Queremos demostrar si fumar es un práctica que favorece a la aparición del cáncer de esófago. ¿Cómo?
Por ejemplo ver si las proporciones de fumadores y no fumadores es la misma para el grupo que han tenido cáncer. ¿Se ve?
Aquí puedes ver dos variables cualitativas:
- Variable cualitativa 1: si han tenido cáncer o no
- Variable cualitativa 2: si son fumadores o no
Intento buscar las proporciones en la tabla que te muestro a continuación 😉
Relación de proporciones
A parte de comparar puedes relacionar o asociar.
Por ejemplo, se trata de ver si el tipo de tarea de casa está relacionado con quién hace la tarea.
Dos variables cualitativas:
- Variable cualitativa 1: el tipo de tarea
- Variable cualitativa 2: el encargado de hacer la tarea
Puedes resumir en una tabla de contingencias (tabla de la imagen) para observar la cantidad de familias por parejas de grupos. Por ejemplo, tenemos 156 familias que lavar ropa se encarga la chica de la relación.
En este ejemplo estás tratando de ver si lavar ropa tiene que ver con si es la chica encargada de hacer la tarea o no. Si las vacaciones se planean conjuntamente o si el encargado de las reparaciones es el chico de la familia.
O si hacer la compra se encarga el chico o conjuntamente.
Buscamos relaciones entre grupos. ¡Eso es!
En este tipo de problemas de relación trabajamos con dos variables cualitativas
Análisis de correlación
También podemos relacionar medidas. Parecido al problema anterior.
Aquí se trata de ver si el consumo del coche en combustible tiene relación con el peso.
Para ello se han recogido diferentes modelos de coches y se ha tabulado el consumo y el peso de cada modelo.
Podemos crear un diagrama de puntos o dispersión como el de la imagen. Cada punto representa un modelo de coche.
Si te fijas, estos puntos siguen una “tendencia” hacia arriba. (como la recta que observas)
¡Voilà! Estás entendiendo qué es una relación entre medidas. La correlación.
En este caso se intuye que a mayor peso de los coches, mayor es el consumo como es lógico pensarlo.
En muy chico, puedes ver el r=0.89. Este coeficiente nos está indicando que la relación es muy alta porque está cercana a 1.
Y es positivo, es decir una relación directa o creciente (la recta va hacia arriba)
Modelos predictivos
¡Me encantan los modelos! Y su potencia es brutal. Pero como dice el tópico, la potencia sin control no sirve de nada 😉
¿Pero qué son y para qué sirven los modelos predictivos?
Déjame ponerte un ejemplo que será mucho más fácil para explicártelo.
Lo que queremos es poder predecir la frecuencia cardíaca máxima sabiendo únicamente la edad de los pacientes.
Encontrar una relación matemática que me permita “más o menos” saber qué frecuencia cardíaca máxima sabiendo solo la edad.
Para construir esta función matemática necesitas datos de diferentes pacientes. Pacientes que se les han medido la frecuencia cardíaca máxima y recogido la edad.
Montamos el diagrama de dispersión y calculamos una función matemática. La más simple. La recta.
Fíjate que esta recta sigue muy bien a los puntos. O al menos, es la recta que dibujarías siguiendo los puntos.
Fíjate que la pendiente es negativa. Quiere decir que a mayor edad menor es la frecuencia cardíaca máxima. Es lógico pensarlo. A mayor edad, el corazón es más débil.
Acabas de ver los dos grandes super poderes de los modelos.
- Explicar relaciones causa-efecto (a mayor edad, menor es la frec. Cardícaca máxima)
- Predecir resultados sin necesidad de medir (con la ayuda de la función matemática)
Existen tantos modelos como funciones matemáticas te puedas imagenar. Es decir muuuuchooos! Como siempre hay que conocer los que mejor funcionan.
- Regresiones lineales
- Modelos logísticos
- Modelos lineales generalizados
- …
Lo más importante es entender qué te están aportando y para qué se utilizan, Y creo que te he ayudado a hacerlo 😉
Técnicas de Machine Learning
Y llegamos a las técnicas más de moda hoy en día.
Es el siguiente paso. Y está muy relacionado con los modelos predictivos en muchas ocasiones.
Son técnicas que te permiten encontrar patrones que se repiten en tus datos.
Por ejemplo, el clustering o agrupación nos permite agrupar la muestra en diferentes grupos teniendo en cuenta únicamente las características que hemos observado.
Sin saber, a priori, en qué grupo pertenecen.
La clasificación , en cambio, te permite a partir de unos datos observados saber en qué grupo se encuentra entrenando un modelo matemático como puede ser una red neuronal.
Aquí el mapa global de las técnicas de machine learning.
El mundo del análisis de datos se abre a tus pies dando lugar a un nuevo universo.
¡Sencillamente increíble!
Fuente: Machine Learning Mastery
Hasta aquí te he ayudado a entender las raíces de tu arbol y las ramas.
Ahora voy a citarte algo más sobre la metodología y el software.
¡Seguimos!
# El tronco: la metodología y la herramienta
Para poner en práctica y aprender las técnicas de análisis es muy importante que conozcas la metodología necesaria para tratar de llevar a cabo todo este conocimiento.
Y además, una calculadora (o software) que te permita calcular los análisis que necesitas.
En resumen.
Necesitas un software y un método.
Hoy no pretendo hablarte de los detalles pero si quiero listarte los pasos de la metodología que te explicaré a fondo en otro post. Estos son los 4 pasos:
- Objetivo: definir qué es lo que quieres encontrar en tus datos
- Descripción: à emplearás la estadística descriptiva
- Análisis: emplearás la estadística inferencial
- Conclusión: dar respuestas a tus preguntas a partir de los resultados que has obtenido
En cuanto al software. Lo más importante es seleccionar la herramienta del mercado que mejor se adapte a tu caso.
Tus necesidades te ayudarán a decidirte. En otro artículo te ayudo un poco más en estema tema. Pero déjame darte la visión global de las tres aplicaciones:
Aplicación 1: estudios científicos
Se trata de poder analizar los datos de estudios del mundo de la salud, biología, análisis de mercados. Disciplinas científicas que requieran solucionar problemas como por ejemplo la comparación de tratamientos, de grupos de pacientes etc. Requiere de programas a base de clicks con el ratón.
Aplicación 2: ciencia de datos
Son aplicaciones con necesidad alta de técnicas avanzadas y generalmente grandes volúmenes de datos. Requiere que seas más flexible y con capacidad para programar.
Aplicación 3: reporting y pequeños cálculos
Podemos utilizar hojas de cálculo para poder tabular los resultados y presentar sencillos gráficos descriptivos y ordenar tablas de resultados.
…
Hasta aquí el árbol de la estadística. Con los recursos exclusivos del blog y el curso gratuito puedes acceder a material para seguir aprendiendo la ciencia de los datos.
# Con claridad es más fácil avanzar. ¡A por ello!
Ahora que tienes la foto grande y te he relajado el agobio que tenías (o eso espero) te propongo que te centres en aprender los conceptos base (las raíces).
Te recuerdo los tres grandes pilares. Quiero que entiendas muy bien:
- Cómo se organiza una tabla de datos y sus variables
- Los principales conceptos de la Estadística Descriptiva
- Los principales conceptos de la Estadística Inferencial
Antes te he listado los conceptos que creo que son clave para poder crecer en la habilidad de análisis de datos.
Una forma muy fácil de avanzar es seguir lo pasos y el material que puedes encontrar en la formación Analiza tus Datos.
¿Qué conceptos base crees que aún no tienes claros del todo?
Muy buena Jordy su explicación para que entendamos está rama del saber, me gustó mucho y me dio mucha claridad sobre el tema, gracias a usted por sus pormenorizadas explicaciones.
Hello Ernesto! Me encanta que te ayude el contenido! Seguimos divulgando conocimiento 🙂
Jordi, me gusta mucho la forma en que explicas y relacionas los temas, muchas gracias
Griacas Liliana! 😉
Muchísimas gracias por este post! Está todo explicado de maravilla y sencillo para que todo el mundo lo pueda entender. Acabo de empezar un Máster de Análisis Político y tengo asignaturas de Estadística, cosa que no había visto en mi vida y estoy un poco asustado. Mi problema es que cuando me enfrento a un ejercicio y tengo que aplicar fórmulas y tal, me cuesta situar mentalmente qué es lo que estoy haciendo y qué es lo que me van a proporcionar esas fórmulas, es decir, qué es lo que estoy haciendo.
Tus explicaciones están siendo de gran ayuda.
¡Genial!
Espero que le vayas cogiendo el truco a la Estadística poco a poco 🙂
Abrazos,
hola, Jordi Ollé .gracias por ayudar con tus prácticos conocimientos, en verdad aplico mucho la estadística en mi trabajo actual, pero si quede muy claro del enfoque que usted le ha dado , muchas gracias nuevamente.
Gracias Jordi, la explicación muy sencilla y didáctica, actualmente soy estudiante de Estadística y la verdad me estuve retrasando respecto al avance en los semestres debido a como señalas mucho simplemente es teoría y es tan amplio que llegas a confundirte, incluso llegué a pensar en dejarlo, sin embargo ahora lo veo de otro ángulo y me esforzaré mucho más para contar con esas raíces que indicas, gracias y sigue con el blog que es de mucha ayuda.
Jordi, estoy muy contenta con este curso, es muy didáctico, y lo estaba necestando mucho, gracias por tu ayuda.
Hola, tras mi necesidad de encontrar un lugar donde pueda aprender estadística desde cero, este blog me ha caido de maravilla, me ha gustado mucho la claridad con la que explicas cada uno de los conceptos, ¡gracias!
Wow!, me encanta tu manera de explicar, hace que todo sea más facil y didáctico. Muchas gracias y sigue así! 🙂
Me estas sacando de un lío tenaz!!
Tenía muchos conceptos pero no como estaban agrupados y en que se enfocaban.
Gracias!
Muy buena su clases, se aprende muchisimo, facil y entendible
Excelente.., ingresaré de lleno a los 3 grandes pilares fundamentales para seguir avanzando… Saludos, Manuel.
Gracias Manuel!
A seguir avanzando!
Hola Jordi, muchas gracias por tan fabulosa explicación, cumple perfectamente con el nombre de la página jeje. Tremenda claridad me has dado. Saludos
Gracias por tus palabras Rodrigo. Un abrazo!
SAludos estimado amigo Jordi.
Muchas gracias por tus explicaciones de estadistica en tu blog.
Soy estudiante doctoral de la escuela de negocios de la Univ. Catolicane en USA y estoy teniendo muchos problemas con los examenes de revalidar para pasar a la tesis.
Pero con tu explicación aumenta mi fe y acción de que en diciembre pasaré este examen.
Te aviso para que me ayudes en la tesis. En que país estas?
Bendiciones de Dios.
Prof. Miguel Tejera, MBA , (DBA)