Las 7 enseñanzas top de Ciencia de Datos en 2023 que he compartido con mis alumnos de AD

Tenía ganas de publicar este artículo.

Hoy voy a compartir las 7 enseñanzas más top durante 2023 que he compartido en las 24 sesiones QA de Analiza tus Datos para mis alumnos.

Espero que te sirvan igual que me han servido a mi y a mis alumnos.

El uso de Chat GPT para aumentar tu potencial con el análisis de datos y tu productividad

Esto ya lo escribí en otro artículo.

He tratado de incentivar el uso de esta herramienta de IA en ciencia de datos entre mis alumnos porque realmente te puede ayudar muchísimo, ampliar tus posibilidades y reducir tus horas de trabajo.

Eso sí, siempre y cuando sepas analizar los datos, hayas tocado datos y hayas comprendido el proceso de análisis de datos. Eso te dará todo lo necesario para aprovechar la palanca de ChatGPT e IA.

Al final puedo resumir el uso del Chat en tres roles:

  1. Uso como consultor
  2. Uso como programador / becario / trabajador
  3. Uso como buscador / búsqueda de información / referencia

Descúbrelos en este artículo sobre ChatGPT y ciencia de datos

Las tres etapas de Analiza tus Datos AD y los pasos de los proyectos de Ciencia de Datos

En el training Analiza tus Datos nos basamos en nutrir tu árbol de la ciencia de datos:

Este árbol se basa en:

  • Las raíces: son las bases estadísticas. Asentar las bases de conceptos de estadística descriptiva, inferencial, tipos de variables, modelos y diferentes entre ML, enfoque estadístico y DL.
  • El tronco: dominar una metodología para analizar los datos y aplicar técnicas de forma sistemática con la ayuda de tu software que mejor encaje (R, Python o SPSS)
  • Las ramas: conocimiento y aplicación de test estadísticos (comparativos, relacionales), modelos estadísticos (regresión, modelos lineales generalizados) y, por último, algoritmos de machine learning y deep learning.

Para poder aplicar técnicas de modelado estadístico y de machine learning es importantísimo asentar las bases estadísticas prácticas y dominar una metodología de trabajo para analizar los datos.

Por ello, hemos diseñado tres etapas formativas muy aplicadas y prácticas para que logres tener el árbol de la ciencia de datos lo más grande y espectacular posible. Con las racíes lo máximo asentadas posibles:

  • Etapa 1 – raíces estadísticas y de software: asentarás las bases estadísticas y el uso de software estadístico y de programación, tanto R como Python. Nutrimos las raíces para dominar un método.
  • Etapa 2 – Análisis Científicos: vas a aprender una metodología de investigar con los datos, contestar hipótesis y aplicar modelos estadísticos causales. De esta manera, serás crítico con los resultados de otros proyectos y podrás tomar decisiones basados en datos.
  • Etapa 3 –  Ciencia de Datos: darás el salto definitivo a la ciencia de datos, aprenderás a utilizar técnicas de machine learning supervisado y no supervisado. Conocerás los proyectos tipo de ciencia de datos y cómo presentar los resultados de forma eficaz a tu público objetivo. Se trata también de saber comunicar el potencial de tus resultados.

Ello nos va a permitir ejecutar un proyecto de ciencia de datos de principio a fin. Estos son los pasos:

  1. Estrategia
  2. Recolección y lectura de datos
  3. Limpieza + EDA
  4. Validación
  5. Describir
  6. Análisis
    1. Inferenciales:
      1. Comparativas
      2. Relacionales
      3. Causales
    2. Machine Learning:
      1. Supervisadas: regresión y clasificación
      2. No supervisadas: clustering, reducción dimensional, reglas asociación
  7. Informe de resultados / primera herramienta validada

Accede al training Analiza tus Datos para comprender todos y cada uno de los pasos anteriores.

Generación de datos artificiales con Python

Una de las necesidades de mis clientes en los últimos meses han sido la creación de  más datos.

Ya que muchos proyectos tenemos muy pocos datos y no es posible la modelización de los datos ni el training de algoritmos de machine learning supervisado por la falta de datos.

¡Hay una solución!

Crear datos artificiales basados en los patrones de los datos que dispones.

Te dejo una librería de Python que es una maravilla para ello: 

Si necesitas más datos prueba de generar datos ficticios y después entrenar los algoritmos o modelos estadísticos para darle más valor a tu proyecto.

Estructura proyecto clasificador con R y Python para tu portfolio

Uno de las grandes ventajas de adentrarte en una formación como Analiza tus Datos, AD para los amigos, son los aspectos prácticos.

Este año compartimos las plantillas de un proyecto de machine learning supervisado para un caso clasificador.

Es el más común de los proyectos supervisados y que pueda aportar más valor inmediato a tus datos, trabajo o departamento.

Los pasos para trabajar este proyecto los puedes ver aquí.

Si quieres las plantillas en R y Python tendrás que entrar en Analiza tus Datos.

Interpretación de algoritmos Caja Negra. Compartiendo un tutorial en un congreso de las Azores

En Julio 2023 asistí al congreso de machine learning de las Azores y di un tutorial de cómo interceptar algoritmos caja negra.

Me explico:

Cuando ejecutas el anterior punto, es decir, un proyecto clasificador de machine learning supervisado te das cuenta que los mejores algoritmos son los de boosting incluso bagging.

Son algoritmos avanzados muy complejos de interpretar por dentro. Les llaman cajas negras.

Las redes neuronales también son cajas negras por dentro, muy difícil su interpretación.

En muchos casos la interpretación de qué variables son las más importantes es algo crucial, o incluso cuantificar el peso que tienen cada uno de ellas en la respuesta.

Para ello es necesario poder interpretar esos algoritmos y dar al cliente una mejor explicación de cómo están funcionando estos algoritmos por dentro y sacar conocimiento de los mismos.

Hay varios métodos pero uno de los más gráficos y inmediatos puede ser el SHapley Additive exPlanations

Ahora ya tienes cómo interpretar algoritmos complejos y darle más valor a tus datos.

Aplicando IA con Power BI de forma sencilla

El pasado noviembre, uno de los alumnos de AD nos dió un curso de Power BI para empezar a crear dashboards y nos compartió algún tipo sobre cómo aplicar IA con Power Bi de forma rápida.

Y la verdad que fue algo muy sencillo de aplicar y que puede aportar mucho a tus proyectos de negocio o BI (Business Intelligence).

Si eres de los de negocio aquí tienes algo que puede aportarte mucho valor.

Antes pero, tienes que entender qué hacer por dentro para dar las conclusiones correctas a tu responsable 😉

Herramientas de análisis estadístico y machine learning sin programar

En Analiza tus Datos te enseñamos tres tipos de herramientas:

  • Excel para aplicar analítica
  • JASP o SPSS como softwares estadísticos que no necesitas programar nada
  • y R y Python para programar y tener todo el potencial de la ciencia de datos.

Este año dimos valor a los dos primeros grupos.

En excel descubrimos un módulo de estadística y gratuito que puedes instalarte

Y en JASP dimos tutoriales de cómo aplicar machine learning a tus datos

Si no quieres dar el salto a la programación en R y Python que sepas que en AD no te cerramos las puertas y te damos valor.

Estas son las 7 enseñanzas más top de 2023 y ahora las tienes resumidas en este post.

Ahora bien.

El artículo está muy bien pero mucho mejor si puedes atender a estas sesiones en directo como hacen los alumnos de AD.

Ahí es realmente cuando puedes sacarle valor a tope.

Si quieres mejorar tus habilidades de analítica y dar un salto en tu carrera profesional te espero en Analiza tus Datos.

Mira el training previo de AD y te espero dentro del curso.

Scroll al inicio