software-analisis-datos

¿Cómo seleccionar y utilizar el mejor software para poder adaptarte a la era de los datos y ser único en tu sector? Descubre la herramienta perfecta

Sé que lo que estás pensando.

¡El software es lo más importante!

Si domino el mejor software del mercado sabré trabajar con muchos datos y dominaré los datos como nadie.

¡Seré una máquina!

Es más importante saber qué cálculos estás realizando más que dominar un software y todas sus funcionalidades.

En el fondo da un poco igual con qué herramientas lo hagas 😉

Aunque estoy muy de acuerdo contigo. El software te puede permitir ser más rápido, efectivo, etc.

Yo sé que te preocupa el tema de herramientas.

Así que te voy a aportar un marco de softwares con los cuáles puedes abordar la mayoría de problemas que te encontrarás en la práctica.

¡Vamos a simplificar el mercado de softwares!

# La importancia de entender tu aplicación

Los softwares nacen de exigencias del mercado real. De problemas reales.

O dicho de otra forma, del tipo de aplicaciones.

Es muy diferente trabajar con 100 filas de datos de 100 pacientes que con 154 mapas de 11094 pixels.

La complejidad de los cálculos es muy diferente.

Si utilizamos 154 mapas es muy probable que tengamos de repetir 154 veces los cálculos y análisis.

En cambio, si tragamos con dos tratamientos de 50 pacientes. Es probable que sólo tengas que calcular una vez el análisis.

¿Se ve la diferencia?

Más ejemplos.

Imagina que sólo necesitas presentar algunos tablas de porcentajes y algunos gráficos de las ventas de los últimos 5 años. Fácil, ¿verdad?

O por el contrario, necesitas construir modelos predictivos capaces de predecir las subidas de stocks en los próximos 10 días según históricos de datos de 10 años.

Estás de acuerdo conmigo, que la dificultad de este segundo caso es mucho mayor que la del primer caso.

Precisamente, a esto es lo que me refiero con aplicaciones.

Según la dificultad y complejidad de los problemas podemos dividirlos en tres.

Te presento las tres tipos de aplicaciones que te encontrarás en la práctica y qué softwares son los más interesantes.

Caso General: el reporting rápido y resumen de datos (hojas de cálculo)

Podemos utilizar hojas de cálculo para poder tabular los resultados y presentar sencillos gráficos descriptivos.

  • Representar gráficos
  • Crear tablas resumen
  • Pequeños cálculos
  • Informes y reporting rápidos

Por ejemplo, tablas y gráficos de las ventas de los últimos 5 años. Mostrarás qué producto es el más vendida. En qué región estás vendiendo mas. La tendencia de las ventas a lo largo del tiempo.

Algunas gráficas y tablas bastarán para lograr tu objetivo.

Hay dos herramientas que creo que te pueden ayudar en todo esto: Excel y Power BI.

Caso A: Los estudios científicos

Se trata de poder analizar los datos de estudios del mundo de la salud, biólogía, análisis de mercados, etc.

Disciplinas científicas que requieran solucionar problemas como por ejemplo la comparación de tratamientos, de grupos de pacientes, diferencias entre especies, explicar fenómenos causa-efecto etc.

 

Déjame ponerte algunas características que resumen este tipo de estudios científicos.

  • Relativamente pocos datos
  • Análisis simples sin necesidad de modelos personalizados
  • No es necesario la iteración o replicar el cálculo muchas veces
  • La mayoría de artículos científicos

Por ejemplo, quieres comprobar si el nuevo tratamiento del dolor lumbar con combinación de manipulación estructural y medicación es más efectivo que el tratamiento sólo con medicación.

Se trata de recoger datos de 50 pacientes de cada tratamiento con característica similares y comprar el efecto antes y después. Ver cuál está funcionando mejor y por qué.

En este caso no necesitas demasiados cálculos a realizar. Solamente los realizarás una vez.

Y no necesitas personalizar el cálculo por la dificultad en los datos o el gran volumen.

Puedes utilizar softwares que trabajen con el ratón. Con clicks.

Requieren programas estadísticos típicos. Son sencillos de manejar. La clave es entender los resultados y qué técnicas aplicar en cada caso.

En el mercado existen herramientas como: SPSS, minitab, RCommander, etc.

Caso B: La ciencia de datos

Son aplicaciones con mayor complejidad. Requieren técnicas avanzadas y generalmente grandes volúmenes de datos.

Es muy importante que seas más flexible y con capacidad para programar.

La repetición de la lectura y/o el cálculo también puede ser crítico.

Aquí algunas características de este tipo de aplicaciones:

  • Puede trabajar con grandes volúmenes de datos
  • Lectura de datos sea robusta y automatizada(no se introduce a mano)
  • Análisis personalizados
  • Necesidad de automatizarlos y robustez en el cálculo
  • Flexibilidad

Por ejemplo, imagina que quieres analizar los pacientes de glaucoma y conseguir clasificarlos en grupos según su gravedad en la enfermadad. Las características que vas a utilizar con las dimensiones del nervio ópitco en diferentes regiones obtenidas con una instrumento de última generación.

Has recogido 650 pacientes y quieres desarrollar un método para encontrar los grupos según la gravedad. Es un problema de clustering muy interesante.

La ciencia de datos te permite abordar problemas de mayor complejidad y adaptarte muy bien a los objetivos que te marques. ¡La complejidad aumenta pero la diversión también!

Herramientas de ciencia de datos: RStudio, Python, Matlab, etc.

# El mercado de herramientas se abre a tus pies

Entendiendo las aplicaciones voy a tratar de listarte los mejores softwares para cada caso y una pequeñas explicación.

# Softwares de reporting y manejo de datos – reporting rápido

Puedes utilizar o Excel o Power BI. Te cuento las diferencias entre estas dos herramientas.

  • Excel: es un software con mucho potencial. Es capaz de ayudarte a crear gráficos de forma rápida y sencilla. Te permite realizar algún que otro cálculo estadístico pero en muchas ocasiones es limitado. Cuando la complejidad del problema aumenta tienes que recorrer a utilizar visual basic (programación) que es poco eficiente. Para ordenar datos, crear gráficos sencillos y filtrar y retocar datos es una herramienta muy potente. Requiere licencia comercial pero todo el mundo la tiene 😉

  • Power BI: es un paso más avanzado que Excel. Es capaz de leer datos de muchas aplicaciones a tiempo real. El volumen de datos puede ser mucho mayor que Excel. El reporting es sencillo y flexible pero su complejidad de manejo es mayor pero las posibilidades son muy grandes. No tiene, por si solo, cálculos estadísticos. Puedes acoplar R o Python para poder calcular análisis estadísticos. Lo bueno, es que es gratuito.

 

# Softwares estadísticos a base de clicks con el ratón – estudios científicos

Puedes utilizar SPSS, RDeducer, RCommander y Minitab. Te explico más detalles sobre estas herramientas:

  • SPSS: es un software verdaderamente excelente. Por su sencillez y posibilidades que brinda. Es muy utilizado para el mundo de la salud, biología, estudios de mercado e incluso para aplicaciones de ingeniería. Para mi una joia para este tipo de aplicaciones científicas. Problema, necesitas licencia comercial.

  • RCommander: R es el lenguaje por excelencia de estadística. El problema es que el manejo de R es complejo. De hecho, el lenguaje R es aplicable a la ciencia de datos. Necesitas aprender a programar y la curva de aprendizaje es brutalmente difícil. Para los que no quieran programar y no lo necesiten pueden utilizar RCommander. Una interfaz de usuario que te ayudará a utilizar muchas de las funcionalidades de R. Puedes adaptar opciones e incluso personalizar cálculos. El problema es que no es tan “bonito” y intuitivo como SPSS. La parte positiva es gratuita y trabajo con un lenguaje libre muy potente, R. Si no tienes licencia de SPSS, es la opción que te recomendaría.

 

  • Minitab: es un software al estilo de SPSS. Creo que está por debajo las capacidades con respecto a SPSS. Yo lo he probado relativamente poco. La comodidad y sencillez de SPSS me conquistó 🙂

# Softwares estadísticos de programación – ciencia de datos

Puedes utilizar RStudio, Python y Matlab. Voy a contarte un poco más sobre ellos:

  • RStudio: es un verdadero lujo esta herramienta. Te permite utilizar R con una interfaz de usuario que está muy bien. Además la carga de paquetes de funciones es muy sencilla y fácil de realizar. Las posibilidades de RStudio son muy grandes. Te permite trabajar con R creanco scripts de programación para tus datos. te permite trabajar con fast reporting con RMarkdown y paquetes muy potentes de visualización con plotly y Shiny. Es gratuito y el universo de científicos que envuelve R es brutal y cada vez con mayor posibilidades.

  • Python: es un universo espectacular de posibilidades. Dicen los expertos que es la herramienta por excelencia en machine learning. La complejidad es mayor que R. El uso de la programación es complejo pero muy muy potente. ¡Si eres ambicioso deberías ir a por Python! Además es gratuito.

  • Matlab: una herramienta comercial muy potente. Gracias a los paquetes de funcionalidades. Tienes mucha potencia es muchos campos. Se está extendiendo su uso en grandes empresas en el desarrollo de aplicaciones en ingeniería. Es especialmente bueno en la disciplina de dinámica de sistemas. Para mi, no tiene todo el potencial de técnicas de machine learning y de estadística que se requiere. Además es un software comercial.

 

# Cómo seleccionar tus mejores herramientas

Voy a tratar de aportarte un poco más de claridad sobre el mapa de softwares. He dibujado en un gráfico de dos ejes.

  1. El eje vertical es la dificultad del software
  2. En el eje horizontal he pintado la potencia, las posibilidades y flexibilidad

Con este gráfico tienes situados los softwares por aplicaciones.

Las tres regiones dan lugar a las tres aplicaciones. Como ves a mayor flexibilidad y posibilidad, mayor es la dificultad del software como es lógico.

Espero que te ayude a situarte en el mercado de herramientas y posibilidades.

Como siempre, tenemos que decidir y aprender de las opciones que creamos que nos pueden ayudar más.

Te voy a recomendar los softwares que creo que te pueden ayudar más.

# Mi recomendación

Mi recomendación para englobar todos los casos es la siguiente

Fíjate que RCommander y RStudio utilizan el mismo motor de cálculo que es el lenguaje R. Es la opción de software libre (gratuito) y que puede englobar todo el campo de aplicación.

Acompaña a R con Excel para el reporting y el trabajo sencillo de gráficos y tablas.

Con estas dos herramientas puedes dominar los datos como nadie.

Si quieres más opciones te doy más:

En el círculo ves las opciones que considero que mejor te irán. Son opciones flexibles y te permiten realmente ser muy bueno con la mayoría de aplicaciones.

También puedes trabajar con la opción 1. Substituyendo RCommander por un software comercial: SPSS. ¡Una opción muy válida!

Si quieres la opción más avanzada puedes trabajar con Power BI + Python y RStudio. ¡Puedes hacer verdaderas locuras! (Pero al dificultad es mucho mayor)

# Tu turno: elige el mejor software para tu caso

Ahora que tienes la visión global de los softwares que presenta el mercado es momento de decirte y empezar a aprender una de ellas.

Recuerda siempre, ¿en qué aplicación te encuentras en tu campo experto?

Teniendo claro este aspecto,  ¿qué opción es la que mejor se adapta para tu caso?

¿Qué software estás utilizando o quieres utilizar?

Te espero en los comentarios.

Acerca del autor

Jordi Olle Sanchez

Autor de ConceptosClaros.com. Ayuda a investigadores apasionados a aplicar estadística y análisis de datos en sus proyectos para catapultar su carrera investigadora y adaptarse a la era de los datos. Accede a los recursos gratuitos para aplicar estadística en tus datos

Interacciones del lector

Si te ha servido puedes comentar aquí ;)

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

  Acepto la política de privacidad

Responsable del fichero: Jordi Ollé Sánchez
Finalidad; envío de mis publicaciones así como correos comerciales.
La Legitimación; es gracias a tu consentimiento.
Destinatarios:Como usuario e interesado te informo que los datos que me facilitas estarán ubicados en los servidores de Webempresa (proveedor de hosting de Conceptos claros) dentro de la UE. Ver política de privacidad de Webempresa
Podrás ejercer Tus Derechos de Acceso, Rectificación, Limitación o Suprimir tus datos enviando un email a jordi @ conceptosclaros.com o ante la Autoridad de Control
Encontrarás más información en política de privacidad
Pro-statistics-Mockup-presentacion

Descárgate los recursos gratuitos y empieza a construir las bases para analizar los datos de tus proyectos de investigación