19-herramientas-de-analisis-de-datos

19 herramientas de análisis de datos para convertirte en un ninja del analytics

 

Ha llegado el momento de listar las herramientas de análisis de datos más famosas para ser un crack del analytics. En este artículo encontrarás herramientas comerciales y gratuitas. Y herramientas para programadores y NO programadores. Vamos a ver cuáles de ellas conoces 😉

Antes de mostrarte la lista he descartado herramientas específicas de machine learning y me he centrado en herramientas de análisis de datos: preprocesado de los datos, visualización y análisis estadísticos.

Toda lista requiere de una clasificación. Me he centrado en dos grupos:

  • Herramientas para NO programadores. No necesitarás programar para usar estas herramientas.
  • Herramientas para programadores. Para los que quieran utilizar la programación y crear sus propios algoritmos.

Y en cada grupo he distinguido entre softwares comerciales y softwares gratuitos o open-source.

Me he inspirado en dos grandes artículos que seguro que van a ser útiles para complementar la información de este post:

 

## Herramientas para NO programadores

Este es el listado para NO programadores. Como te decía lo he subdividido entre softwares comerciales y softwares open sources o de código abierto. Si quieres saber que es un software de código abierto, aquí tienes más información.

# Herramientas Comerciales para NO programadores

Minitab

Es una herramienta de pruebas estadísticas y análisis típicos de estadística. Es fácil de usar puedes copiar y pegar datos de Excel. Es muy interesante cuando tienes poquitos datos y quieres crear análisis estadísticos rápidamente.

En las últimas versiones Minitab tiene un asistente para escoger las pruebas estadísticas más apropiadas. Pero es muy importante saber que estás haciendo y entender la estadística antes de hacer análisis como un loco.

Es una herramienta bastante intuitiva. Es ampliamente usado en universidades. Los outputs son agradables y puedes crear un buen informe en poco tiempo.

SPSS

El competidor directo de Minitab. Un software para el análisis estadístico. Es más profesional que Minitab. Pero también más complejo de utilizar. Trabaja muy bien con el manejo de los datos previo al análisis. Limpia y ordena los datos de manera muy eficaz.

Tienes más funcionalidades que Minitab como el análisis factorial, de discriminante etc…

SAS

Es un software empresarial  muy potente. Como puedes hacer muchas muchas cosas es más difícil aprender que SPSS y, que obviamente Minitab. SAS también requiere de programación si quieres trabajar con todo su poder.

SAS tiene la gran ventaja que pude trabajar con muchos datos sin que se cuelgue el programa. Minitab, Excel, SPSS cuando tienes muchos datos puedes tener algún que otro problemilla.

En definitiva es para uso más profesional y empresarial.

Excel

Excel no es la mejor herramienta para hacer análisis estadísticos. Pero se puede usar para hacer test simples y calcular regresiones entre variables. Excel 2013 ha añadido buenos gráficos como el boxplot y ha corregido algún error de cálculo estadístico.

Para hacer análisis básicos excel es muy intuitivo y fácil de usar. Aprende Excel en el blog de ExcelyVBA.

 

Tableau

Tableau es una de las herramientas de visualización de datos y BI (Business Intelligence) más rápidas en evolución. Es muy rápido de implementar, fácil de aprender y muy intuitivo para usar. Aquí hay un camino de aprendizaje para todas aquellas personas que son nuevas en Tableau.

# Herramientas gratuitas para NO programadores

R+ Rcommander

R+Rcommander es genial. Puedes hacer miles de test como Minitab o SPSS. La user interface no es tan comercial y bonita como los softwares comerciales pero es funcional. Para centros de investigación es más que suficiente el uso de esta herramienta. No requiere nada de programación y es bastante intuitivo.

En vivaelsoftwarelibre.com tienes tutoriales interesates de RCommander.

Tienes la garantía que trabajas con un lenguaje más que probado, R.

Rapid Minner

En 2006 se creó la primera versión del software. Es un software open source hasta la versión 6. Ahora tiene versión comercial.

Rapid Minner es una herramienta que hace la función de todas las fases de un modelo de predicción. Desde la preparación de los datos hasta la creación del modelo y la validación.

La GUI es tipo diagrama de bloques. Similar a la Matlab Simulink.

Se puede aplicar bloques de R y Python para el análisis de datos. Es un software muy a tener en cuenta.

Tanagra

Es un software de código libre creado en Francia para propósito académico y de investigación. No requiere picar código. No es comercial en el sentido que la user interface no es una maravilla pero hace su función.

Tiene un plugin interesante para poderlo poner en Excel y usar su máquina de cálculo estadístico. Puede ser útil si te gusta Excel.

¿Y que te permite hacer Tanagra? Visualización de los datos estadística descriptiva, regresión lineal, análisis factorial, clustering y más opciones. Más que suficiente si quieres hacer análisis estadísticos básicos.

Italassi

Es un software pensado para la interpretación de regresiones con dos variables independientes. No es una maravilla pero te permite visualizar todo tipo de estadísticos de estos modelos de regresión.

Weka

Weka es un pájaro muy especial de las islas de Nueva Zelanda. Pero también es un software capaz de crear algoritmos de machine learning. Es muy famoso por proporcionar una plataforma que contiene herramientas para el preprocesado de los datos, clasificación, regresión, clustering  y visualización.

Es un software open-source y tiene licencia GNU.

Tiene cursos y tutoriales para usar la herramienta. Los puedes consultar en su página web o en su canal de youtube.

Y si quieres más puedes utilizar los sabios consejos de Analytics Vidhya, el blog referencia en data analytics.

Open Refine

Me gusta también ponerte software que permiten el refinado y la preparación de los datos. OpenRefine, formalmente Google Refine es una herramienta muy potente para trabajar con grandes cantidades de datos. Y su función principal es poner los datos más sexys y mejor arreglados para poder ser procesados.

Orange

Es un software open source en machine learning y visualización de los datos para novatos y expertos. Su gran particularidad es que puedes crear interesantes análisis y visualización de los datos arrastrando cajas.

No necesitas programar para nada. Es muy interesante este software por si no tienes nada de ganas de programar pero quieres hacer análisis estadísticos y gráficos interesantes.

Es capaz de realizar desde visualización de los datos de manera simple, histogramas, boxplots, heatmaps. Hasta hacer análisis un poco más avanzados como árboles de decisión o métodos de clustering. Pasando por análisis de regresión, pruebas estadísticas paramétricas y no paramétricas.

La gracia principal: puedes explorar los datos sin entrar en el código. Es fácil y rápido de trabajar. Una buena opción si eres perezoso 😉

Wrangler

Este es otro software para limpiar y arreglar los datos antes de ser analizados. Te ayuda a perder menos tiempo en preparar los datos. Los transforma y los pone en los mismos formatos para después analizarlos correctamente.

Puede exportar los datos en Excel, R, Tableau etc… Es una buena opción a considerar antes de empezar tus análisis.

## Herramientas para Programadores

En este apartado listo herramientas de análisis de datos que requieren dotes de programación.

# Herramientas Comerciales para programadores

Hay pocas herramientas comerciales que sólo estén preparadas para programadores. Normalmente las comerciales tienen una user interface intuitiva y fácil de usar.

Por ejemplo SAS es un software súper potente que no requiere programación pero puedes añadir módulos personalizados con tu código hechos ad-hoc.

Matlab

He estado trabajando con Matlab durante 6 años y la verdad que es un software muy cómodo para la programación científica y en ingeniería.

El lenguaje es sencillo de usar. La user interface es muy interesante. Es adecuado tanto para empresa como para educación e investigación.

Tiene un montón de Toolbox muy interesantes. Son paquetes de funciones diseñados para un determinado campo de aplicación.

El problema principal es que no es un lenguaje eficiente y los gráficos los trabaja con Java y es un poco lento. El otro problema es que es comercial y cuesta pasta si quieres todos las funcionalidades.

# Herramientas gratuitas Open-source para programadores

 

R+Rstudio

 

Que te voy a decir de R… Creo que es mejor que mires este post donde te explico muchas cosas sobre el software 😉

También puedes descargarte esta guía gratuita de R-Studio que he creado:

 

Python

No soy usuario de Python y quizá debería serlo. Cada vez se está usando más este lenguaje. Tanto por informáticos como por científicos e ingenieros.

Es un lenguaje bastante eficiente con una sintaxis bastante amigable. No digo que sea fácil aprender pero no es muy complejo.

Como no sé mucho del tema les dejo a los de analyticsvidhya.com que seguro que te van ayudar mucho más que yo:

Algún día me pondré en serio con este programa 😉

ROctave

Es el matlab open-source. No tiene todas todas las funcionalidades de Matlab pero tiene una gran cantidad de funciones y paquetes implementados. Obviamente me gusta más Matlab porque tiene todo el software, la user interface es mejor pero si no tienes presupuesto es una gran opción.

JMatLab

La otra opción con Matlab es JMatLab. Es un clon de Matlab y Octave limitado a estas funcionalidades:

  • Symbolic calculations (simplification, differentials, integration)
  • Numeric Evaluation of mathematical functions, special functions
  • Linear algebra with vectors and matrices
  • Displaying data, vectors, matrices and functions using 2D and 3D interactive plots
  • Saving data (vectors and matrices) in CSV files
  • Random numbers using the major distributions
  • Solving linear and non-linear equations and systems of equations
  • Basic statistical calculations and histogramming

 

Scavis

Es un software interesante. Es adecuado para centros de investigación y universidades. Es un software indicado para la computación numérica, estadística y análisis de big data y visualización científica.

El software es usado en muchas áreas como las ciencias naturales, ingeniería, modelado y análisis de mercados financieros.

Como pasa con R y otros softwares, Scavis es una plataforma que permite trabajar con muchos lenguajes de programación como Python/Jython, BeanShell, Groovy, Ruby, y también Java.

Imagen de portada: flickr de Juan Manuel Rogado

 

Seguramente el artículo te ha ayudado a tener un mapa de las herramientas para programadores y NO programadores. Muy probablemente me dejo algunas. Puedes ponerlo en los comentarios. Ampliaremos la lista juntos.

No olvides compartir el artículo a tus compañeros. Seguro que les puede interesar 😉

Acerca del autor

Jordi Olle Sanchez

Autor de ConceptosClaros.com. Ayuda a investigadores apasionados a aplicar estadística y análisis de datos en sus proyectos para catapultar su carrera investigadora y adaptarse a la era de los datos. Accede a los recursos gratuitos para aplicar estadística en tus datos

Interacciones del lector

Comentarios

  1. Fernando dice

    Muy buena lista de aplicaciones. Yo añadiría de la casa comecial Systat Software (de pago), los paquetes Sigmaplot (representación gráfica de datos), TableCurve 2D y 3D (modelización y ajuste de datos).
    Para empezar desde cero y trabajar sólo con una aplicación, ¿con cuál te quedarías?

    Un saludo.

    • Jordi Ollé dice

      Hola Fernando,
      No conocía a los de Systat. Gracias por compartir.
      Depende como siempre de lo que quieras. Te propongo algunas situaciones:

      Si quieres hacer cosas muy muy sencillas, con pocos datos, y no tienes ganas de pasarte a un software estadístico específico, Excel es suficiente.

      Yo soy bastante pro open-source me gusta la idea de la colaboración con el tema de softwares.
      Si quieres hacer análisis más completos automatizados y representaciones gráficas buenas:
      – Si quieres programar: R con Rstudio
      – Si no quieres programar: Orange

      Si quieres hacer análisis estadísticos típicos tipo SPSS o Minitab te recomiendo R+RCommander.

      A ver si te sirven estas situaciones,

      Un Saludo!

      • ConstanzaE dice

        Hola Jordi… y si quieres hacer análisis de datos en video para generar predictivas? que usarías??

        • Jordi Ollé dice

          Hola!

          Conozco a compañeros que utilizan imágenes como datos. Ellos utilizan python para analizar este tipos de datos.
          Para temas de reconocimiento de patrones etc.

          Espero haberte ayudado,

  2. RAQUEL dice

    Dentro de «Herramientas Comerciales para NO programadores» falta el software Gandia BarbWin, muy potente y amigable. Incorpora módulo de DataEntry, de tabulación y graficación, de codificación de preguntas abiertas, y de sintaxis. Y totalmente en español, desarrollado por la empresa TESI.

    • Jordi Ollé dice

      Hola Raquel,
      No lo conocía. Muchas gracias por compartir. Voy a cotillear a ver qué tal 😉
      Un abrazo 🙂

  3. Norberto Vera Reatiga dice

    Buenos dias!

    En «Herramientas Comerciales para NO programadores» estaría bien incluir Power BI de Microosoft, esta herramienta esta evolucionando rápido y una propuesta excelente para el autoservicio en análisis de datos.

    • Jordi Ollé dice

      Hola Norberto!

      Totalmente de acuerdo. Me has leído la mente. De hecho, tengo preparado un artículo sobre power BI con la ayuda de Salvador de elfuturodelosdatos.com.
      Dentro de un par de semanas lo voy a publicar. No te lo pierdas 😉

      Gracias por pasarte!

  4. david dice

    Estuve leyendo esta web genial y consulto.
    Que se necesita para empezar a ser un analista de datos? ya sea del area que sea.

    Como empezar? que herramientas usar para un novato?
    – excel, estadistica, BD, BI?
    un analista de datos o big data digamos usa si o si un software de BI?

    • Jordi Ollé dice

      Hola!
      Gracias por pasarte!
      Es una excelente pregunta.

      Par empezar necesitas 3 cosas:
      – Entender los conceptos fundamentales básicos
      – Comprender la metodología de análisis de datos: Definir un Objetivo – Exploración – Análisis – Conclusión
      – Saber aplicarlo con un software.

      … Y muchas práctica.

      En cuanto al software que es lo que veo que te preocupa:

        Si trabajas con exploración de datos (es decir gráficos) te recomiendo trabajar con Power BI, Excel
        Si quieres hacer análisis de datos automatizados y aplicando estadística inferencial recomiendo R
        En Big data no tengo mucha experiencia la verdad. Aunque, si que Salvador Ramos delFuturodelosDatos.com recomiendo Power BI.

      Un abrazo!

  5. david dice

    Excelente respuesta. Realmente cuando perciba mi sueldo trataré de comprar tu libro

    siguiendo….

    En mi empresa no tenemos el puesto de » analista de datos» en si.

    Actualmente estoy trabajando en el área comercial de la empresa, toco un poco de BI pero demasiado básico, trabajamos con clientes, productos, vendedores, ruta vendedores, ventas, compras, positivacion, % rendimiento visitas etc etc….

    Como puede encajar un analista de datos en un lugar donde el puesto no existe ? teniendo en cuenta que la Base de datos lo maneja el programador de la empresa, como entonces uno metería a Python/SQL en ese caso? o uno debe independizarse de todo?
    Lo que está en la BD son todos los cadastros de la empresa.

    Gracias por leer, espero no haber sido extenso.

    • Jordi Ollé dice

      Si he entendido bien tu situación Power BI es la herramienta perfecta para ello.
      Esta herramienta es gratuita. Es de microsoft.

      Y puede comunicarse con datos de servidores SQL
      https://powerbi.microsoft.com/es-es/integrations/sql-server/

      Además puede integrar plataformas de email marketing, redes sociales etc.

      Con los datos leídos puedes explorar (hacer gráficos) de manera muy rápida y eficiente. Te recomiendo que mires el tutorial de esta entrevista.
      https://conceptosclaros.com/salvador-ramos/

      Salvador es un crack con este software.
      Él te puede orientar muy bien al respecto.

      Espero haberte ayudado,

      Un abrazo,

      Jordi

  6. juan dice

    Yo lo que no entiendo es la relacion entre R y Python.
    El labor del analista de datos es, analizar, recoletar, interpretar la informacion, pero siempre es hacerlo en forma de graficos? o alguna forma de demostrar lo recaudado.

    Para que tipo de situaciones son los optimos R y Python, hacen lo mismo, uno debe saber ambos si o si?

    Porque esto lo pones a una persona que no esta en el desarrollo y es analista, te va a decir, porque simplemente no usar Excel?

    Si podrias explicar este punto por favor.

    • Jordi Ollé dice

      Es una excelente pregunta Juan!

      R nació como paquete estadístico.
      Nació como herramienta para investigadores. Y cada vez se está utilizando más en empresas privadas.

      R es muy eficiente para la visualización de datos y para el análisis estadístico.

      Python (no tengo mucha experiencia con este software)
      Es un software más todo terreno. Manipula muy bien los datos, es más eficiente.
      Tiene buenos paquetes de machine learning. Se puedo comunicar con otras plataformas de manera eficiente leyendo datos SQL etc.

      Pero sabes, lo mejor es que le des un vistazo a este artículo.
      Que me ha parecido muy bueno y seguro que sales de dudas.

      Yo soy usuario de R y Python lo tocado más bien poco (aunque me gustaría empezar).

      Es mejor que te lo cuenten cracks de datacamp 😉
      Mírate este post:
      https://www.datacamp.com/community/tutorials/r-or-python-for-data-analysis#gs.AuPSwaU

      Espero haberte ayudado,

      Jordi

  7. Fernando Espinola dice

    Mi sueño es ser analista de datos, todo lo que requiera analisis es mi pasion.
    Me sumo a la pregunta de, si no estas en el area de negocios/marketing etc… podes ser analista de datos?

    Actualmente también como el señor de arriba me encuentro en el are de cartografia, todo lo que tenga que ver con ruta de vendedores, flota, vehiculos…

    Mi duda es EL BI es inteligencia de negocios pero lo mio no es negocios… y frustra un poco no saber si podre ser analista de datos o renunciar a mi actual empleo, estoy confundido con eso.

    Espero poder obtener alguna info

    Y genial las 19 herramientas, gran introductorio.

    • Jordi Ollé dice

      Hola Fernando,

      No hay que confundir BI con analista de Datos. El Analista de Datos es el que explora y analiza los datos para tomar mejores decisiones en cualquier campo de aplicación.
      Uno de los campos de aplicación más de moda es el de BI (inteligencia de negocios) Pero hay muchos más.

      Ser un analista de datos implica ser también conocer de otra temática que te interese.
      Si eres biólogo puedes ser analista de datos centrándote en aspectos de la biología (cadenas de ADN, investigación de poblaciones de insectos, aves etc…)

      El primer paso es identificar qué tema es el que te gusta o hay demanda en el mercado laboral y después ayudarte de los conocimientos de Analytics para crecer como profesional 🙂
      Espero haberte ayudado

      Jordi

  8. Raul Pulido dice

    Excelente articulo, muchas gracias por compartir el conocimiento. Si bien veo que las herramientas son potentes en temas analiticos, predictivos, estadisticos y de mineria, alguna de ellas se atreveria a recomendar para temas de «Calidad de Datos y Perfilamiento» exclusivamente…con el proposito de identificar datos malos, repetidos, etc…o si sabe alguna gratuita que conozca , genial tu opinion. Las que conozco de Oracle e IBM son muy costosas. Mil Gracias.

    • Jordi Ollé dice

      Este tema es muy interesante.
      No tengo mucha experiencia en esto. Pero por lo que he visto Power BI es un gran software para poder corregir los datos.
      Quitar repetidos, corregir comas, puntos etc… Corregir nombres

      Pero me gustaría profundizar en esto. Me apunto el tema 🙂

      Gracias por pasarte.

      Jordi

  9. Angel De Paz Perestelo dice

    XLSTAT. Sería comercial, para no programadores y, diría yo, «perezosos».

    Lo interesante es que puede considerarse un plumón de Excel, por lo que es muy fácil de aprender a usar si se concentra Excel.

    Tiene muchísimas funciones, módulos y opciones y las salidas son muy organizadas. Incluyen un menú para movilizarse por las diferentes secciones.

  10. Fernando dice

    Estimado, gracias por el dato primeramente.
    Estoy empezando a entrar más a detalle y tengo muchas dudas a despejar si pudieras colaborar; la primera y motiva a todo esto es si pudiera empezar a prestar servicio a «X» empresa desarrollando el «Análisis de Datos» y la pregunta del millón con que programa sería el ideal para aplicarlo y tenga relativamente lo básico y NO depender de otro sino mientras empezar con uno solo…. y de ser positivo que tipo de servicio sería los más «Común» para una empresa dedicada al rubro comercial y/o servicio por favor… gracias por despejarme de duda pero espero haya comprendido mi inquietud que mi intención es independizarme o prestar servicio con esta carrera del futuro.
    Gracias.

    • Jordi Ollé dice

      Hola Fernando!
      El análisis de datos es una disciplina transversal. Es decir que lo puedes aplicar en muchos campos.
      Si quieres ser consultor de datos la verdad es que primero es importante practicar y pasar muchas horas.
      Lo primero que te dería es que trabajes por cuenta ajena de analista de datos. Y una vez tengas el conocimiento suficiente puedas oferta servicios de análisis de datos.

      Si no quieres hacerlo trabajar por cuenta ajena lo primero es pensar en qué empresa quieres ofertarle el servicio.
      Depndiendo del tipo de empresa podrás aportar un servicio diferente.
      Por ejemplo, empresas de negocio el business inteligence cada vez es más interesante para tomar decisiones estratégicas y de marketing.

      Si la empresa es sobre diseño industrial, las aplicaciones son más sobre la mejora de cualidad del producto.

      Y como estos dos ejemplos, infinidad.

      Trata de buscar a quién quieres prestar servicio y sigue formándote 🙂

      Jordi

  11. Gonzalo PF dice

    Hola Jordi

    Muy buen articulo y ademas ilustrativo, solo encuentro a faltar la referencia a KNIME https://www.knime.com/ que serria la competencia mas directa a Rapidminer.
    KINME tiene tambien una gran comunidad y su listado de nodos (algoritmos) es importante.

    saludos

    • Jordi Ollé dice

      Muchas gracias por ayudar a hacer la lista más grande 🙂 Investigaré lo que me dices 🙂 YEah!

  12. Mercedes Fuentes dice

    ¡Hola, Jordi! Excelente la información del artículo, me gustó mucho que explicaras muy claramente cada una de estas herramientas, trabajo con COMPARASOFTWARE, por lo que conozco varias de los programas y Matalab es un de ellos, así que te felicito por la selección de los software, todos son realmente buenos. Looker, JMP y TIBCO son otros programas que aparecen en nuestro website y también ayudan al análisis estadístico, son muy buenos, así que te los recomiendo. Saludos.

    • Jordi Ollé dice

      Hola hola! Cuando revise el contenido del articulo miraré los que me recomeindas! Muchas gracias Mercedes 🙂


Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

  Acepto la política de privacidad

Responsable del fichero: Jordi Ollé Sánchez
Finalidad; envío de mis publicaciones así como correos comerciales.
La Legitimación; es gracias a tu consentimiento.
Destinatarios:Como usuario e interesado te informo que los datos que me facilitas estarán ubicados en los servidores de Webempresa (proveedor de hosting de Conceptos claros) dentro de la UE. Ver política de privacidad de Webempresa
Podrás ejercer Tus Derechos de Acceso, Rectificación, Limitación o Suprimir tus datos enviando un email a jordi @ conceptosclaros.com o ante la Autoridad de Control
Encontrarás más información en política de privacidad
6-tecnicas-Mockup-presentacion

Y descubre: Un método eficaz para analizar los datos de tu proyecto o tesis doctoral con el fin de justificar tus resultados con seguridad y garantías de éxito