Qué es es y para qué sirve Big Data

Qué es Big Data y para qué sirve ¿Que responderás cuando te pregunten por Big Data?

Qué es es y para qué sirve Big Data

Ha llegado el momento de entender de una vez por todas qué es Big Data y para qué sirve. Es una realidad y es parte de nuestra sociedad. Big Data es un fenómeno de la era de la información. Nos sirve para entender mejor hacia dónde vamos y hacia dónde no deberíamos ir. La estadística y las mates toman un rol muy importante para aprovechar el Big Data. ¿Lo quieres ver?

La gran pregunta

Big Data significa cantidad ENORME de datos. De naturaleza muy diversa, des de internet: redes sociales y google; pasando por móviles, transacciones bancarias, compras … y llegando a cámaras y sensores dactilares. (y mucho más que me dejo por el camino)

Existe un sinfín de datos que no podemos ni imaginar… pero la gran pregunta es ¿los puedes aprovechar para tomar decisiones?, ¿para responder a preguntas? ¿Para entender mejor la sociedad?

Por ejemplo: ¿Puedes saber que va a querer tu cliente sin apenas conocerlo?, ¿sólo con los datos de redes sociales y demográficos? ¿Serás capaz de predecir una enfermedad sólo con las palabras clave buscadas en google? ¿Puedes saber cómo está creciendo la ciudad y predecir que barrios debo aplicar mejoras de servicios como hospitales, centros de día,..?

Pero todas las preguntas se resumen en una sola: De la cantidad ENORME de datos que dispones, ¿los puedes relacionar para responder a tus preguntas y tomar mejores decisiones? En definitiva, ¿entender mejor la sociedad?

Aumento de la tecnología y el aumento de la información

El siglo XXI es la era de la información. En los últimos años la ciencia está desarrollando un cambio muy importante. Se han mejorado tecnologías en el ámbito de los sensores, de la grabación, de la computación…

Ello conlleva al aumento de datos en un entorno cada vez más complejo. El resultado es que cada vez aumenta la cantidad de información ENORMEMENTE. Este fenómeno es denominado Big Data.

Nuestra PC trabaja sin problemas con megabytes (1024bytes), gigabytes (1024MB). Incluso es familiar el terabyte (1024GB). El aumento de información es tal que estamos en escales muchas más grandes: petabyte (1024TB) o aún más el exabyte (1024PB)…Se plantea llegar a Yottabyte (1024ZB)… ¡Una LOCURA! Vaya…

Estamos SATURADOS por el acceso de información. La lectura positiva de todo esto es que se puede sacar provecho del Big Data.

La clave está en relacionar datos de distinta naturaleza. Así ganaremos conocimiento de la sociedad y la podremos mejorar.

La clave es aplicar el análisis correcto. Estadistas y matemáticos juegan un gran papel 🙂 .

La pirámide DICS

piramide-dics

Para aprovechar el Big Data es necesario un ejercicio brutal de recolección, análisis y síntesis. Podemos pensar en seguir un camino piramidal:

  1. En la parte más baja aparecen los Datos. Es la materia prima. Hay de muchos formatos y naturaleza.
  2. Los datos son captados y se obtiene la Información que después podrá ser tratada.
  3. Está información se relaciona y se analiza para tener más Conocimiento de la sociedad.
  4. Finalmente el conocimiento se ordena y se resume para crecer en Sabiduría y tomar mejores decisiones.

La naturaleza mutidisciplinar del Big Data

  • Científicos de la computación (computer scientist) crean algoritmos para manipular y organizar datos.
  • Estadísticos y matemáticos se encargan de crear nuevas metodologías para identificar patrones en los datos.
  • Expertos en bases de datos recolectan y ordenan los datos.
  • Informáticos programan las metodologías propuestas por los matemáticos y estadísticos.
  • Ingenieros diseñan la electrónica y el hardware para aumentar la capacidad de los computadores.
  • Finalmente expertos en las materias como economistas, sociólogos, químicos, biólogos, médicos, etc… interpretan los resultados y ser más “sabios” de la su disciplina.

Los 4 grandes retos del Big Data

La estadística nace de la necesidad de sacar conclusiones a partir de datos de hechos reales. Pero el siglo XXI nos pone las cosas más difíciles. Ya no se habla de una simple tabla de datos, fácilmente manejable, sino de volúmenes MUY MUY grandes. Se generan segundo a segundo. El escenario es complejo y los retos que lo acompañan son:

  1. Gran cantidad de datos y formatos muy diferentes
  2. Leerlos y almacenarlos
  3. Analizarlos y relacionarlos entre sí
  4. Sacarles partido y mejorar la sociedad
Imagínate que eres alcalde de tu ciudad y para conocerla mejor has decido obtener todos los datos posibles. (demográficos, habitantes por barrios, médicos, servicios,…) ¿Cómo aprovecho toda la información?

1. La locura de los formatos

El primer reto es poder leer los datos de distintos sitios: de redes sociales, de búsquedas de google, datos geopolíticos de los estados, ventas en internet, datos bursátiles…. Cada fuente tiene su propio formato y tienes que adaptarte a todos ellos. Según los expertos existen tres formatos de datos:

  • Los estructurados. Los más sencillos de leer y los que van organizados según las variables. Pueden ser numéricas, con caracteres. Tienen un formato definido y son fáciles de leer.
  • Los semi-estructurados. Contienen separadores que indican los cambios de las distintas variables pero no tienen un estructura definida como los anteriores. Por ejemplo los XML.
  • Los no estructurados. Los e-mails los PDF’s por ejemplo. No tienen ninguna estructura. Son caracteres puestos sin sentido del orden. Pero son una fuente de información valiosa. El Big data también los quiere procesar.

2. Cómo los voy a leer y almacenar

Tienes que diseñar una estrategia de lectura para cada fuente y formato de datos. Que sea rápida y eficaz. Por si fuera poco, una vez leído, almacenarlos. Estamos hablando de muchos terabytes. Si nos cuesta procesar 100Mb de datos Excel imagina 20 Terabytes.

Para poder relacionar los datos tienes que homogeneizarlos. Ponerlos todos en el mismo formato.

3. Analizar datos (data analysis)

Este es el punto donde iba. Estadistas y matemáticas tienen un gran peso en este reto. Tú también formas parte 😉 .

Cómo te explicaba en el post del código la fase de analizar datos es una oportunidad fantástica para hacer relucir técnicas de mates y de estadística. El objetivo que tienes: transformar los datos de partida en algo útil. Aquí algunas disciplinas:

  • Relación de datos: encontrar correlaciones que nos permitan predecir variables de interés en función de las otras. Encontrar reglas de predicción.
  • Machine learning: crear máquinas en forma de algoritmos matemáticos capaces de aprender. Estas máquinas nos van a servir para predecir comportamientos. Las redes neuronales son un ejemplo.
  • Data minig: explorar los datos para encontrar indicios de relaciones entre variables. Búsqueda de patrones con poco conocimiento de dónde pueden estar. Es cómo excavar en las minas para sacar minerales. Remover datos y encontrar relaciones es el objetivo.
  • Clustering: agrupado de los datos según características parecidas. Crear grupos que se parezcan.
  • Análisis de textos: es la disciplina encargada de sacar patrones repetitivos a partir de textos ()e-mails, mensajes de texto móviles, búsquedas en google…)

4. Visualizar los datos (estadística descriptiva)

Es el momento más Deliniano. Dejas salir el pintor que hay dentro de ti. Es todo un reto. El objetivo: representar en un papel relaciones que pueden ser muy complicadas. Requieren más dimensiones para representarlas. Es todo un reto.

Porque el Big Data está relacionando muchas variables entre sí y el análisis es multidimensional (relaciona muchas variables a la vez).

El papel de la estadística descriptiva es vital para poder presentar los resultados en 2D o 3D.

Es un ejercicio de síntesis brutal en forma de gráficos.


Me interesaba mostrarte que es el Big Data como una de los ejemplos de aplicación más de moda de estadistas y matemáticos.

Espero que te haya servido para responder a la gran pregunta de tu colega: “¿Has visto esto del Big Data? Ahora está de moda y parece interesante. ¿Qué opinas?” Ahora ya sabrás que decir cuando te pregunten por Big Data.

No soy un experto en esto. Te lo he explicado a mi modo de entender ¿Crees que falta alguna cosa para completar la explicación?

Acerca del autor

Jordi Olle Sanchez

Autor de ConceptosClaros.com. Ayuda a investigadores apasionados a aplicar estadística y análisis de datos en sus proyectos para catapultar su carrera investigadora y adaptarse a la era de los datos. Accede a los recursos gratuitos para aplicar estadística en tus datos

Interacciones del lector

Comentarios

  1. Hola, excelente página, muy clara, y con buenos ejemplos. Gracias por compartir tus conocimientos.
    Saludos desde Chile¡¡¡

    • Hola Alex!
      Qué alegría, uno de Chile!
      Creo que eres el primero que me escribes por los comentarios des de Chile 🙂

      1 fuerte abrazo!

  2. Hola
    Recien me intereso por la bigdata. Me puedes dar algun norte para iniciar. Solo he trabajado con excel y algo de minitab durante la escuela.
    Gracias por la nota Y saludos desde México


Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

  Acepto la política de privacidad

Responsable del fichero: Jordi Ollé Sánchez
Finalidad; envío de mis publicaciones así como correos comerciales.
La Legitimación; es gracias a tu consentimiento.
Destinatarios:Como usuario e interesado te informo que los datos que me facilitas estarán ubicados en los servidores de Webempresa (proveedor de hosting de Conceptos claros) dentro de la UE. Ver política de privacidad de Webempresa
Podrás ejercer Tus Derechos de Acceso, Rectificación, Limitación o Suprimir tus datos enviando un email a jordi @ conceptosclaros.com o ante la Autoridad de Control
Encontrarás más información en política de privacidad
Pro-statistics-Mockup-presentacion

Descárgate los recursos gratuitos y empieza a construir las bases para analizar los datos de tus proyectos de investigación