Introducción a Big Data

Es común escuchar en nuestras reuniones de trabajo cada vez más términos ¿ realmente conocemos el significado de todos ellos? Actualmente las empresas y gobiernos trabajan con volúmenes de datos muy elevados y poder procesarlos en un tiempo rápido se ha convertido en una necesidad, con ese procesamiento podemos disponer de informes que nos ayuden a la toma de decisiones (entre otras muchas aplicaciones). Big Data viene a soluciones el problema de la escalabilidad de una estructura de ordenadores y su capacidad para almacenar y procesar información.

Computación distribuida

Big Data es un área que pertenece a la computación, ya que tiene una base informática. Supongamos que somos un administrador/a contable de una empresa y que trabajamos con un volumen muy grande de facturación. Puede llegar el momento en el que el ordenador que estamos utilizando no procese toda la información la rápido que nos gustaría. Lo primero que podemos hacer es cambiar ese ordenador por uno mas potente o ampliar sus recursos hardware a esto se le conoce << Crecimiento Vertical>>.

El problema del crecimiento vertical es que no es infinito y llegará el momento que no sea posible conseguir un ordenador o hardware mas potente. En los años 80 se dio con la solución Grace Hooper y la parábola de los bueyes. Si con un elemento no consigo lo que necesito entonces pongo dos o más a trabajar en paralelo. Esto es el origen de la computación distribuida, pasamos de un crecimiento vertical a horizontal.

Limitación de la computación distribuida

El proceso de la distribución distribuida se divide en las siguientes fases:

  1. Datos de entrada, los datos pueden llegar de diferentes fuentes: tablas de excell, sensores IoT…etc
  2. Los datos se distribuyen en varios servidores
  3. Esos datos son almacenados
  4. Cada máquina dispone de un fragmento de los datos
  5. A su vez los datos son procesados por diferentes máquinas
  6. El último paso es enviar los datos para unificarlos y disponer del resultado

Con este sistema de procesamiento, con un mayor volumen de datos mayor será el tiempo de procesamiento y más en un proceso de este tipo puesto que existen varios procesos lo que hace que el sistema no sea escalable ni infinito.

Big Data

La computación distribuida solucionó los problemas del crecimiento vertical pero según crecen las necesidades la solución se ve limitada. Big data es una computación distribuida pero eliminando los cuellos de botella que se encontraban en la transferencia de datos llevando el procesamiento a la localización del dato. Esto junto con la forma de procesar es Big Data almacenamiento y computación distribuidas.

Las 3 Vs

En la definición de Big Data encontraremos que Big Data son las 3Vs: Volumen, Velocidad y Variabilidad (según la fuente se puede hablar de más Vs pero estas son las fundamentales).

  • Volumen: El almacenamiento de los datos se divide en servidores, al poder disponer de un número ilimitado de servidores nos permite almacenar un volumen ilimitado de datos
  • Velocidad: Surge el Streaming que consiste en procesar según llega el dato (no es real puesto que siempre tendremos un pequeño retardo pero podemos considerarlo casi nulo)
  • Variabilidad: El dato se puede estructura de cualquier forma:
    • Estructurado: Tabla de base de datos
    • Semi-estructurado: Json
    • Des-estructurado: Vídeo

Plataforma Big Data

Big data se monta sobre un conjunto de ordenadores/servidores a este conjunto de servidores se le denomina Cluster, cada servidor tendrá una determinada funcionalidad. El core de Big Data es Hadoop (Software Libre) aunque puede englobar a mas tecnologías, su estructura se divide en capas y en cada una de ellas puede actuar un software diferente.