UNIDAD 1 ESTUDIO DE UNA APLICACIÓN DISTRIBUIDA: HADOOP HDFS PARA EL ALMACENAMIENTO DE BIG DATA 1

Preview:

Citation preview

UNIDAD 1ESTUDIO DE UNA APLICACIÓN DISTRIBUIDA: HADOOP HDFS PARA

EL ALMACENAMIENTO DE BIG DATA

1

2

ÍndiceIntroducción

Big Data

Arquitectura HDFS

Proceso de Lectura de datos

Proceso de Escritura de datos

Q&A

1

2

3

4

5

6

3

Generamos más datos que nunca

4

Usos potenciales

• Análisis de negocio• Recomendaciones de producto• Previsión de demanda• Seguridad ciudadana• Estadística• …

5

Big Data

Toda esta enorme cantidad de información que se genera cada día y los sistema preparados para procesarla con el objetivo de ayudar en la toma de decisiones o análisis estadístico es lo que se conoce como Big Data.

6

Dificultades técnicas principales

• Almacenamiento• Procesamiento• Heterogeneidad de los datos

7

Almacenamiento

Aumento de capacidad de almacenamientoDisminución del precio por MBAumento de ratio de transferencia en porcentajes muy inferiores

8

Almacenamiento - Contención

9

Procesamiento

• Tradicionalmente para aumentar la capacidad de procesamiento se ha optado por aumentar los recursos disponibles en un servidor o adquirir otro de mayor capacidad.

• Sin embargo, es posible repartir el trabajo a realizar distribuyéndolo entre servidores de menor capacidad con un almacenamiento propio y un conjunto de datos único, evitando contención, SPOF y abaratando costes.

10

Procesamiento

“ In pioneer days they used oxen for heavy pulling, and when one ox couldn’t budge a log, we didn’t try to grow a larger ox.”

Grace Hopper, early advocate of distributed computing (1906-1992)

11

Heterogeneidad

Las soluciones tradicionales de almacenamiento y tratamiento de los datos (RDBMS con herramientas de Business Intelligence o Data Mining) no son

válidas, pues es difícil homogeneizar toda esta información en un modelo de datos que permita almacenarlo de manera estructural 

12

HadoopPara cubrir esta necesidad surgió en 2005 Hadoop.

Hadoop es todo un ecosistema de aplicaciones que permite el procesamiento distribuido de largas cantidades de datos repartiéndolos entre todos los nodos de un cluster de servidores usando modelos de

programación sencillos (MapReduce)

13

Arquitectura Hadoop HDFS

• BloquesBloques de gran tamaño replicados

• NameNodesMetadatos

• DataNodesDatos

14

Operación de lectura

15

Operación de escritura

16

Más información

Oracle Big Data (https://www.oracle.com/bigdata/index.html)

Hadoop: The Definitive Guide

Cloudera (http://www.cloudera.com)

17

Q&A

Recommended