31
Evaluación de MapReduce, Pig y Hive, sobre la plataforma Hadoop Franklin Parrales Bravo Marco Calle Jaramillo Jueves, 06 de Mayo de 2010 Informe de materia de graduación

Evaluación de MapReduce, Pig y Hive, sobre la plataforma ...€¦ · Evaluación de MapReduce, Pig y Hive, sobre la plataforma Hadoop Servicios y herramientas usadas oHadoop 0.18,

  • Upload
    others

  • View
    7

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Evaluación de MapReduce, Pig y Hive, sobre la plataforma ...€¦ · Evaluación de MapReduce, Pig y Hive, sobre la plataforma Hadoop Servicios y herramientas usadas oHadoop 0.18,

Evaluación de MapReduce, Pig y Hive, sobre la plataforma Hadoop

Franklin Parrales Bravo

Marco Calle Jaramillo

Jueves, 06 de Mayo de 2010

Informe de materia de graduación

Page 2: Evaluación de MapReduce, Pig y Hive, sobre la plataforma ...€¦ · Evaluación de MapReduce, Pig y Hive, sobre la plataforma Hadoop Servicios y herramientas usadas oHadoop 0.18,

Evaluación de MapReduce, Pig y Hive, sobre la plataforma Hadoop

Contenido

o Herramientas

o Motivación

o Servicios y herramientas usadas

o Esquema

o Resultados

o Conclusiones y Recomendaciones

Jueves, 06 de Mayo de 2010

Page 3: Evaluación de MapReduce, Pig y Hive, sobre la plataforma ...€¦ · Evaluación de MapReduce, Pig y Hive, sobre la plataforma Hadoop Servicios y herramientas usadas oHadoop 0.18,

Evaluación de MapReduce, Pig y Hive, sobre la plataforma Hadoop

Herramientas

o Hive

o Pig

o Java nativo(Hadoop)

Jueves, 06 de Mayo de 2010

Page 4: Evaluación de MapReduce, Pig y Hive, sobre la plataforma ...€¦ · Evaluación de MapReduce, Pig y Hive, sobre la plataforma Hadoop Servicios y herramientas usadas oHadoop 0.18,

Evaluación de MapReduce, Pig y Hive, sobre la plataforma Hadoop

Contenido

o Herramientas

o Motivación

o Servicios y herramientas usadas

o Esquema

o Resultados

o Conclusiones y Recomendaciones

Jueves, 06 de Mayo de 2010

Page 5: Evaluación de MapReduce, Pig y Hive, sobre la plataforma ...€¦ · Evaluación de MapReduce, Pig y Hive, sobre la plataforma Hadoop Servicios y herramientas usadas oHadoop 0.18,

Evaluación de MapReduce, Pig y Hive, sobre la plataforma Hadoop

Motivación

¿Cuál de las herramientas anteriormente mencionadas es más adecuada para el

procesamiento masivo de datos?

Jueves, 06 de Mayo de 2010

Page 6: Evaluación de MapReduce, Pig y Hive, sobre la plataforma ...€¦ · Evaluación de MapReduce, Pig y Hive, sobre la plataforma Hadoop Servicios y herramientas usadas oHadoop 0.18,

Evaluación de MapReduce, Pig y Hive, sobre la plataforma Hadoop

Contenido

o Herramientas

o Motivación

o Servicios y herramientas usadas

o Esquema

o Resultados

o Conclusiones y Recomendaciones

Jueves, 06 de Mayo de 2010

Page 7: Evaluación de MapReduce, Pig y Hive, sobre la plataforma ...€¦ · Evaluación de MapReduce, Pig y Hive, sobre la plataforma Hadoop Servicios y herramientas usadas oHadoop 0.18,

Evaluación de MapReduce, Pig y Hive, sobre la plataforma Hadoop

Servicios y herramientas usadas

o Hadoop 0.18, Pig 0.5, Hive 0.4.0.

o Imagen Fedora de Cloudera que nos proveeAmazon Machine Image (AMI).

o Elastic Computing Cloud (EC2) y SimpleStorage Service (S3) de AWS (Amazon WebServices)

Jueves, 06 de Mayo de 2010

Page 8: Evaluación de MapReduce, Pig y Hive, sobre la plataforma ...€¦ · Evaluación de MapReduce, Pig y Hive, sobre la plataforma Hadoop Servicios y herramientas usadas oHadoop 0.18,

Evaluación de MapReduce, Pig y Hive, sobre la plataforma Hadoop

Contenido

o Herramientas

o Motivación

o Servicios y herramientas usadas

o Esquema

o Resultados

o Conclusiones y Recomendaciones

Jueves, 06 de Mayo de 2010

Page 9: Evaluación de MapReduce, Pig y Hive, sobre la plataforma ...€¦ · Evaluación de MapReduce, Pig y Hive, sobre la plataforma Hadoop Servicios y herramientas usadas oHadoop 0.18,

Evaluación de MapReduce, Pig y Hive, sobre la plataforma Hadoop

Esquema

Jueves, 06 de Mayo de 2010

Apache Web Server

Genera

Log de actividades de Apache Web Server

Son cargados a

Pig

Ejecución de procesos MapReduce

Obtención de reportes y evaluación de tiempo de ejecución

1. Conteo de direcciones IP

2. Identificar fechas de eventos de advertencia o error

3. Identificación de la página que más veces no ha sido hallada, y la hora a la que más veces no se la halló

Page 10: Evaluación de MapReduce, Pig y Hive, sobre la plataforma ...€¦ · Evaluación de MapReduce, Pig y Hive, sobre la plataforma Hadoop Servicios y herramientas usadas oHadoop 0.18,

Evaluación de MapReduce, Pig y Hive, sobre la plataforma Hadoop

Contenido

o Herramientas

o Motivación

o Servicios y herramientas usadas

o Esquema

o Resultados

o Conclusiones y Recomendaciones

Jueves, 06 de Mayo de 2010

Page 11: Evaluación de MapReduce, Pig y Hive, sobre la plataforma ...€¦ · Evaluación de MapReduce, Pig y Hive, sobre la plataforma Hadoop Servicios y herramientas usadas oHadoop 0.18,

Evaluación de MapReduce, Pig y Hive, sobre la plataforma HadoopJueves, 06 de Mayo de 2010

Comparación de las tres herramientas por cantidad de nodos

Nodos 2 4 6 10 15 20Consulta 1 93 59 40 31 28 27Consulta 2 72 51 36 27 24 21Consulta 3 71 51 37 28 24 20

Nodos 2 4 6 10 15 20

Consulta 1 172 126 93 76 75 74Consulta 2 133 74 63 53 52 69Consulta 3 279 201 171 154 154 142

Nodos 2 4 6 10 15 20Consulta 1 4414.7513 2852.0139 1588.4087 1548.1025 1499.1968 1470.5606Consulta 2 4352.8812 2834.0337 1561.4006 1415.2823 1384.61 1359.4257Consulta 3 8898.2346 5776.0148 3117.9123 3087.789 2889.1818 2880.6259

Page 12: Evaluación de MapReduce, Pig y Hive, sobre la plataforma ...€¦ · Evaluación de MapReduce, Pig y Hive, sobre la plataforma Hadoop Servicios y herramientas usadas oHadoop 0.18,

Evaluación de MapReduce, Pig y Hive, sobre la plataforma Hadoop

Comparación de herramientas en la primera consulta

Jueves, 06 de Mayo de 2010

0500

100015002000250030003500400045005000

0 5 10 15 20 25

Tiem

po(S

egun

dos)

Cantidad de nodos

Primera consulta

Hadoop

Pig

Hive

020406080

100120140160180200

0 5 10 15 20 25

Tiem

po(S

egun

dos)

Cantidad de nodos

Primera consulta

Hadoop

Pig

Page 13: Evaluación de MapReduce, Pig y Hive, sobre la plataforma ...€¦ · Evaluación de MapReduce, Pig y Hive, sobre la plataforma Hadoop Servicios y herramientas usadas oHadoop 0.18,

Evaluación de MapReduce, Pig y Hive, sobre la plataforma Hadoop

Comparación de herramientas en la segunda consulta

Jueves, 06 de Mayo de 2010

0

1000

2000

3000

4000

5000

0 5 10 15 20 25

Tiem

po(S

egun

dos)

Cantidad de Nodos

Segunda consulta

Hadoop

Pig

Hive

020406080

100120140

0 5 10 15 20 25

Tiem

po(S

egun

dos)

Cantidad de Nodos

Segunda consulta

Hadoop

Pig

Page 14: Evaluación de MapReduce, Pig y Hive, sobre la plataforma ...€¦ · Evaluación de MapReduce, Pig y Hive, sobre la plataforma Hadoop Servicios y herramientas usadas oHadoop 0.18,

Evaluación de MapReduce, Pig y Hive, sobre la plataforma Hadoop

Comparación de herramientas en la tercera consulta

Jueves, 06 de Mayo de 2010

0

2000

4000

6000

8000

10000

0 5 10 15 20 25

Tiem

po(S

egun

dos)

Cantidad de nodos

Tercera consulta

Hadoop

Pig

Hive

0

50

100

150

200

250

300

0 5 10 15 20 25

Tiem

po(S

egun

dos)

Cantidad de nodos

Tercera consulta

Hadoop

Pig

Page 15: Evaluación de MapReduce, Pig y Hive, sobre la plataforma ...€¦ · Evaluación de MapReduce, Pig y Hive, sobre la plataforma Hadoop Servicios y herramientas usadas oHadoop 0.18,

Evaluación de MapReduce, Pig y Hive, sobre la plataforma HadoopJueves, 06 de Mayo de 2010

Comparación de las tres herramientas por cantidad de nodos

Hadoop Correlación Significancia estadísticaConsulta 1 -0.686623 1.39E-06Consulta 2 -0.7078144 2.55E-07Consulta 3 -0.7147704 1.41E-07

Pig Correlación Significancia estadísticaConsulta 1 -0.7864096 9.63E-14Consulta 2 -0.6801039 2.28E-06Consulta 3 -0.7843727 1.23E-13

Hive Correlación Significancia estadísticaConsulta 1 -0.7225381 7.16E-11Consulta 2 -0.7378843 1.74E-08Consulta 3 -0.7274289 4.61E-08

Page 16: Evaluación de MapReduce, Pig y Hive, sobre la plataforma ...€¦ · Evaluación de MapReduce, Pig y Hive, sobre la plataforma Hadoop Servicios y herramientas usadas oHadoop 0.18,

Evaluación de MapReduce, Pig y Hive, sobre la plataforma HadoopJueves, 06 de Mayo de 2010

Tamaño del Log (MB) 128 256 512 1024Hive 879 886 907 1548Pig 69 70 71 76Java Nativo (Hadoop) 22 22 24 31

Tamaño del Log (MB) 128 256 512 1024Hive 868 888 894 1415Pig 41 41 42 53Java Nativo (Hadoop) 18 20 22 28

Tamaño del Log (MB)128 256 512 1024

Hive 1785 1792 1808 3087Pig 88 88 89 154Java Nativo (Hadoop) 16 18 20 28

Comparación de las tres herramientas por tamaño del Apache Log

Page 17: Evaluación de MapReduce, Pig y Hive, sobre la plataforma ...€¦ · Evaluación de MapReduce, Pig y Hive, sobre la plataforma Hadoop Servicios y herramientas usadas oHadoop 0.18,

Evaluación de MapReduce, Pig y Hive, sobre la plataforma Hadoop

Comparación de las tres herramientas por tamaño del Apache Log

Jueves, 06 de Mayo de 2010

0

500

1000

1500

2000

2500

3000

3500

0 200 400 600 800 1000 1200

Tiem

po(S

egun

dos)

Tamaño del Apache Log

Rendimiento de herramientas en las tres consultas

Hive Consulta3

Pig Consulta3

Java Nativo (Hadoop) Consulta3

Hive Consulta2

Pig Consulta2

Java Nativo (Hadoop) Consulta2

Hive Consulta1

Pig Consulta1

Java Nativo (Hadoop) Consulta1

Page 18: Evaluación de MapReduce, Pig y Hive, sobre la plataforma ...€¦ · Evaluación de MapReduce, Pig y Hive, sobre la plataforma Hadoop Servicios y herramientas usadas oHadoop 0.18,

Evaluación de MapReduce, Pig y Hive, sobre la plataforma Hadoop

Comparación de las tres herramientas por tamaño del Apache Log

Jueves, 06 de Mayo de 2010

0

20

40

60

80

100

120

140

160

180

0 200 400 600 800 1000 1200

Tiem

po(S

egun

dos)

Tamaño del Apache Log

Rendimiento de herramientas en las tres consultas

Pig Consulta3

Java Nativo (Hadoop) Consulta3

Pig Consulta2

Java Nativo (Hadoop) Consulta2

Pig Consulta1

Java Nativo (Hadoop) Consulta1

Page 19: Evaluación de MapReduce, Pig y Hive, sobre la plataforma ...€¦ · Evaluación de MapReduce, Pig y Hive, sobre la plataforma Hadoop Servicios y herramientas usadas oHadoop 0.18,

Evaluación de MapReduce, Pig y Hive, sobre la plataforma Hadoop

Comparación de las tres herramientas por tamaño del Apache Log

Jueves, 06 de Mayo de 2010

Hadoop Correlación Significancia estadísticaConsulta 1 0.6093751 0.0003512Consulta 2 0.843469 4.85E-06Consulta 3 0.7084398 1.18E-02

Pig Correlación Significancia estadísticaConsulta 1 0.2567449 0.1708Consulta 2 0.4447525 1.38E-02Consulta 3 0.1553797 4.12E-01

Hive Correlación Significancia estadísticaConsulta 1 0.8654805 6.71E-07Consulta 2 0.78687 2.51E-04Consulta 3 0.8690335 4.72E-07

Page 20: Evaluación de MapReduce, Pig y Hive, sobre la plataforma ...€¦ · Evaluación de MapReduce, Pig y Hive, sobre la plataforma Hadoop Servicios y herramientas usadas oHadoop 0.18,

Evaluación de MapReduce, Pig y Hive, sobre la plataforma Hadoop

Contenido

o Herramientas

o Motivación

o Servicios y herramientas usadas

o Esquema

o Resultados

o Conclusiones y Recomendaciones

Jueves, 06 de Mayo de 2010

Page 21: Evaluación de MapReduce, Pig y Hive, sobre la plataforma ...€¦ · Evaluación de MapReduce, Pig y Hive, sobre la plataforma Hadoop Servicios y herramientas usadas oHadoop 0.18,

Evaluación de MapReduce, Pig y Hive, sobre la plataforma Hadoop

Conclusiones

o Pig es fácil aprender y es rápido.o Hive usa sentencias parecidas a SQL pero se

necesita de mas nodos para que tome menortiempo.

o Java nativo de Hadoop permite maximizar elexcelente uso de recursos, para obtener elresultado más óptimo, pero sacrifica:– Facilidad en escritura de código– Tiempo empleado en la implementación de la

solución

Jueves, 06 de Mayo de 2010

Page 22: Evaluación de MapReduce, Pig y Hive, sobre la plataforma ...€¦ · Evaluación de MapReduce, Pig y Hive, sobre la plataforma Hadoop Servicios y herramientas usadas oHadoop 0.18,

Evaluación de MapReduce, Pig y Hive, sobre la plataforma Hadoop

Conclusiones

o Es importante hacer notar que la consulta 3, es mucho más lento en Hive y Pig que las otras consultas, pero no así en Java nativo, ya que en este caso la consulta 1 es ligeramente más lenta que las otras.

Jueves, 06 de Mayo de 2010

Page 23: Evaluación de MapReduce, Pig y Hive, sobre la plataforma ...€¦ · Evaluación de MapReduce, Pig y Hive, sobre la plataforma Hadoop Servicios y herramientas usadas oHadoop 0.18,

Evaluación de MapReduce, Pig y Hive, sobre la plataforma Hadoop

Recomendaciones

o A menos que sea de vital importancia el tiempo, es mejor elegir a Pig por– Facilidad de código

– No demora mucho

o Tareas sobre logs del orden de Gigabytes, usarsolamente diez nodos dependiendo de latarea ya que sería un desperdicio de recursos.

Jueves, 06 de Mayo de 2010

Page 24: Evaluación de MapReduce, Pig y Hive, sobre la plataforma ...€¦ · Evaluación de MapReduce, Pig y Hive, sobre la plataforma Hadoop Servicios y herramientas usadas oHadoop 0.18,

Evaluación de MapReduce, Pig y Hive, sobre la plataforma Hadoop

Franklin Parrales Bravo

Marco Calle Jaramillo

Jueves, 06 de Mayo de 2010

Informe de materia de graduación

Page 25: Evaluación de MapReduce, Pig y Hive, sobre la plataforma ...€¦ · Evaluación de MapReduce, Pig y Hive, sobre la plataforma Hadoop Servicios y herramientas usadas oHadoop 0.18,

Evaluación de MapReduce, Pig y Hive, sobre la plataforma Hadoop

Franklin Parrales Bravo

Marco Calle Jaramillo

Jueves, 06 de Mayo de 2010

ANEXOS

Page 26: Evaluación de MapReduce, Pig y Hive, sobre la plataforma ...€¦ · Evaluación de MapReduce, Pig y Hive, sobre la plataforma Hadoop Servicios y herramientas usadas oHadoop 0.18,

Evaluación de MapReduce, Pig y Hive, sobre la plataforma Hadoop

Información de la IP que más ha visitado el servidor

Jueves, 06 de Mayo de 2010

Dirección ip Número de veces

190.131.22.103 123

Page 27: Evaluación de MapReduce, Pig y Hive, sobre la plataforma ...€¦ · Evaluación de MapReduce, Pig y Hive, sobre la plataforma Hadoop Servicios y herramientas usadas oHadoop 0.18,

Evaluación de MapReduce, Pig y Hive, sobre la plataforma Hadoop

Información de la hora a la que se hanproducido la mayor cantidad deerrores en el servidor

Jueves, 06 de Mayo de 2010

Hora Número de veces

08 523

Page 28: Evaluación de MapReduce, Pig y Hive, sobre la plataforma ...€¦ · Evaluación de MapReduce, Pig y Hive, sobre la plataforma Hadoop Servicios y herramientas usadas oHadoop 0.18,

Evaluación de MapReduce, Pig y Hive, sobre la plataforma Hadoop

Información de la página o recurso que más veces ha producido error y a qué hora lo ha generado más veces

Jueves, 06 de Mayo de 2010

Página Número de veces/templates/fiec_inicio_template/css/template_css.css 2776

Hora Número de veces

08 523

Volvemos a consultar los Logs de actividades de Apache Web Server por el recurso

Page 29: Evaluación de MapReduce, Pig y Hive, sobre la plataforma ...€¦ · Evaluación de MapReduce, Pig y Hive, sobre la plataforma Hadoop Servicios y herramientas usadas oHadoop 0.18,

Evaluación de MapReduce, Pig y Hive, sobre la plataforma Hadoop

Consultas sobre Java nativo en Hadoop

Jueves, 06 de Mayo de 2010

Nodos 2 4 6 10 15 20Consulta 1 93 59 40 31 28 27Consulta 2 72 51 36 27 24 21Consulta 3 71 51 37 28 24 20

0

10

20

30

40

50

60

70

80

90

100

0 5 10 15 20 25

Tiem

po(S

egun

dos)

Cantidad de nodos

Consultas sobre Java nativo de Hadoop

Consulta 1

Consulta 2

Consulta 3

Page 30: Evaluación de MapReduce, Pig y Hive, sobre la plataforma ...€¦ · Evaluación de MapReduce, Pig y Hive, sobre la plataforma Hadoop Servicios y herramientas usadas oHadoop 0.18,

Evaluación de MapReduce, Pig y Hive, sobre la plataforma Hadoop

Consultas sobre Pig

Jueves, 06 de Mayo de 2010

Nodos 2 4 6 10 15 20Consulta 1 172 126 93 76 75 74Consulta 2 133 74 63 53 52 69Consulta 3 279 201 171 154 154 142

0

50

100

150

200

250

300

0 5 10 15 20 25

Tiem

po(S

egun

dos)

Cantidad de nodos

Consultas sobre Pig

Consulta 1

Consulta 2

Consulta 3

Page 31: Evaluación de MapReduce, Pig y Hive, sobre la plataforma ...€¦ · Evaluación de MapReduce, Pig y Hive, sobre la plataforma Hadoop Servicios y herramientas usadas oHadoop 0.18,

Evaluación de MapReduce, Pig y Hive, sobre la plataforma Hadoop

Consultas sobre Hive

Jueves, 06 de Mayo de 2010

Nodos 2 4 6 10 15 20Consulta 1 4414.7513 2852.0139 1588.4087 1548.1025 1499.1968 1470.5606Consulta 2 4352.8812 2834.0337 1561.4006 1415.2823 1384.61 1359.4257Consulta 3 8898.2346 5776.0148 3117.9123 3087.789 2889.1818 2880.6259

0

1000

2000

3000

4000

5000

6000

7000

8000

9000

10000

0 5 10 15 20 25

Tiem

po(S

egun

dos)

Cantidad de nodos

Consultas sobre Hive

Consulta 1

Consulta 2

Consulta 3