20
Universidad Autónoma de Aguascalientes Luis Eduardo Bautista Villalpando

Universidad Autónoma de Aguascalientes Luis Eduardo ... · Investigación en Cloud Computing • Uso de Hadoop en la ... ( ... Proyecto para crear una “Nube de Nubes” ideal pero

  • Upload
    ngobao

  • View
    214

  • Download
    0

Embed Size (px)

Citation preview

Universidad Autónoma de

Aguascalientes

Luis Eduardo Bautista Villalpando

• Qué es Cloud Computing?

• Quién utiliza Cloud Computing?

• Plataformas utilizadas en Cloud Computing

• Investigación en Cloud Computing

• Uso de Hadoop en la Investigación

• Cloud Computing en la UAA (Hadoop)

• Demostración básica de uso de Hadoop

Cloud Computing es una tecnología de reciente creación, cuyo objetivo principal es el de procesar y almacenar grandes volúmenes de información a través de esquemas distribuidos.

Esta tecnología esta basada en el uso de Internet donde un conjunto de varias computadoras trabajan en conjunto para lograr el objetivo anterior (Grid).

En general al usar Cloud Computing, se puede utilizar infraestructura propietaria o se puede rentar a un proveedor (Infraestructure as a Service -IaaS)

Crawling, indexing, searching, mineria en la red Web

“Post-genomics” investigación ciencias de la vida

Datos científicos( física, astronomía etc.)

Redes de sensores

Aplicaciones Web 2.0

Wayback Machine tuvo 2 PB + 20 TB/month (2006)

Google proceso 20 PB a day (2008)

NOAA tuvo ~1 PB datos climáticos (2007)

CERN’s LHC generó aprox. 15 PB en el año (2008)

640K ought to be

enough for anybody.

Maximilien Brice, © CERN

Maximilien Brice, © CERN

Quién provee de tecnología Cloud?

Google App Engine (http://code.google.com/intl/es-419/appengine/)

Yahoo Labs (http://labs.yahoo.com/Cloud_Computing)

Amazon Web Services (http://aws.amazon.com/ec2/) Cloudera (http://www.cloudera.com ) Sun Cloud

(http://www.sun.com/solutions/cloudcomputing/) Windows Azure

(http://www.microsoft.com/windowsazure/) GoGrid (http://www.gogrid.com/) Blue Cloud (http://www.ibm.com/ibm/cloud/) 3tera-CA (http://www.3tera.com/) Etc.

Maximilien Brice, © CERN

Name: Google/IBM Cloud Computing University InitiativeMajor Contributors: University of Washington; Carnegie Mellon; MIT; Stanford University; University of California, Berkeley; University of MarylandPurpose: Gives academic researchers and students access to thesponsors' huge computing resources so they may experimentwith the design and management of cloud applications and services.

Name: Reservoir www.reservoir-fp7.euMajor Contributors: IBM, SAP, Sun Microsystems, Telefonica, University of Messina, University College of London, Umea University, Universidad Complutense de Madrid, University of Lugano, Thales Group, Elsag Datamat, CETICPurpose: An EU-funded project that promotes research intocreating a service-based online economy based on distributedcomputing in an open cloud.

Name: Eucalyptus, www.eucalyptus.comMajor Contributors: Building on an NSF-funded project at the University of California, Santa Barbara, Eucalyptus Systems launched in April with funding from Benchmark Capital and BV CapitalPurpose: Is commercializing an open-source platform for building private clouds using existing hardware and software, which can then be merged with a public cloud like Amazon Web Services. This hybrid approach allows companies to move data and applications in and out of the public cloud as the need arises

Name: Open Cirrus, www.opencirrus.orgMajor Contributors: HP, Intel, Yahoo, University of Illinois at Urbana-Champaign, Karlsruhe Institute of Technology (Germany), Infocomm Development Authority (Singapore)Purpose: A test bed for researchers studying how to design and manage data centers for the cloud.

Name: Apache Hadoop, hadoop.apache.orgMajor Contributors: Apache Software Foundation, Yahoo, Google, Microsoft, ClouderaPurpose: Has developed an open-source version of Google's MapReduce and File System infrastructure for processing large amounts of data in parallel, a necessity in cloud computing

Que es Hadoop?◦ Hadoop es un proyecto de Apache que desarrolla

software de código abierto para computo distribuido.

Hadoop esta constituido de los siguientes subproyectos:◦ Hadoop Distributed File System – Un sistema de archivos

distribuido para el almacenamiento de grandes volumenes de información (Basado en GFS).

◦ Hbase – Una base de datos distribuida escalable que soporta grandes volumenes de datos en tablas.

◦ Hive – Una infraestructura para “data warehousing”.◦ MapReduce – Un framework de desarrollo para para

procesar extensos volumenes de datos en cluster de computadoras.

NameNode

DataNode DataNode DataNode DataNode DataNode

Rack One Rack Two Data Blocks

Replication

Block Ops

Block = 64 Mb

Cluster de laboratorio de Redes y Sistemas Distribuidos UAA

En cuanto a infraestructura, este

grupo de trabajo consta de:

•Un laboratorio de 12 computadoras

quad core para la prueba de clúster.

•2 servidores SUN Sunfire los cuales

sirven como controladores de nodos

principales en clúster de pruebas.

•1 servidor HP Proliant que sirve como

Servidor de Aplicaciones Internas.

•Enlace a I2 a 2 Mbps así como una

red interna a 1 Gbps.

Se tiene implantado HDFS para pruebas de aplicaciones MapReduce.

Se realizan pruebas para investigación de pruebas de Alta Disponibilidad de Hadoop.

Como material didáctico a nivel pregrado y posgrado dentro de las materias de Computo Distribuido y Paralelo.

Proyectos de Investigación para el análisis de datos dentro del área Biológica.

Una nueva tecnología con muchas posibilidades en el ámbito académico y de investigación.

Llevar el cómputo de procesamiento al usuario.

Muchos participantes e iniciativas para estandarizar el uso de Cloud Computing.

Proyecto para crear una “Nube de Nubes” ideal pero no en el corto plazo.

Integración con otras tecnologías tal como Web Services, GRID Services, etc. Para obtener muchos mas beneficios.

Gracias.