Upload
sebastian-ramirez-montano
View
142
Download
2
Embed Size (px)
DESCRIPTION
Presentación de una de las conferencias sobre Big Data dadas en SENASoft - Colombia, el evento sobre TIC más importante de Colombia organizado por el SENA sobre tecnologías de la información y la comunicación. Por: Sebastián Ramírez Twitter: @tiangolo
Citation preview
Familiarización básica a métodos y herramientas
para soluciones de Big Data
@tiangolo
¿Quién les habla?
Sebastián RamírezSENSETA
Inteligencia Artificial sobre Big Data
@tiangolo
¿Por qué “Big Data”?
@tiangolo
Crecimiento exponencial de datos
90% en últimos 2 años
@tiangolo
¿Qué es Big Data?
@tiangolo
3 V de Big Data• Volumen • Velocidad • Variedad
@tiangolo
VolumenTamaño en disco, Bytes
@tiangolo
VelocidadNuevos datos rápidamente
@tiangolo
VariedadMúltiples formatos
@tiangolo
¿Cómo se usa?
@tiangolo
Hadoop
2005Open SourceMap Reduce
HDFS
@tiangolo
Cluster Hadoop
@tiangolo
Hadoop HDFSHadoop Distributed File System
@tiangolo
Hadoop Jobs
@tiangolo
Nodos Hadoop
@tiangolo
Hadoop Map Reduce
@tiangolo
Map function
Reducefunction
Input Splits
Fase “Map” Fase “Reduce”
Map Reduce
@tiangolo
“Ecosistema” Hadoop
@tiangolo
Herramientas adicionales para Big Data
@tiangolo
Distribuciones Hadoop
@tiangolo
Distribuciones de Hadoop(“Ecosistema” Hadoop)
@tiangolo
Hive - SQL
@tiangolo
• 300 Analistas•Acceso tipo SQL•Base de Datos corporativa no resistía
@tiangolo
Hive
•Tipo SQL•Schema on-read (al leer)•Estándar para Bases de Datos en Hadoop
@tiangolo
Hcatalog - SQL
@tiangolo
HCatalog
•Estructura de tablas para múltiples herramientas•Abstracción de ubicaciones•Sopota RCFile, CSV, JSON, y SequenceFile
@tiangolo
Pig - Script
@tiangolo
Pig
•Combinación: Script y SQL•Secuencias de flujos de datos•ETL, transformación•Extensible
@tiangolo
HBase - NoSQL
@tiangolo
HBase
•NoSQL•Columnar•Tiempo Real•Billones de registros•Millones de columnas•No JOINs
@tiangolo
Sqoop - Importar
@tiangolo
Sqoop
•Importar - Exportar•Hive, Hbase…•MySQL, Postgre, Oracle•Extensible
@tiangolo
Solr - Búsquedas
@tiangolo
Solr
•Búscquedas en “Tiempo Real”•Indexa JSON, XML, CSV•Búsquedas avanzadas
@tiangolo
Spark – En memoria
@tiangolo
Spark
•En memoria•Machine Learning y Data Science•Procesos iterativos (repetitivos)
@tiangolo
Ambari – Administración
@tiangolo
Ambari
•Open Source•Monitoreo•Administración
@tiangolo
Otras herramientas…
•MongoDB
•Cassandra
•Impala
•ElasticSearch
•Python Disco…
@tiangolo
¡Gracias!
Sebastián Ramírez
Twitter: @tiangolo
Linkedin: http://lnkdin.me/p/tiangolo