Upload
spanishpassvc
View
299
Download
2
Embed Size (px)
Citation preview
Conociendo los servicios adicionales en BigData26 de Agosto 2015 (12 pm GMT -
5)Freddy Angarita
Resumen:
Todos han empezado a usar y a conocer Hadoop y HDInsight, en parte los lenguajes usados para su consumo, pero poco se hablado de los servicios complementarios que pueden enriquecer la experiencia BigData, conozca estos servicios y su aplicación.
Está por comenzar:
Moderador: Kenneth Ureña
Próximos Eventos
09 de SetiembreWarner Chaves
SQL Server Rápido y Furioso02 de SetiembreAlejandro Cordero
SQL Monitoring
16 de SetiembreJavier Villegas
SQL como un servicio en la nube
Distributed Storage (HDFS)
Query(Hive)
Distributed Processing
(MapReduce)
Scripting(Pig)
NoSQL Database(HBase)
Metadata(HCatalog)
Data Integration(ODBC / SQOOP/ REST)
Relational
(SQL Server)
Machine Learning(Mahout)
Graph(Pegasus)
Stats processin
g(RHadoo
p)
Event Pipeline(Event Hub/
Flume)
Active Directory (Security)
Monitoring & Deployment
(System Center)
C#, F#, .NET
JavaScript
Pipeline / workflow(Oozie)
Azure Storage Vault (ASV)
PDW Polybase
Business Intelligence (Excel, Power View, SSAS)World's Data
(Azure Data Marketplace)
Event Driven
Processing
LegendRed = Core HadoopBlue = Data processingGray= Microsoft integration points and value addsOrange = Data MovementGreen = Packages
HDInsight and Hadoop ecosystem
YARN
Real Time
Processing (Storm
)
3
Similar a Base de Datos
• HBASE• Base de datos no relacional• Escrita en Java• Usa HDFS como Sistema de archivos• Escenario más usado: Encontrar pequeños bloques datos en grandes volúmenes de
datos• Ejemplo: Los 20 elementos más costosos entre 5 mil millones de objetos• Facebook lo usa para su plataforma de mensajería
• HCatalog• Capa de administración de almacenamiento para Hadoop• Su idea es tener buscar una representación de datos relacionales en Hadoop
4
Lenguajes
• Pig• Plataforma para la creación de Jobs Map-Reduce• Piglatin similar a TSql• Puede ser extendido usando varios lenguajes, incluyendo Javascript• Creado por Yahoo luego pasa a la fundación Apache en 2006.
• Hive• Ayuda a proveer capacidades BI sobre Hadoop• Lenguaje HiveQL similar a TSql
• Scala• Nuevo lenguaje para ejecutar instrucciones in-memory• Usa Spark
5
Conexión
• Polybase• Permite a los usuarios de SqlServer PDW ejecutar consultas contra datos almacenados en Hadop• Es possible hacer un JOIN con datos almacenados en HADOOP
• Hive ODBC• Es un driver ODBC para conectar HADOOP con productos Microsoft
• Excel• PowerPivot• SharePoint
• Sqoop• Enviar y recibir grandes volúmenes de información desde y hacia bases de datos relacionales
• REST – WebHDFS• Cualquier producto puede conectarse con HADOOP usando el API Rest (Móviles, Web..)
6
Minería de Datos
• Mahout• Contiene una seria de algoritmos de minería de datos para análisis predictivo y
descriptivo sobre información almacenada en Hadoop
• Rhadoop• Implementación especial de R
• R• Es possible instalar R en las máquinas virtuales de HADOOP, como resultado, podemos
interactuar con HADOOP para hacer análisis estadístico avanzado usando R
7
WorkFlow
• Oozie• Permite la definición y ejecución de Workflows• Usa MapReduce y Jobs PIG
• Flume• Colección, agregación y movimiento de grandes volúmenes de datos• Especializado en el procesamiento de LOGs
8
DEMO
Manténgase conectado a nosotros!
Visítenos en http://globalspanish.sqlpass.org
/SpanishPASSVC
lnkd.in/dtYBzev
/user/SpanishPASSVC
/SpanishPASSVC
10
11
Oportunidades de Voluntariado
PASS no pudiera existir sin personas apasionadas y dedicadas de todas partes del
mundo que dan de su tiempo como voluntarios.
Se un voluntario ahora!!
Para identificar oportunidades locales visita volunteer.sqlpass.org
Recuerda actualizar tu perfil en las secciones de “MyVolunteering” y MyPASS para mas
detalles.
Sigan Participando!• Obtén tu membresía gratuita en sqlpass.org
• Linked In: http://www.sqlpass.org/linkedin• Facebook: http://www.sqlpass.org/facebook• Twitter: @SQLPASS• PASS: http://www.sqlpass.org
Conociendo los servicios adicionales en BigData26 de Agosto de 2015
Freddy AngaritaTítulos y reconocimientos.
Moderador: Kenneth Ureña
SQL Server Rápido y Furioso02 de Setiembre (12 pm
GMT -5)Alejandro Cordero
Resúmen:En esta sesión analizaremos experiencias de la vida real como consultor en trabajos de mejora de rendimiento. Veremos mejores prácticas para la configuración de SQL Server, tips para un mejor T-SQL y un ejercicio de como monitorear mi servidor de base de datos con Performance Counters, un SQL Server Express y un Excel con Power Pivot.
Próximo Evento