2. Luis Cuellar - IRPAAI...2018/10/02  · aplicaciones. Almacenamiento Una vez se obtienen los...

Preview:

Citation preview

BigData 3.0Adiós a la Infraestructura

Proprietary + Confidential2018

¿Quieren ser una empresa digital?

Proprietary + Confidential

Queremos innovar...

Proprietary + Confidential

….Pero de la manera más tradicional posible!

https://octo.vmware.com

Innovación tradicional

Programación

Aprovisionamiento de Recursos

Ajuste en el Desempeño

Monitoreo

ConfiabilidadDespliegue y Configuración

Manejando la Escala

Mejoras en el Uso

Big Data Tradicional

¿Cómo se ve un equipo de BigData Tradicional?

¿Cómo luce el BigData en Google?

Proprietary + Confidential

Big Data con GoogleEnfocado en insights.No en infraestructura.De batch a tiempo real

Programando

Entendiendo

C o n f id e n t ia l + P r o p r ie ta r y

2012 20132002 2004 2006 2008 2010

GFS

MapReduce

Bigtable Colossus

Dremel Flume

Megastore

Spanner

Millwheel

Pub/Sub

F1

2016

Dataflow

TensorFlow

Innovación de Google en BigData

C o n f id e n t ia l + P r o p r ie ta r y

2012 20132002 2004 2006 2008 2010

GCS

Dataproc

Bigtable GCS

BigQuery Dataflow

Datastore

Spanner

Dataflow

Pub/Sub

F1

2016

Dataflow

Cloud ML

Innovación de Google en BigData

NoSQL

Proprietary + Confidential

“Google is living a few years in the future and sending the rest of us

messages”

Doug Cutting, Hadoop Co-Creator

C o n f id e n t ia l + P r o p r ie ta r y

El Ciclo de Vida de los Datos

Captura

El primer paso es traer datos sin procesar. Por ejemplo: datos en tiempo real de sensores, datos de dispositivos on-premise, logs de aplicaciones.

Almacenamiento

Una vez se obtienen los datos, es necesario almacenarlos en un formato que sea duradero y pueda accederse fácilmente.

Procesamiento y Análisis

En esta etapa, los datos se transforman de una forma sin procesar en información procesable,

Exploración y Visualización

La etapa final consiste en convertir los resultados del análisis en un formato que sea fácil de extraer y fácil de compartir.

C o n f id e n t ia l + P r o p r ie ta r y

Capturando y Almacenando la Información

Cloud Pub/SubMensajería confiable, de muchos a muchos y asíncrona

Cloud StorageAlmacenamiento de objetos: poderoso, simple y costo efectivo

logs, archivos, assets, G oogle Analytics etc.

Eventos, m etricas, etc.

C o n f id e n t ia l + P r o p r ie ta r y

Procesamiento y Análisis

Eventos, m etricas, etc.

Cloud DataflowMotor de Procesamiento de Datos en batch y de flujos

Flujo

Batch

logs, archivos, assets, G oogle Analytics etc.

Cloud DataprocSpark and Hadoop Administrado

Batch

Cloud DataprepData cleaning

C o n f id e n t ia l + P r o p r ie ta r y

Almacenamiento y Análisis 2.0

Eventos, m etricas, etc.

F lu jo

Batch

logs, archivos, assets, G oogle Analytics etc.

Batch

BigQueryMotor analitico, extremadamente rapido, bajo de manda y barato

C o n f id e n t ia l + P r o p r ie ta r y

Aprender y Recomendar

Eventos, m etricas, etc.

F lu jo

Batch

logs, archivos, assets, G oogle Analytics etc.

Batch

Cloud Machine LearningEntrena tus propios modelos a gran escala

C o n f id e n t ia l + P r o p r ie ta r y

Machine learning consiste en aprender de los ejemplos y laexperiencia

C o n f id e n t ia l + P r o p r ie ta r y

¿Cómo clasificarían sin ML?

C o n f id e n t ia l + P r o p r ie ta r y

¿Cómo clasificarían sin ML?

C o n f id e n t ia l + P r o p r ie ta r y

¿Entre un perro y un trapero?

C o n f id e n t ia l + P r o p r ie ta r y

No tan rápido

Cores

Timedozens

hundreds

thousands

Deployed Database

Cores

Timedozens

hundreds

thousands

Analytics workload

Cores

Timedozens

hundreds

thousands

Idle resources

Idle resources

Cores

Timedozens

hundreds

thousands

Throttled performance

Cores

Timedozens

hundreds

thousands

Solución - Redimensionamiento

Cores

Timedozens

hundreds

thousands

Serverless

C o n f id e n t ia l + P r o p r ie ta r y

Explorar y Visualizar

Eventos, m etricas, etc.

F lu jo

Batch

logs, archivos, assets, G oogle Analytics etc.

Batch

A pplications and R eports

C loud D atalab

Visualization and B I

C o-w orkers

B CA

C o n f id e n t ia l + P r o p r ie ta r y

Conclusiones

Events, m etrics, etc.

S tream

Batch

Spreadsheets

B I Tools

C ow orkers

A pplications and R eports

C loud D atalab

Visualization and B I

C o-w orkers

Batch

B CA

R aw logs, files, assets, G oogle

Analytics data etc.

MISION DE GOOGLE

7 productos de nube con 1 billón usuarios

Queremos innovar...

Proprietary + Confidential

….pero a la velocidad de Google!

Proprietary + Confidential

Gracias!

Proprietary + Confidential

Backup

Recommended