69
Realidades y sueños de en México Marzo 2015

Realidades y Sueños de Big Data en México

Embed Size (px)

Citation preview

Page 1: Realidades y Sueños de Big Data en México

Realidades y sueños de

en México

Marzo 2015

Page 2: Realidades y Sueños de Big Data en México

abel.coronado @ inegi.org.mx

Page 3: Realidades y Sueños de Big Data en México
Page 4: Realidades y Sueños de Big Data en México

@abxda

Page 5: Realidades y Sueños de Big Data en México

@abxda

¿Qué es Big Data?

Page 6: Realidades y Sueños de Big Data en México

@abxda

¿Qué es Big Data?

Page 7: Realidades y Sueños de Big Data en México

http://datascience.berkeley.edu/what-is-big-data/ @abxda

¿Qué es Big Data?

Page 8: Realidades y Sueños de Big Data en México

http://datascience.berkeley.edu/what-is-big-data/ @abxda

¿Qué es Big Data?

Page 9: Realidades y Sueños de Big Data en México

http://datascience.berkeley.edu/what-is-big-data/ @abxda

¿Qué es Big Data?

Page 10: Realidades y Sueños de Big Data en México

http://datascience.berkeley.edu/what-is-big-data/ @abxda

¿Qué es Big Data?

Page 11: Realidades y Sueños de Big Data en México

http://datascience.berkeley.edu/what-is-big-data/ @abxda

¿Qué es Big Data?

Page 12: Realidades y Sueños de Big Data en México

Según Gartner

Big data es información en altos volúmenes, alta velocidad o alta variedad que demanda formas

creativas y viables económicamente para procesarla con el fin de contribuir

a tomar decisiones, actuar y crear valor.

http://www.ft.com/intl/cms/e91a32d0-2bac-11e3-bfe2-00144feab7de.pdf

¿Qué es Big Data?

@abxda

Page 13: Realidades y Sueños de Big Data en México

Existen Nuevas Fuentes de Datos que

Complementan las Tradicionales

@abxda

Page 14: Realidades y Sueños de Big Data en México

http://upload.wikimedia.org/wikipedia/commons/5/5b/Samurai_award.jpg

Tomar decisiones, actuar y crear valor

Page 15: Realidades y Sueños de Big Data en México

http://www.r-bloggers.com/data-science-toolbox-survey-results-surprise-r-and-python-win/

Comprender

Recolectar

Explorar, Visualizar

Limpiar

Transformar/

Caracterizar

Modelar / Entrenar

Validar

Comunicar ?

Imaginar /

Considerar la

Integración

de Otras Fuentes

Analizar Fuente(s) Conceptualizar

Un Proceso de Ciencia de Datos

Page 16: Realidades y Sueños de Big Data en México

Experto en

computación y

desarrollo

avanzados

Experto en

estadística

matemática

Experto en

el dominio de

datos

CIENCIA

DE

DATOS

Zona

peligrosa!

Investigación

tradicional

Machine

learning

Ciencia de Datos

@abxda

Page 17: Realidades y Sueños de Big Data en México

Experto en

computación y

desarrollo

avanzados

Experto en

estadística

matemática

Experto en

el dominio de

datos

Unicornio

Zona

peligrosa!

Investigación

tradicional

Machine

learning

Ciencia de Datos

@abxda

CIENCIA

DE

DATOS

Page 18: Realidades y Sueños de Big Data en México

Científico de Datos

Ingeniero de Datos

@abxda

Productos

de Datos

Manejar

las 3 v’s

vs

Visualización

Modelado

Contar

Historias

Científico de Datos

Administración

de Sistemas

Programación

Matemáticas

Estadística

Ingeniero de Datos

Administración de

Bases de Datos

Almacenamiento de

Datos

Page 19: Realidades y Sueños de Big Data en México

Equipo de Big Data y Ciencia de Datos

Estadística

Matemáticas

Machine Learning

Minería de Texto

Interfaces de Usuario

Experiencia del Usuario

First Mobile

Visualización de Datos

Ingeniería de Software

Administradores de Sistemas

Bases de datos NoSQL

Arquitecturas Big Data

Arquitecturas de Software

Crowdsourcing

@abxda

Page 20: Realidades y Sueños de Big Data en México

Internet de las cosas

Internet de las personas

Internet de las ideas

Internet del todo

Datos

Crudoshdfs://

Información

(Significado)

Tomar

Decisiones

Actuar

¿quién?¿cuántos?

¿por qué?

¿qué?¿Dónde?

Análisis de Datos

Estadística Machine Learning

Estratificaciones

Análisis de Regresión

Muestreo

Mucho más…

Análisis de Redes (Grafos)

Minería de Datos

Volumen

Ciencia de Datos

(Transforma/Modela)Cómputo Concurrente y Paralelo

Arquitectura para

Ciencia de Datos y Big Data

@abxda@hbcolectivo

Page 21: Realidades y Sueños de Big Data en México

Internet de las Personas

Internet de las Cosas

Sensores

{ json }

< xml >

c,s,v

Redes Sociales

Internet de las Ideas

Crowdsourcing

Sistemas de Archivos Distribuidos

Computo Paralelo y Concurrente

Programación Funcional

Razonamiento Algebraico

Estadística

Análisis MultivariadoMachine Learning

Análisis de Interacción Espacial

{ json }

< xml >

c,s,v

{ json }

< xml >

c,s,v

Bases de Datos NoSQL

Visualización

Panorama Tecnológico

Infraestructura de Cómputo

Page 22: Realidades y Sueños de Big Data en México

Big Data en las Oficinas Nacionales de

Estadística

http://www1.unece.org/stat/platform/download/attachments/58492100/Big+Data+HLG+Final.docx?version=1&modificationDate=1362939424184

@abxda

Page 23: Realidades y Sueños de Big Data en México

• It is clear that during the next two years there

is a need to identify a few pilot projects that

will serve as proof of concept.

• Statistical organisations are, therefore,

encouraged to address formally Big data

issues in their annual and multi-annual work

programmes by undertaking research and pilot

projects in selected areas and by allocating

appropriate resources for that purpose.@abxda

Big Data en las Oficinas Nacionales de

Estadística

Page 24: Realidades y Sueños de Big Data en México

• 'new' exploration and analysis methods are

required: Visualization methods, Text mining, and

High Performance Computing.

• To use Big data, statisticians are needed with a

different mind-set and new skills. The

processing of more and more data for official

statistics requires statistically aware people with

an analytical mind-set, an affinity for IT (e.g.

programming skills) @abxda

Big Data en las Oficinas Nacionales de

Estadística

Page 25: Realidades y Sueños de Big Data en México

ESTRATIFICADOR INEGIQué es un producto de datos

Page 26: Realidades y Sueños de Big Data en México

Ciencia de Datos

www.inegi.org.mx/est/contenidos/Proyectos/estratificador/ @abxda

Page 27: Realidades y Sueños de Big Data en México

Tecnologías Involucradas (2013)

@abxda

D3.js Librería JavaScript para creación de los

gráficos vectoriales interactivos.

Librería JavaScript facilita la incorporación del patrón

MVC en aplicaciones web de una sola página

Diseño de estructura de la página y habilitación

responsiva via Twitter Bootstrap.

JSON formato de intercambio de datos.

Motor de análisis estadístico,

habilitador de la inteligencia

estadística.

Page 28: Realidades y Sueños de Big Data en México

Ciencia de Datos

Page 29: Realidades y Sueños de Big Data en México

@abxda

Ciencia de Datos

Page 30: Realidades y Sueños de Big Data en México

@abxda

Ciencia de Datos

Page 31: Realidades y Sueños de Big Data en México

%Acceso a Internet, %Pc, %Telefono Celular, %Automovil @abxda

Estratificación de 1.2 M de Manzanas

En la misma Pc de 4 Procesadores:(2013)

Software Tiempo

Manzanas

Big Data 8 Seg. 1’221,180

Tradicional 8 Seg. 2,666

https://spark.apache.org/

Page 32: Realidades y Sueños de Big Data en México

@hbcolectivo

TWITTER COMO FUENTE DE BIG DATA

Page 33: Realidades y Sueños de Big Data en México

¿Cuántos caracteres?

@abxda

Page 34: Realidades y Sueños de Big Data en México

140 ???

@abxda

Page 35: Realidades y Sueños de Big Data en México

Todo listo para la presentación de #BigData en el @FSLmx .

1482

Json: Formato de Intercambio

Page 36: Realidades y Sueños de Big Data en México

Nuestra huella en las Redes Sociales

@abxda

Page 37: Realidades y Sueños de Big Data en México

Todos los tuits están disponibles para su

recolección en tiempo real.

@abxda

Page 38: Realidades y Sueños de Big Data en México

Incluso permite consultas geográficas

@abxda

Page 39: Realidades y Sueños de Big Data en México

¿Dónde recolectar?

@abxda

Page 40: Realidades y Sueños de Big Data en México

http://www.elasticsearch.org/

@abxda

Page 41: Realidades y Sueños de Big Data en México

¿Por qué ElasticSearch?

@abxda

Page 42: Realidades y Sueños de Big Data en México

SwitchPuertos (a) 10.200.2.xPuertos (b)10.1.1.X

Hydra 2 – [10.1.1.X | 10.200.X.X]

Hydra1 – Master 10.1.1.X

Acceso a Internet [Recolecta información Redes Sociales]

< ESCALABILIDAD HORIZONTAL >

¿Por qué ElasticSearch?

@abxda

Page 43: Realidades y Sueños de Big Data en México

Hydra

@abxda< ESCALABILIDAD HORIZONTAL >

Page 44: Realidades y Sueños de Big Data en México
Page 45: Realidades y Sueños de Big Data en México

– El 22 de enero cumplimos 1 año de estar recolectando las 24 horas 7 días de la semana.

– Mas de 121 millones de tuits recolectados

Recolección de tuits en Archivos

Distribuidos con Bases de Datos NoSQL.

Page 46: Realidades y Sueños de Big Data en México

Visualización de la Base de Datos

121 Millones de Tuits

Page 47: Realidades y Sueños de Big Data en México

Frecuencia de Tuiteo

# Tuits

Frecuencia por hora del día

882,007 Tuiteros generaron 43’079,312 de Tuits

Page 48: Realidades y Sueños de Big Data en México

Frecuencia de Tuiteo

Page 49: Realidades y Sueños de Big Data en México

Movilidad de los Tuiteros

4’469,550 de desplazamientos de 347,157 Tuiteros

Page 50: Realidades y Sueños de Big Data en México

Movilidad hacia Pueblos Mágicos

Page 51: Realidades y Sueños de Big Data en México

Contenido de los Tuits

Page 52: Realidades y Sueños de Big Data en México

@abxda

Red Nacional de Caminos y Twitter

Page 53: Realidades y Sueños de Big Data en México

Red Nacional de Caminos y Twitter

Page 54: Realidades y Sueños de Big Data en México

Horarios de Tuiteo cerca de algún sector

@abxda

Page 55: Realidades y Sueños de Big Data en México

PIO ANÁLISIS Y LA MEDICIÓN DEL BIENESTAR A TRAVÉS DE TWITTERMACHINE LEARNING

Qué es un producto de datos

Page 56: Realidades y Sueños de Big Data en México

Indicador de sentimiento

Proceso de Machine Learning

Objetivo:

Page 57: Realidades y Sueños de Big Data en México

Proceso de Machine Learning

Muestra de TuitsEtiquetado Manual

Representación numérica

http://scikit-learn.org/http://www.r-project.org/

Machine Learning

Tuits en Tiempo Real

Modelo ClasificadorIndicador

de sentimiento

@abxda

Page 58: Realidades y Sueños de Big Data en México

http://cienciadedatos.inegi.org.mx/pioanalisis

@hbcolectivo @ricardoaolvera

@abxda

Page 59: Realidades y Sueños de Big Data en México

@abxda

D3.js Librería JavaScript para creación de los

gráficos vectoriales interactivos.

Librería JavaScript facilita la incorporación del patrón

MVC en aplicaciones web de una sola página

Diseño de estructura de la página y habilitación

responsiva via Twitter Bootstrap.

JSON formato de intercambio de datos.

Web Api 2 / Interface REST

Tecnologías Involucradas

Page 60: Realidades y Sueños de Big Data en México

Resultados

@hbcolectivo

@ricardoaolvera

@abxda

Page 61: Realidades y Sueños de Big Data en México

Seguimos trabajando…

• Seguimos trabajando en la definición de la estrategia y entrenamiento de los algoritmos de Machine Learning…

Page 62: Realidades y Sueños de Big Data en México

IMPLEMENTACIÓN DE BIG DATA

Page 63: Realidades y Sueños de Big Data en México

Hadoop / Apache Spark

@abxda

ó

Procesamiento70 Cores > 3 Ghz

>250 Gb Ram

5 TB

+Recolección20 Cores > 3 Ghz

100 Gb Ram

1 TB

Page 64: Realidades y Sueños de Big Data en México

• Tecnología de procesamiento en paralelo para Ciencia de Datos

Apache Spark

@abxda

Page 65: Realidades y Sueños de Big Data en México

@abxda

Page 66: Realidades y Sueños de Big Data en México

Reflexión

@abxda

Page 67: Realidades y Sueños de Big Data en México

http://www.scidev.net/global/data/feature/big-data-for-development-facts-and-figures.html

Reflexión

@abxda

Page 68: Realidades y Sueños de Big Data en México

Preguntas

@abxda