Realidades y Sueños de Big Data en México

Preview:

Citation preview

Realidades y sueños de

en México

Marzo 2015

abel.coronado @ inegi.org.mx

@abxda

@abxda

¿Qué es Big Data?

@abxda

¿Qué es Big Data?

http://datascience.berkeley.edu/what-is-big-data/ @abxda

¿Qué es Big Data?

http://datascience.berkeley.edu/what-is-big-data/ @abxda

¿Qué es Big Data?

http://datascience.berkeley.edu/what-is-big-data/ @abxda

¿Qué es Big Data?

http://datascience.berkeley.edu/what-is-big-data/ @abxda

¿Qué es Big Data?

http://datascience.berkeley.edu/what-is-big-data/ @abxda

¿Qué es Big Data?

Según Gartner

Big data es información en altos volúmenes, alta velocidad o alta variedad que demanda formas

creativas y viables económicamente para procesarla con el fin de contribuir

a tomar decisiones, actuar y crear valor.

http://www.ft.com/intl/cms/e91a32d0-2bac-11e3-bfe2-00144feab7de.pdf

¿Qué es Big Data?

@abxda

Existen Nuevas Fuentes de Datos que

Complementan las Tradicionales

@abxda

http://upload.wikimedia.org/wikipedia/commons/5/5b/Samurai_award.jpg

Tomar decisiones, actuar y crear valor

http://www.r-bloggers.com/data-science-toolbox-survey-results-surprise-r-and-python-win/

Comprender

Recolectar

Explorar, Visualizar

Limpiar

Transformar/

Caracterizar

Modelar / Entrenar

Validar

Comunicar ?

Imaginar /

Considerar la

Integración

de Otras Fuentes

Analizar Fuente(s) Conceptualizar

Un Proceso de Ciencia de Datos

Experto en

computación y

desarrollo

avanzados

Experto en

estadística

matemática

Experto en

el dominio de

datos

CIENCIA

DE

DATOS

Zona

peligrosa!

Investigación

tradicional

Machine

learning

Ciencia de Datos

@abxda

Experto en

computación y

desarrollo

avanzados

Experto en

estadística

matemática

Experto en

el dominio de

datos

Unicornio

Zona

peligrosa!

Investigación

tradicional

Machine

learning

Ciencia de Datos

@abxda

CIENCIA

DE

DATOS

Científico de Datos

Ingeniero de Datos

@abxda

Productos

de Datos

Manejar

las 3 v’s

vs

Visualización

Modelado

Contar

Historias

Científico de Datos

Administración

de Sistemas

Programación

Matemáticas

Estadística

Ingeniero de Datos

Administración de

Bases de Datos

Almacenamiento de

Datos

Equipo de Big Data y Ciencia de Datos

Estadística

Matemáticas

Machine Learning

Minería de Texto

Interfaces de Usuario

Experiencia del Usuario

First Mobile

Visualización de Datos

Ingeniería de Software

Administradores de Sistemas

Bases de datos NoSQL

Arquitecturas Big Data

Arquitecturas de Software

Crowdsourcing

@abxda

Internet de las cosas

Internet de las personas

Internet de las ideas

Internet del todo

Datos

Crudoshdfs://

Información

(Significado)

Tomar

Decisiones

Actuar

¿quién?¿cuántos?

¿por qué?

¿qué?¿Dónde?

Análisis de Datos

Estadística Machine Learning

Estratificaciones

Análisis de Regresión

Muestreo

Mucho más…

Análisis de Redes (Grafos)

Minería de Datos

Volumen

Ciencia de Datos

(Transforma/Modela)Cómputo Concurrente y Paralelo

Arquitectura para

Ciencia de Datos y Big Data

@abxda@hbcolectivo

Internet de las Personas

Internet de las Cosas

Sensores

{ json }

< xml >

c,s,v

Redes Sociales

Internet de las Ideas

Crowdsourcing

Sistemas de Archivos Distribuidos

Computo Paralelo y Concurrente

Programación Funcional

Razonamiento Algebraico

Estadística

Análisis MultivariadoMachine Learning

Análisis de Interacción Espacial

{ json }

< xml >

c,s,v

{ json }

< xml >

c,s,v

Bases de Datos NoSQL

Visualización

Panorama Tecnológico

Infraestructura de Cómputo

Big Data en las Oficinas Nacionales de

Estadística

http://www1.unece.org/stat/platform/download/attachments/58492100/Big+Data+HLG+Final.docx?version=1&modificationDate=1362939424184

@abxda

• It is clear that during the next two years there

is a need to identify a few pilot projects that

will serve as proof of concept.

• Statistical organisations are, therefore,

encouraged to address formally Big data

issues in their annual and multi-annual work

programmes by undertaking research and pilot

projects in selected areas and by allocating

appropriate resources for that purpose.@abxda

Big Data en las Oficinas Nacionales de

Estadística

• 'new' exploration and analysis methods are

required: Visualization methods, Text mining, and

High Performance Computing.

• To use Big data, statisticians are needed with a

different mind-set and new skills. The

processing of more and more data for official

statistics requires statistically aware people with

an analytical mind-set, an affinity for IT (e.g.

programming skills) @abxda

Big Data en las Oficinas Nacionales de

Estadística

ESTRATIFICADOR INEGIQué es un producto de datos

Ciencia de Datos

www.inegi.org.mx/est/contenidos/Proyectos/estratificador/ @abxda

Tecnologías Involucradas (2013)

@abxda

D3.js Librería JavaScript para creación de los

gráficos vectoriales interactivos.

Librería JavaScript facilita la incorporación del patrón

MVC en aplicaciones web de una sola página

Diseño de estructura de la página y habilitación

responsiva via Twitter Bootstrap.

JSON formato de intercambio de datos.

Motor de análisis estadístico,

habilitador de la inteligencia

estadística.

Ciencia de Datos

@abxda

Ciencia de Datos

@abxda

Ciencia de Datos

%Acceso a Internet, %Pc, %Telefono Celular, %Automovil @abxda

Estratificación de 1.2 M de Manzanas

En la misma Pc de 4 Procesadores:(2013)

Software Tiempo

Manzanas

Big Data 8 Seg. 1’221,180

Tradicional 8 Seg. 2,666

https://spark.apache.org/

@hbcolectivo

TWITTER COMO FUENTE DE BIG DATA

¿Cuántos caracteres?

@abxda

140 ???

@abxda

Todo listo para la presentación de #BigData en el @FSLmx .

1482

Json: Formato de Intercambio

Nuestra huella en las Redes Sociales

@abxda

Todos los tuits están disponibles para su

recolección en tiempo real.

@abxda

Incluso permite consultas geográficas

@abxda

¿Dónde recolectar?

@abxda

http://www.elasticsearch.org/

@abxda

¿Por qué ElasticSearch?

@abxda

SwitchPuertos (a) 10.200.2.xPuertos (b)10.1.1.X

Hydra 2 – [10.1.1.X | 10.200.X.X]

Hydra1 – Master 10.1.1.X

Acceso a Internet [Recolecta información Redes Sociales]

< ESCALABILIDAD HORIZONTAL >

¿Por qué ElasticSearch?

@abxda

Hydra

@abxda< ESCALABILIDAD HORIZONTAL >

– El 22 de enero cumplimos 1 año de estar recolectando las 24 horas 7 días de la semana.

– Mas de 121 millones de tuits recolectados

Recolección de tuits en Archivos

Distribuidos con Bases de Datos NoSQL.

Visualización de la Base de Datos

121 Millones de Tuits

Frecuencia de Tuiteo

# Tuits

Frecuencia por hora del día

882,007 Tuiteros generaron 43’079,312 de Tuits

Frecuencia de Tuiteo

Movilidad de los Tuiteros

4’469,550 de desplazamientos de 347,157 Tuiteros

Movilidad hacia Pueblos Mágicos

Contenido de los Tuits

@abxda

Red Nacional de Caminos y Twitter

Red Nacional de Caminos y Twitter

Horarios de Tuiteo cerca de algún sector

@abxda

PIO ANÁLISIS Y LA MEDICIÓN DEL BIENESTAR A TRAVÉS DE TWITTERMACHINE LEARNING

Qué es un producto de datos

Indicador de sentimiento

Proceso de Machine Learning

Objetivo:

Proceso de Machine Learning

Muestra de TuitsEtiquetado Manual

Representación numérica

http://scikit-learn.org/http://www.r-project.org/

Machine Learning

Tuits en Tiempo Real

Modelo ClasificadorIndicador

de sentimiento

@abxda

http://cienciadedatos.inegi.org.mx/pioanalisis

@hbcolectivo @ricardoaolvera

@abxda

@abxda

D3.js Librería JavaScript para creación de los

gráficos vectoriales interactivos.

Librería JavaScript facilita la incorporación del patrón

MVC en aplicaciones web de una sola página

Diseño de estructura de la página y habilitación

responsiva via Twitter Bootstrap.

JSON formato de intercambio de datos.

Web Api 2 / Interface REST

Tecnologías Involucradas

Resultados

@hbcolectivo

@ricardoaolvera

@abxda

Seguimos trabajando…

• Seguimos trabajando en la definición de la estrategia y entrenamiento de los algoritmos de Machine Learning…

IMPLEMENTACIÓN DE BIG DATA

Hadoop / Apache Spark

@abxda

ó

Procesamiento70 Cores > 3 Ghz

>250 Gb Ram

5 TB

+Recolección20 Cores > 3 Ghz

100 Gb Ram

1 TB

• Tecnología de procesamiento en paralelo para Ciencia de Datos

Apache Spark

@abxda

@abxda

Reflexión

@abxda

http://www.scidev.net/global/data/feature/big-data-for-development-facts-and-figures.html

Reflexión

@abxda

Preguntas

@abxda

abel.coronado@inegi.org.mx

Recommended