Anatomía de un proyecto de Big Data

Preview:

Citation preview

Anatomía de un proyecto de Big

Data

8 Septiembre 2015

abel.coronado @ inegi.org.mx@abxda

COOPERACIÓN INTERINSTITUCIONAL

• Nacional • Internacional

@abxda

¿QUÉ ES BIG DATA?

Dan Ariely, Duke University

¿Qué es Big Data?

@abxda

¿Qué es Big Data?

http://es.wikipedia.org/wiki/Los_ciegos_y_el_elefante @abxda

http://datascience.berkeley.edu/what-is-big-data/ @abxda

¿Qué es Big Data?

http://datascience.berkeley.edu/what-is-big-data/ @abxda

¿Qué es Big Data?

http://datascience.berkeley.edu/what-is-big-data/ @abxda

¿Qué es Big Data?

http://datascience.berkeley.edu/what-is-big-data/ @abxda

¿Qué es Big Data?

Según Gartner

Big data es información en altos volúmenes, alta velocidad o alta variedad que demanda formas

creativas y viables económicamente para procesarla con el fin de contribuir

a tomar decisiones, actuar y crear valor.

http://www.ft.com/intl/cms/e91a32d0-2bac-11e3-bfe2-00144feab7de.pdf

¿Qué es Big Data?

@abxda

Considerar las Nuevas Fuentes de Datos para Complementar a las Tradicionales

@abxda

@abxda

http://upload.wikimedia.org/wikipedia/commons/5/5b/Samurai_award.jpg

Tomar decisiones, actuar y crear valor

@abxda

Big Data en las Oficinas Nacionales de Estadística

http://www1.unece.org/stat/platform/download/attachments/58492100/Big+Data+HLG+Final.docx?version=1&modificationDate=1362939424184 @abxda

• It is clear that during the next two years there is a need to identify a few pilot projects that will serve as proof of concept.

• Statistical organisations are, therefore, encouraged to address formally Big data issues in their annual and multi-annual work programmes by undertaking research and pilot projects in selected areas and by allocating appropriate resources for that purpose.

@abxda

Big Data en las Oficinas Nacionales de Estadística

• 'new' exploration and analysis methods are required: Visualization methods, Text mining, and High Performance Computing.

• To use Big data, statisticians are needed with a different mind-set and new skills. The processing of more and more data for official statistics requires statistically aware people with an analytical mind-set, an affinity for IT (e.g. programming skills) @abxda

Big Data en las Oficinas Nacionales de Estadística

Fuentes alternas (Big Data)

Registros Administrativos

Encuestas

CensosMayor:Desagregación, Precisión, ComparabilidadCosto, Recursos, Dificultad de Obtención

Mayor:Oportunidad, Autonomía (intrínseca)Conocimientos, Capacidades Técnicas, Dificultad de Análisis

@abxda

Experto encomputación ydesarrollo avanzados

Experto enestadística

matemática

Experto enel dominio de

datos

CIENCIADE

DATOSZonapeligrosa!

Investigacióntradicional

Machinelearning

Ciencia de Datos

@abxdahttp://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram

Experto encomputación ydesarrollo avanzados

Experto enestadística

matemática

Experto enel dominio de

datos

Unicornio

Zonapeligrosa!

Investigacióntradicional

Machinelearning

Ciencia de Datos

@abxda

CIENCIADE

DATOS

http://www.anlytcs.com/2014/01/data-science-venn-diagram-v20.html

Científico de Datos

Ingeniero de Datos

@abxda

Productos de Datos

Manejar las 3 v’s

vsVisualización

Modelado

Contar Historias

Científico de Datos

Administración de Sistemas

Programación

Matemáticas

Estadística

Ingeniero de DatosAdministración de Bases de DatosAlmacenamiento de Datos

http://101.datascience.community/2014/07/08/data-scientist-vs-data-engineer/

Equipo de Big Data y Ciencia de DatosEstadística

Matemáticas

Machine Learning

Minería de Texto

Interfaces de Usuario

Experiencia del Usuario

First Mobile

Visualización de Datos

Ingeniería de Software

Administradores de Sistemas

Bases de datos NoSQL

Arquitecturas Big Data

Arquitecturas de Software

Crowdsourcing

@abxda

Internet de las cosas

Internet de las personas

Internet de las ideas

Internet del todo

Datos Crudoshdfs://

Información(Significado)

TomarDecisiones

Actuar

¿quién?¿cuántos?

¿por qué?

¿qué?¿Dónde?

Análisis de DatosEstadística Machine Learning

Estratificaciones

Análisis de Regresión

Muestreo

Mucho más…Análisis de Redes (Grafos)

Minería de Datos

Velocidad

Varie

dad

VolumenCiencia de Datos

(Transforma/Modela)Cómputo Concurrente y Paralelo

Arquitectura paraCiencia de Datos y Big Data

@abxda@hbcolectivo

Internet de las Personas

Internet de las Cosas

Sensores

{ json }< xml >

c,s,v

Redes Sociales

Internet de las Ideas

Crowdsourcing

Sistemas de Archivos Distribuidos

Computo Paralelo y Concurrente

Programación Funcional

Razonamiento Algebraico

Estadística

Análisis MultivariadoMachine Learning

Análisis de Interacción Espacial

{ json }< xml >

c,s,v

{ json }< xml >

c,s,v

Bases de Datos NoSQL

Visualización

Panorama TecnológicoInfraestructura de Cómputo

ESTRATIFICADOR INEGIQué es un producto de datos

Ciencia de Datos

www.inegi.org.mx/est/contenidos/Proyectos/estratificador/ @abxda

Tecnologías Involucradas (2013)

{ JSON }

@abxda

D3.js Librería JavaScript para creación de losgráficos vectoriales interactivos.

Librería JavaScript facilita la incorporación del patrónMVC en aplicaciones web de una sola página

Diseño de estructura de la página y habilitaciónresponsiva via Twitter Bootstrap.

JSON formato de intercambio de datos.

Motor de análisis estadístico,habilitador de la inteligenciaestadística.

Ciencia de Datos

Ciencia de Datos

@abxda

Ciencia de Datos

@abxda

Ciencia de Datos

%Acceso a Internet, %Pc, %Telefono Celular, %Automovil @abxda

Estratificación de 1.2 M de ManzanasEn la misma Pc de 4 Procesadores:(2013)

Software Tiempo Manzanas

Big Data 8 Seg. 1’221,180

Tradicional 8 Seg. 2,666

https://spark.apache.org/

@hbcolectivo

TWITTER COMO FUENTE DE BIG DATAPara medir el pulso emotivo de México …y mucho más …

2009 2010 2011 2012 2013 2014 2015

(Junio) GIVAS = Global Pulse

(2010) UNECE-CES crea HLG-BAS = HLG on Modernisation of Statistical Production and Services

(Oct. 2010) Día Mundial de la Estadística. “Tendencias actuales de la estadística aplicada”, por John Brocklebank, SAS

(Agosto 2011) ISI Dublin sesión sobre Análisis Estadístico de Redes Sociales.

(Nov. 2012) HLG_BAS “IDENTIFYING KEY PRIORITIES FOR 2013 AND BEYOND” menciona, por fin, Big Data y Open Data.

(Agosto 2013) propuesta BigData – Fondo Conacyt Inegi.

DGAI Inicia con Herramientas Big Data

(Octubre 2013) Encuentro con Seligman en Monterrey en evento de Tec Milenio Instituto de ciencias de la felicidad.

(Diciembre 2013) Visita de Upenn a INEGI

(Febrero 2014) Inicia recolección de Tuits (Hydra)

(Junio 2014) Seminario Internacional Inegi Big Data en INFOTEC

(Julio 2014) SECTUR y mapa resultado y paper.

(Agosto 2014) Inicia Pioanálisis

(Nov. 2014) Concluye clasificación de Twits.

(Diciembre 2014) Involucramiento Infotec-Geo etiquetado de tuits

(Febrero 2015) Viaje a UPenn

(Febrero 2015) Seminario Infotec-CentroGeo-Inegi.

(Abril 2015) Herramienta de Medición de Bienestar en Tiempo Real

(Junio 2015) Entrega del primer conjunto de 60M clasificado por INFOTEC

(Julio 2015) Herramienta de Visualización

@abxda

Equipo de Trabajo

Dr. Oscar S. Siordia osanchez@centrogeo.edu.mx

Dr. Mario Graffmario.graff@infotec.com.mx Dra. Daniela Moctezuma

dmoctezuma@centrogeo.edu.mx

Dr. Elio Villaseñorelio.villaseñor@infotec.com.mx

Dr. Eric Tellezeric.tellez@infotec.com.mx

Dr. Sabino Mirandasabino.miranda@infotec.com.mx

Dr. Gerardo Leyvagerardo.leyva@inegi.org.mx

Dr. Alfredo Bustosalfredo.bustos@inegi.org.mx

Mtro. Abel Coronadoabel.coronado@inegi.org.mx

Ing. Silvia FraustroSilvia.fraustro@inegi.org.mx Y el apoyo de:

Dr. Juan Muñoz LópezJuan.munoz@inegi.org.mx

Ing. Ricardo OlveraRicardo.olvera@inegi.org.mx

Y en la parte de visualización:Lic. Marco IbarraMarco.ibarra@inegi.org.mx

@abxda

OBJETIVO DEL PROYECTO

Generar indicadores experimentales, nuevos o que complementen los generados por métodos tradicionales, utilizando técnicas de Big Data para la extracción, almacenamiento, procesamiento, análisis y visualización de los datos.

@abxda

Impactos esperados del proyectoDesarrollo Estadístico

• Propuesta de indicadores obtenidos a partir de fuentes Big Data

• Establecimiento de correlaciones entre éstos y los producidos por la estadística oficial.

• Producción científica de los académicos participantes

@abxda

Impactos esperados del proyectoDesarrollo Tecnológico

• Adquirir experiencia práctica en nuevas técnicas de recolección, integración, procesamiento, análisis y visualización de datos

• Identificar el proceso, los procedimiento, las habilidades, los roles y el flujo de trabajo que serían necesarios para poder desarrollar las capacidades institucionales

• Identificar los requerimientos de Hardware y Software para desarrollar un ambiente de producción de Big Data

@abxda

¿Cuántos caracteres?

@abxda

140 ???@abxda

Todo listo para la presentación de #BigData en el @FSLmx .

1482

Json: Formato de Intercambio

Nuestra huella en las Redes Sociales

@abxda

Todos los tuits están disponibles para su recolección en tiempo real.

@abxda

Incluso permite consultas geográficas

@abxda

¿Dónde recolectar?

@abxda

http://www.elasticsearch.org/

@abxda

¿Por qué ElasticSearch?

@abxda

Hydra

@abxda< ESCALABILIDAD HORIZONTAL >

Hydra

@abxda

@abxda

– 1 año 7 meses de estar recolectando las 24 horas 7 días de la semana tuits georeferenciados.

– Mas de 150 millones de tuits recolectados

Recolección de tuits en Archivos Distribuidos con Bases de Datos NoSQL.

@abxda

Visualización de la Base de Datos

>150 Millones de Tuits

@abxda

~ 70 Millones de Tuits

@abxda

Frecuencia de Tuiteo

# Tuits

Frecuencia por hora del día

882,007 Tuiteros generaron 43’079,312 de Tuits

@abxda

Movilidad de los Tuiteros4’469,550 de desplazamientos inter-municipales 347,157 Tuiteros

@abxda

@abxda

Red Nacional de Caminos y Twitter

Red Nacional de Caminos y Twitter

@abxda

DENUE & Twitter

@abxda

DENUE & Twitter

@abxda

DENUE & Twitter

@abxda

DENUE & Twitter

@abxda

Horarios de Tuiteo cerca de algún sector

@abxda

PIO ANÁLISIS Y LA MEDICIÓN DEL BIENESTAR A TRAVÉS DE TWITTERMACHINE LEARNING

Qué es un producto de datos

Indicador de sentimiento

Proceso de Machine LearningObjetivo:

@abxda

Proceso de Machine Learning

Muestra de TuitsEtiquetado Manual

Representación numéricahttp://scikit-learn.org/http://www.r-project.org/

Machine Learning

Tuits en Tiempo Real

ClasificadorIndicador

de sentimiento

@abxda

Entrenamiento

Producción

http://cienciadedatos.inegi.org.mx/pioanalisis

@hbcolectivo @ricardoaolvera

@abxda

@abxda

{ JSON }

D3.js Librería JavaScript para creación de losgráficos vectoriales interactivos.

Librería JavaScript facilita la incorporación del patrónMVC en aplicaciones web de una sola página

Diseño de estructura de la página y habilitaciónresponsiva via Twitter Bootstrap.

JSON formato de intercambio de datos.

Web Api 2 / Interface REST

Tecnologías Involucradas

Resultados

@hbcolectivo

@ricardoaolvera

@abxda

Alrededor de 5000 anotadores de la Universidad Tec Milenio

El proceso de limpieza sirvió para eliminar redundancias e inconsistencias, dejando un conjunto menor de Tuits pero con mayor calidad.

@abxda

El proceso de normalización convierte cada tuit a una representación que facilite su clasificación automatizada. @abxda

Preparación para el entrenamiento de algoritmos de Machine Learning@abxda

El resultado final de la fase de entrenamiento consistió en un ensamblado desarrollado por la colaboración INFOTEC - Centro Geo

@abxda

@abxda

@abxda

IMPLEMENTACIÓN DE BIG DATAVisión de

Hadoop / Apache Spark

@abxda

ó

Procesamiento70 Cores > 3 Ghz>250 Gb Ram5 TB

+Recolección20 Cores > 3 Ghz100 Gb Ram1 TB

• Tecnología de procesamiento en paralelo para Ciencia de Datos

Apache Spark

@abxda

@abxda

Preguntas

@abxda

abel.coronado@inegi.org.mx @abxda

Recommended