Big Data en el INEGI
UNA VISIÓN TECNOLÓGICA
11 de Noviembre 2015
4 mil Empleados en Aguascalientes y 18 mil en todo el País
COLABORACIÓN INTERINSTITUCIONAL
• Nacional • Internacional
@abxda
Considerar las Nuevas Fuentes de Datos para Complementar a las Tradicionales.
Fuentes sin un diseño original, en una diversidad de fines posibles, normalmente ajenos a las causas que
permitieron la generación
@abxda
Las Fuentes de Información siguen creciendo
Internet de las Personas
Internet de las Cosas
Sensores
{ json }< xml >
c,s,v
Redes Sociales
Internet de las Ideas
Crowdsourcing
Sistemas de Archivos Distribuidos
Computo Paralelo y Concurrente
Programación Funcional
Razonamiento Algebraico
Estadística
Análisis MultivariadoMachine Learning
Análisis de Interacción Espacial
{ json }< xml >
c,s,v
{ json }< xml >
c,s,v
Bases de Datos NoSQL
Visualización
Panorama TecnológicoInfraestructura de Cómputo
%Acceso a Internet, %Pc, %Telefono Celular, %Automovil @abxda
Estratificación de 1.2 M de Manzanas (2013)En la misma Pc de 4 Procesadores:(2013)
Software Tiempo Manzanas
Big Data 8 Seg. 1’221,180
Tradicional (R)
8 Seg. 2,666
https://spark.apache.org/
TWITTER COMO FUENTE DE BIG DATAPara medir el pulso emotivo de México …y mucho más …
@abxda
2009 2010 2011 2012 2013 2014 2015
(Junio) GIVAS = Global Pulse
(2010) UNECE-CES crea HLG-BAS = HLG on Modernisation of Statistical Production and Services
(Oct. 2010) Día Mundial de la Estadística. “Tendencias actuales de la estadística aplicada”, por John Brocklebank, SAS
(Agosto 2011) ISI Dublin sesión sobre Análisis Estadístico de Redes Sociales.
(Nov. 2012) HLG_BAS “IDENTIFYING KEY PRIORITIES FOR 2013 AND BEYOND” menciona, por fin, Big Data y Open Data.
(Agosto 2013) propuesta BigData – Fondo Conacyt Inegi.
DGAI Inicia con Herramientas Big Data
(Octubre 2013) Encuentro con Seligman en Monterrey en evento de Tec Milenio Instituto de ciencias de la felicidad.
(Diciembre 2013) Visita de Upenn a INEGI
(Febrero 2014) Inicia recolección de Tuits (Hydra)
(Junio 2014) Seminario Internacional Inegi Big Data en INFOTEC
(Julio 2014) SECTUR y mapa resultado y paper.
(Agosto 2014) Inicia Pioanálisis
(Nov. 2014) Concluye clasificación de Twits.
(Diciembre 2014) Involucramiento Infotec-Geo etiquetado de tuits
(Febrero 2015) Viaje a UPenn
(Febrero 2015) Seminario Infotec-CentroGeo-Inegi.
(Abril 2015) Herramienta de Medición de Bienestar en Tiempo Real
(Junio 2015) Entrega del primer conjunto de 60M clasificado por INFOTEC
(Julio 2015) Herramienta de Visualización
@abxda
OBJETIVO DEL PROYECTO
Generar indicadores experimentales, nuevos o que complementen los generados por métodos tradicionales, utilizando técnicas de Big Data para la extracción, almacenamiento, procesamiento, análisis y visualización de los datos.
@abxda
Colaboración
Dr. Oscar S. Siordia [email protected]
Dr. Mario [email protected]
Dr. Elio Villaseñorelio.villaseñ[email protected]
Dr. Eric [email protected]
Dr. Sabino [email protected]
Dr. Gerardo [email protected]
Dr. Alfredo [email protected]
Mtro. Abel [email protected]
Ing. Silvia [email protected]
Y el apoyo de:Dr. Juan Muñoz López
Ing. Ricardo [email protected]
Lic. Marco [email protected]
@abxda
Dra. Daniela [email protected]
Dr. Enrique [email protected]
Todos los tuits están disponibles para su recolección en tiempo real.
@abxda
Incluso permite consultas geográficas
@abxda
http://cienciadedatos.inegi.org.mx/pioanalisis
@hbcolectivo @ricardoaolvera
@abxda
Proceso de Machine Learning
Muestra de TuitsEtiquetado Manual
Representación numéricahttp://scikit-learn.org/http://www.r-project.org/
Machine Learning
Tuits en Tiempo Real
ClasificadorIndicador
de sentimiento
@abxda
Entrenamiento
Producción
@abxdahttp://www.inegi.org.mx/inegi/contenidos/investigacion/experimentales/animotuitero/default.aspx
MAS ALLÁ DEL ANÁLISIS DEL SENTIMIENTO
Apache Sparkhttp://spark.apache.org/
Visualización de la Base de Datos
+120 Millones de Tuits
@abxda
60 Millones de Tuits
@abxda
Visualización de la Base de Datos
Frecuencia de Tuiteo
# Tuits
Frecuencia por hora del día
~1,000,000 Tuiteros generaron + 60 Millones de Tuits
@abxda
Movilidad de los Tuiteros4’469,550 de desplazamientos inter-municipales 347,157 Tuiteros
@abxda
@abxda
Red Nacional de Caminos (Open Data) y Twitter
Red Nacional de Caminos y Twitter
@abxda
DENUE & Twitter
@abxda
DENUE & Twitter
@abxda
DENUE & Twitter
@abxda
DENUE & Twitter
@abxda
¿De dónde provienen los tuiteros de los hoteles?
Qué se dijo cerca de los Hoteles
Horarios de Tuiteo cerca de algún sector
@abxda
Que se dijo cerca de los Bares
PRIMER EJERCICIO NACIONALDENUE - TWITTER
4.9 M de Polígonos de Voronoi (DENUE)
Big Spatial Join (4.9 M DENUE +60 M Tweets)
SpatialSpark
SpatialSpark: Open Source
Runing Code into Local Apache Spark
DENUE - Twitter
[email protected] @abxda