Cómo afrontamos el reto desde Minsait
MUDANZA AL MUNDO BIG DATA
Valencia, Noviembre de 2018
2
González Rodríguez, Noelia
Data Science Tribe Lead
Minsait an Indra Company
@noeliagorod
Moreno Martínez, Víctor
Data Science Senior Consultant
Minsait an Indra Company
3
¿Quiénes somos?
Contexto y oportunidades
Explosión de la conectividad y
generación de datos
Sofisticación de los algoritmos de
análisis
Mayor capacidad de procesamiento y
almacenamiento
5
6
Explosión de la conectividad y generación de datos
http://otae.com/internet-en-tiempo-real/
Los datos ….
Videos, imágenes
Sensores
Webs
Redes Sociales
Smartphones
Open data
Documentos
Hábitos de consumoFeedback
8
Para poder optimizar los resultados, debemos ser capaces de explotar eficazmente los datos
Smart Habitat
Smart use of all Habitat Data
8
9
Mayor capacidad de procesamiento y almacenamiento…
Ley de Moore: cada dos años se
duplicaba la potencia de los procesadores
Fuentes: https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=5415663http://radar.oreilly.com/2011/08/building-data-startups.html
Límites tecnológicos
Es necesario buscar un nuevo paradigma de cómputo…
10
Sofisticación de los algoritmos de análisis
Evolución Tecnológica Ámbito de aplicación
Inteligencia Artificial
Machine learning
IoT
Big Data
Data mining
Business Intelligence
Análisis a medida y hojas de cálculo
Valo
r añ
adid
o
Analítica Prescriptiva
Analítica Predictiva
Analítica de
Diagnóstico
Analítica Descriptica
¿Qué va a ocurrir?
¿Por qué ha ocurrido?
¿Qué ha ocurrido?
¿Cómo podemos hacer que ocurra?
Propuesta de actuaciones basadas en modelos de comportamiento
Identificación de patrones de conducta y causa- efecto
Análisis de operaciones pasadas
Decisiones automáticas y en tiempo real. Aprendizaje continuo
11
La metodología analítica necesaria para dotar de mayor inteligencia al tratamiento de la información incluye diferentes áreas y técnicas específicas
Clusterización
Regresión
Reducción de dimensionalidad
Detección de anomalías
Importancia de atributos
Reglas de asociación
Procesamiento de Lenguaje Natural
Minería de Grafos
Deep Learning
Clasificación
Té
cn
ica
sD
ata
Scie
nce
Es una técnica de agrupamiento que permite separar conjuntos de variables con etiquetas de familias en función de los atributos de sus registros.
Técnica que permite predecir el valor que tomará una variable numérica en función de un conjunto de variables predictivas.
Técnica que permite disminuir el número de variables de un problema a aquellas que explican en mayor porcentaje la información de los datos.
Detección de registros con comportamiento atípico, que no pertenecen a patrones esperados de la distribución de datos.
Es una técnica que identifica y valora por importancia las variables que mejor explican un atributo de negocio determinado.
Permite establecer acciones que serán consecuencia de un conjunto de condiciones de negocio que se den para una observación.
Conjunto de técnicas para hallar patrones e insights en datos no estructurados. Revela información relevante a partir de texto.
Conjunto de técnicas analíticas que permiten extraer información valor en datos estructurados en forma de redes.
Desarrollo de soluciones que permiten inferir conclusiones de negocio a través del procesamiento masivo de redes neuronales, imágenes y video.
Permite separar registros de una variable de negocio en grupos determinadosa partir de una serie de variables explicativas.
Frequent Subgraph MiningLynk AnalysisPath-Based Algorithm
Redes ConvolucionalesRedes RecurrentesRedes Embebidas
K-MeansClustering JerárquicoClustering Mixto Óptimizado..
Procesos GaussianosRelevance Vector MachineXGBoost...
PCAMCARotación Varimax, …
1-class SVMBagging de atributosLógica Fuzzy, …
Random Forest FRLogit AILasso Tuning, …
AprioriEclatFP Growth, …
NERDirichlet Topic ModelingNeural Network Classification…
LogitCARTSVC, NNC, …
Agrupamiento de clientes según variables de negocio y valor de cliente.
Predicción de pricing asociado a un perfil de cliente
Reducción a pocas variables relevantes un DWH con más de 1300 variables explicativas
Registros con comportamiento sospechoso por petición de siniestros
Variables decisivas en orden de prioridad a la hora de determinar la vinculación
¿Qué características comparten los compradores de seguro de vida?
Análisis de contenidos de formularios de quejas y reclamaciones de clientes.
Detección de clientes con comportamiento fraudulento a través de redes sociales.
Detección de usuarios a través de una foto tomada por una cámara o imagen
Clasificación de clientes con alto potencial de fuga y fieles.
Técnicas E xplicación Algoritmos ejemplo E jemplo
Sofisticación de los algoritmos de análisis
Fuente: Minsait
Data Science & Inteligencia Artificial
• Diseño de modelos predictivos de
aplicación práctica en el negocio
(casos de uso de negocio)
• Creación del repositorio de modelos/
casos de uso de alto impacto en los
diferentes ámbitos del negocio
• Identificación, captura,
agregación y depurado
de fuentes de datos
• Estructurados
• No estructurados
• Creación del repositorio
(data lake o data pool):
almacenamiento de
datos en repositorio
homogéneo y común,
utilizando tecnologías big
data y cloud
• Conjunto de algoritmos a
aplicar según el tipo de
información, los análisis y
los modelos a desarrollar
• Plataforma de
modelización en base a
los datos y los
algoritmos, con
aprendizaje automático
para optimizar la
predicción (ej. redes
neuronales y machine
learning)
Herramientas (enablers)
13
Ecosistema
02
14
Es fácil perderse en un mar de logos…
15
Interactive
Stream
ExploratoryD
ata
se
rvic
es (
RA
W IN
GE
ST
ION
)
Contextual
Discovery
Apoyo toma decisión
Modelos predictivos
Machine Learning
Reporting
& Adhoc
Path
Analytics
Aggregate Analytics
Op
erat
ion
alTa
ctic
al
Touchpoint
Aplications
Embebido
On-Demand
Push
Smart Systems
& Devices
Workflow &
interaction
Automation
Alerts &
Respond
Location-
Based
Services
Analytics
Services
Business
Application
s
Data
Lake
Da
ta &
Qu
ery
ma
na
ge
ment
Escucha Analiza Actúa
Data Governance
SOURCES INGEST & PROCESS STORE ANALYZE PUBLISH & VIEW
Elementos del Big Data
IngestaAlmacenamiento
Cómputo
Visualización
Publicación
Gestión y orquestación
16
… y roles que intervienen
Fuente: https://medium.com/@vegi/data-scientist-vs-data-analyst-vs-data-engineer-using-word-cloud-902ab83d0879
17
Mitos alrededor del Big Data 03
18
Todo el mundo lo hace…
Hablar de CAPEX y OPEX
Nuevas posibilidades gracias a tecnologías cloud
19
Lo importante es el tamaño…
Cuantos más datos mejor…
• Calidad frente a calidad
• Objetivo claro (KPI)
• Limpieza de datos
• Validez (antigüedad) de los datos
20
Eso es cosa de los de TI…
Toda la organización debe involucrarse en crear una
cultura de datos
El equipo de TI es sólo uno los players que entra en
acción
• Unidades de negocio
• Dirección
• TI
• …
21
La implantación de Big Data debe contemplar todos los aspectos necesarios para dotar a cualquier compañía de capacidad para explotarlo…
Cómo se afrontan estos proyectos desde Minsait
Alineación Estrategia de la compañía
Modelo de Gobierno y gestión del
Dato
Casos de Negocio
Gestión de la demanda
InfraCloud,
onPremise,Hibridos,..
Distribución y desarrollos
Integración Continua DEVOPS
Productivizacion
Estrategia
Tecnología
Ámbitos de Colaboración
Implantación Big Data
Data LakesData Labs
Data Science
Real Time
Modelo Adopción
Gobierno & Seguridad
22
El Big Data es para grandes problemas…
Sólo sirve para resolver aquellos problemas
identificados como relevantes para la compañía,
y para los que dedica un equipo de DS, DE,…
Un usuario de negocio podrá obtener valor a
partir de los datos y análisis disponibilizados si
tiene el conocimiento y las herramientas
adecuadas
Fuente: https://blog.k2datascience.com/data-careers-analyst-vs-scientist-vs-engineer-2e9e297e978e
23
El Big Data es para grandes compañías…
Una PyMe puede sacar partido de los datos para
adaptarse a los cambios del mercado antes que
competidores más grandes y lentos…
Lanzar una estrategia Big Data supone un coste de
arranque (CAPEX) y de mantenimiento (OPEX) que no
cualquier empresa puede permitirse…
Tendencias como la computación en la nube están
democratizando el uso de grandes infraestructuras de
computo (pay per use).
24
Todos los datos son iguales…
Existen muchos tipos de información que por su
naturaleza no pueden ser tratados de la misma manera:
• Datos numéricos
• Texto
• Imágenes
• …
Esto afecta tanto a su recolección como a su tratamiento
25
Es una moda pasajera…
El dato es un activo que permite a la compañía
obtener un valor diferencial
Cada día aparecen nuevos tipos de datos, y en mayor
cantidad
La tecnología evolucionará, pero la esencia del Big
Data perdurará
26
Casos de uso en el sector 04
27
Usos de Big Data en Smart Cities:
28
… Nos encargamos de dar respuestas a los objetivos de negocio con algoritmos
avanzados basados en el contexto Big Data
Proyecto H2020 I+D+i Transforming Transport.
Big Data y su valor en la movilidad y la logística. Somos los protagonistas en la transformación de aeropuertos,
viales y ferroviario.
29
Capacidad de diagnóstico predictivo en el deterioro de los componentes
mecánicos que afectan al confort de los viajeros
Mantenimiento predictivo de activos ferroviarios
Alcance:
Proyecto I+D Europeo: Transforming Transport . Big Data y su valor en la movilidad y la logística
En el caso de ferrocarriles, se pretende:
• Obtener un modelo predictivo que permita detectar de forma anticipada la degradación de las vías de
circulación de los trenes, reduciendo el número de actuaciones de tipo correctivo por aplicación de
actividades preventivas programadas .
• Obtener un modelo predictivo que posibilite a los gestores de las infraestructuras detectar de forma
anticipada posibles fallos en los agujas (elementos de cruce) instalados en las vías de circulación
Este proyecto supone el tratamiento de imágenes en formato no digital y análisis de fuentes diversas de
datos, relacionadas tanto con la operación y mantenimiento de la vía como con las infraestructuras y
condiciones meteorológicas y geográficas
Archivo PDF origen de datos
Transformación y
Estructuración
30
Patrones de comportamiento de los pasajeros en el aeropuerto, análisis detallado
de tiempos de espera y acciones recomendadas en cada caso.
Optimización de procesos de gestión de pasajeros en aeropuertos
Alcance:
Analizamos el movimiento de los pasajeros en aeropuertos hasta
su llegada a los arcos de seguridad, con el objetivo de:
• Mejorar la experiencia del pasajero a través del análisis
descriptivo de su comportamiento en el aeropuerto,
ofreciéndole una experiencia personalizada y ajustada a
sus necesidades
• Mejorar los procesos de gestión de pasajeros en el
aeropuerto, obteniendo modelos predictivos que permitan
disponer de información de flujos esperados de pasajeros
en todo momento a cada uno de los puntos de control del
aeropuerto.
• Reducir los retrasos en el vuelo por retrasos en la llegada
de los pasajeros.
• Reducir el número de pasajeros que pierden una conexión
o pierden su equipaje.
Clusterización de pasajeros
Descriptivo de comportamiento por cluster
Análisis detallado de demoras
31
Clúster de vehículos, patrones de movilidad para cada clúster y predicción de la
llegada de vehículos a puestos de peaje
Mejora de la operación viaria y del nivel de servicio
Alcance:
En el caso de viales, los objetivos son:
• Descripción de los patrones de movilidad
• Predicción de los flujos de vehículos
• Prevención de accidentes
• Optimización de la operación de los puestos de peaje
• Optimización de las rutas de mantenimiento y cumplimiento de los SLAs de operación.
Análisis de variables externasPatrones de movilidad Análisis histórico de incidentes
32
Mejora de la calidad en la identificación del agua y aprendizaje de su
comportamiento a partir de procesamiento de imágenes satelitales en near real time
Land Analytics- ESA
• A partir de parámetros biofísicos obtenidos de las imágenes Sentinel obtenemos
water bodies y wetness probability con técnicos de Observación de la Tierra
• Y el enriquecimiento con fuentes externas
• Incorporamos algoritmos para la mejora de la calidad en la identificación del agua y
aprendizaje de su comportamiento.
Mapa geológico.- tipo
de suelo
Mapa de vegetación Mapa topográfico.
Información relativa
al terreno. Relieve
Fases de la lunaMeteorología
Alcance:
Plataforma automática en near real time que identifique láminas de agua a partir de imágenes satelitales e
incorpora las más sofisticadas técnicas de Big Data y Machine Learning para mejorar la calidad en la identificación
33
Plataforma Smart Energy
NEXO ENDESA Enfoque del proyecto
Minsait IoT Sofia2 actúa como centro de gestión y optimización de la Smart Home y el
Smart Building. La Plataforma permite el almacenamiento y análisis de los datos de
consumo de energía de distintos tipos de dispositivos, permitiendo la toma de
decisiones tanto en tiempo real como en base a históricos. Permite al usuario final:
• Optimizar el consumo energético del edificio
• Evaluar su consumo y compararlo con periodos anteriores o con el de otros
usuarios similares
• Configurar alarmas cuando se superen ciertos umbrales o exista peligro
• Aumentar su nivel de confort
• Tener control sobre la seguridad
Beneficios obtenidosEl proyecto ha supuesto la automatización de 8.000 hogares, ofreciéndoles una
gestión más eficiente de su iluminación, sistema de climatización,
electrodomésticos y paneles fotovoltaicos, así como una mayor seguridad. Se
prevé un ahorro energético del 20%.
Primera fase: 8.000 casas conectadas
Picos de 50.000 medidas al minuto
600.000 medidas al día
30.000.000 registros
30.000 alarmas en memoria a la vez, analizándose y
ejecutándose
Ejecución de 4.000 programaciones en un instante
34
20+ soluciones cubriendo diferentes servicios urbanos:
movilidad, seguridad, medio ambiente, gestión de agua
y energía, participación ciudadana y turismo.
Diferentes agentes involucrados: 3 grandes empresas,
12 pymes, 2 centros de investigación, 2 startups y una
Universidad.
100 fuentes de datos incorporando información (KPs
productores).
>1.000 mensajes por segundo.
Coruña Smart City Enfoque del proyecto
Minsait IoT Sofia2 actúa como el cerebro de la ciudad, centralizando y almacenando
información de los distintos servicios urbanos y posibilita la actuación en tiempo real
ante distintas clases de eventos.
La combinación de la información recogida de los distintos verticales en una única
plataforma ha permitido a la ciudad construir soluciones cross-domain en el que cada
vertical, aprovecha la información del resto de soluciones para ofrecer:
• Un mejor uso de los recursos
• Optimización de los servicios
• Identificación de emergencias
• Una visión holística del estado de la ciudad
Beneficios obtenidos
El proyecto ha supuesto un impulso a la innovación de toda la ciudad mediante la
creación de empleo, la dinamización del sector TI y la inversión en nuevas
tecnologías. Además de posicionar a la ciudad como una referencia mundial en el
ámbito de las Smart Cities el proyecto supone un ahorro económico de 10M€ al
año para la ciudad y los siguientes ahorros medioambientales:
Reducción del 20% en el consumo energético de edificios públicos
Disminución del 20% en consumo de agua debido a la optimización en la
distribución de la misma
Ahorro del 25% de agua empleada en el riego de parques y jardines
Sofia2 como Plataforma Smart City
35
Ecoembes involucra a empresas, ciudadanos y
entidades públicas en la coordinación del proceso de
reciclaje.
Ecoembes corre con el sobrecoste de la recogida
selectiva, que es financiada por las empresas
envasadoras y distribuidores, a través de la tarifa
obligatoria de Punto Verde, y la venta de materiales
reciclados.
Ecoembes Enfoque del proyecto
Minsait y Ecoembes se unen para ofrecer una solución holística para la cadena de
reciclaje, que involucre tanto a los ciudadanos como a las entidades públicas y las
empresas:
• Las entidades locales disponen de información de calidad sobre los residuos, el
estado de los contenedores y las rutas de recogida.
• Los ciudadanos acceden a información sobre el proceso de reciclaje y las
principales cifras en su región.
• FEEP IoT & Big Data Platform Sofia2 actúa como la plataforma integral que
permite el control de los procesos, haciendo el sistema más eficiente.
Beneficios
La información recogida se analiza para potenciar la calidad y la eficiencia de los
procesos:
Optimización de los servicios de recogida y tratamiento
Incremento de la tasa de reciclaje
Mejor uso de los recursos y disminución de la huella de carbono
Visión holística del estado de los servicios de recogida y reciclaje
El modelo de colaboración entre Ecoembes y Minsait posiciona a Ecoembes como
uno de los principales actores en el marco de la Smart City, posibilitando la
integración de nuevos servicios de valor añadido. Además, el modelo de
innovación abierta permite integrar las startups locales para que participen en el
desarrollo de un ecosistema abierto y en continua evolución.
Smart Waste
36
Plataforma de Gestión Energética de Edificios
Contexto / complejidad
• Monitorización de las variables de electricidad, gas natural y agua en
la sede del Servicio Nacional de Enseñanza y Aprendizaje (SENA) de
Colombia.
• Operación, gestión, mantenimiento preventivo y correctivo de los
equipos necesarios para la medición de componentes energéticos.
Solución TecnológicaIncluye todos los dispositivos necesarios que permiten la
monitorización de las variables de electricidad, gas natural y
agua, además de la instalación y configuración de Sofía2 y
el Módulo de Gestión de Energía.
• Medición en tiempo real de las variables para un uso
eficiente energético.
• Recoge información de los dispositivos/sensores de
medición.
• Almacena, procesa y toma decisiones de gestión de
entrada.
• Análisis del comportamiento del consumo energético.
Resultados• Disminución en consumo y emisiones de CO2.
• Implementación de un Sistema de Gestión de Energía (norma ISO
50001) para gestionar de forma continua la energía, aprovecharla de
manera eficiente y mantener un funcionamiento óptimo.
• Visualización online en tiempo real del consumo.
• Decisiones en tiempo real con efectos inmediatos en el consumo de
energía.
• Mejora en cultura y hábitos de consumo. Sensibilización y
diferenciación de la mano de obra profesional.
Mis oportunidades
La tecnología ha pasado de ser una palanca más a convertirse en una pieza central
de la estrategia del negocio
No es una época de cambios,es un cambio de época
39
¡¡MUCHAS GRACIAS POR SU ATENCIÓN!!
González Rodríguez, Noelia
Data Science Tribe Lead
Minsait an Indra Company
606 66 78 53
Moreno Martínez, Víctor
Data Science Senior Consultant
Minsait an Indra Company
696 59 72 36