54
RETO BIG DATA Del área del Chief Data Officer de Telefónica. Cuantificación del impacto de la media sobre el rendimiento operativo y financiero de las compañías Andrés Vegas Perfiles demandados para desarrollar el proyecto Data scientists/ estadísticos Informáticos, ingenieros Fuentes proporcionadas por Telefónica para el desarrollo del proyecto Sin datos proporcionados por Telefónica. Toda la información será información pública Links a información relevante http://www.gdeltproject.org https://dev.twitter.com/overview/api Otros agregadores de noticias y eventos públicos Información pública de compañías objeto de estudio (resultados operativos, cotización en bolsa, etc.) Cuantificación Impacto Mediático

Listado Proyectos Reto Big Data - inf.uva.es · el proyecto • Data scientists ... Partiendo de una visión macro de grandes familias ... módulos de desarrollo de basaran en la

  • Upload
    vukiet

  • View
    215

  • Download
    0

Embed Size (px)

Citation preview

RETO BIG DATA Del área del Chief Data Officer de Telefónica.

Cuantificación del impacto de la media sobre el rendimiento operativo y financiero de las compañías

Andrés Vegas

� Perfiles

demandados

para desarrollar

el proyecto

• Data scientists/ estadísticos

• Informáticos, ingenieros

� Fuentes

proporcionadas

por Telefónica

para el

desarrollo del

proyecto

• Sin datos proporcionados por Telefónica. Toda la información será información pública

� Links a

información

relevante

• http://www.gdeltproject.org

• https://dev.twitter.com/overview/api

• Otros agregadores de noticias y eventos públicos

• Información pública de compañías objeto de estudio (resultados operativos, cotización en bolsa, etc.)

Cuantificación Impacto Mediático

� Descripción

detallada del

proyecto

• El objetivo del proyecto es modelizar (si existe) el efecto de la presencia en medios de comunicación (prensa, redes sociales, etc.) a corto, medio y largo plazo sobre indicadores operativos y financieros de la compañía: ventas, ingresos, cotización bursátil, etc., incluyendo el análisis y categorización del impacto en función del medio, la tipología de contenido publicado, la respuesta y nivel de viralización, el sentimiento generado, etc.

• Por la disponibilidad de datos públicos, se propone estudiar el impacto de la publicación de noticias referentes a Telefónica en los países más relevantes de su footprint (España, Brasil, UK, Alemania, Argentina, Chile y/o Perú) en los indicadores de desempeño de la empresa, ya sea sobre su cotización en bolsa, o sobre sus resultados operativos publicados en los informes de resultados de carácter público.

• Los hitos relevantes serían: � Identificación y elección de fuentes de datos disponibles. � Modelo de agregación y ponderación de fuentes de datos si se considerara oportuno. � Modelo de tratamiento de datos. � Modelo de sentimiento, para convertir las noticias en impactos positivos o negativos. � Modelo estadístico de predicción o correlación de datos relevantes con fluctuaciones en los indicadores de desempeño de la empresa. � Simulaciones de escenarios (bien de manera analítica o bien con métodos numéricos como Montecarlo). � Obtención de rangos esperados utilizando el nivel de confianza como input.

RETO BIG DATA Del área del Chief Data Officer de Telefónica.

Extrapolación predictiva de comportamiento real a partir de encuestas de mercado

Andrés Vegas

� Perfiles

demandados

para desarrollar

el proyecto

• Matemáticos, estadísticos.

• Informáticos, ingenieros.

� Fuentes

proporcionadas

por Telefónica

para el

desarrollo del

proyecto

• Sin datos proporcionados por Telefónica. Toda la información será información pública

� Links a

información

relevante

• http://www.cis.es

• http://www.ine.es

• http://fivethirtyeight.com/

Automatización ajuste estadístico

� Descripción

detallada del

proyecto

• El objetivo del proyecto es desarrollar una metodología para la automatización del ajuste estadístico entre el dato declarado en encuestas de mercado y el dato observado, permitiendo ajustar de modo óptimo la información proveniente de encuestas (con respuestas declaradas por los clientes) como base para predicción del futuro comportamiento del universo representado en la muestra.

• Caso de aplicación: estimación de voto a partir del dato declarado en sondeos electorales. Por la disponibilidad de datos públicos, y por la relevancia que ha tenido en medios, se propone la predicción de resultados electorales a partir de las encuestas publicadas, ya sea a nivel microdato (véase el CIS o INE) o agregado (prensa, redes sociales).

• Los hitos relevantes serían: � Identificación y elección de fuentes de datos. � Modelo de agregación de fuentes de datos si se considerara oportuno. � Modelo estadístico de predicción. � Simulaciones de escenarios (bien de manera analítica o bien con métodos numéricos como Montecarlo). � Obtención de rangos esperados utilizando el nivel de confianza como input. � Generalización de la metodología y procesos desarrollados para dar cabida a otros casos de uso.

RETO BIG DATA Del área del Chief Data Officer de Telefónica.

• ElevenPaths – Telefónica Cyber Security Unit

• Cybersecurity Product Management o Nikos Tsouroulas – Head of Cybersecurity product team o Carlos Díaz Hidalgo – Security Analyst

� Perfiles

demandados

para desarrollar

el proyecto

• Conocimientos Big Data, bases de datos de grafos, tecnologías para la representación gráfica de entidades y relaciones entre las mismas.

• Conocimientos de algoritmos de Machine Learning

• Desarrollador

� Fuentes

proporcionadas

por Telefónica

para el

desarrollo del

proyecto

• Autofocus – Big Data de Palo Alto que dispone actualmente de cientos de millones de muestras de malware diseccionadas.

• VirusTotal Intelligence

� Links a

información

relevante

• https://www.paloaltonetworks.com/products/secure-the-network/subscriptions/autofocus

• https://www.virustotal.com/

MALWARE ACTORS

� Descripción

detallada del

proyecto

• Objetivo: Caracterización de adversarios (atacantes) a partir de entidades presentes en las muestras diseccionadas, difusión de la muestra y tipo de objetivos atacados.

• Hitos: o Hito 1: Definición entidades singulares que puedan permitir la clasificación de las muestras, modelo de datos y relaciones entre

entidades para su representación visual. o Hito 2: Definición modelo de adversarios a utilizar. Partiendo de una visión macro de grandes familias (Hacktivismo, Cibercrimen,

Ciberespionaje y Ciberguerra), detallar los perfiles de atacante que pretendemos caracterizar (cibermercenarios, mafias, estados) para ser capaces de atribuir muestras a ciberidentidades o cibergrupos específicos.

o Hito 3: Definición de algoritmos de búsqueda y clasificación de muestras en función de variables relevantes (indicadores de atribución) como pueden ser: Objetivos atacados, herramientas utilizadas, vectores de entrada, tiempo de vida de la muestra, campaña en la que se incluye, … � Utilización de patrones visuales para la identificación de adversarios concretos.

o Hito 4: Generación de esquemas o patrones de búsqueda (IOCs enriquecidos) que faciliten los procesos de threat hunting en una empresa. El objetivo NO es encontrar malware sino indicadores de la presencia de un determinado actor atacando al cliente.

RETO BIG DATA Del área del Chief Data Officer de Telefónica.

• IAM – 11Paths – Global Cybersecurity. En el área de gestión de identidad y el acceso, dentro del área de producto de 11paths, basándonos en la idea de que el dispositivo móvil es una extensión del usuario en el mundo digital, hemos creado un modelo combinado de autenticación y autorización como servicio que permite a las empresas:

o Beneficiarse de diferentes niveles de autenticación en función del contexto y los riesgos que la compañía deba gestionar – autenticación multifactor adaptativa.

o Ser capaz de aplicar y gestionar una estrategia efectiva de control de acceso a través de entornos TI tradicionales y sobre soluciones IAM – autorización mediante OTP y pestillo digital.

o Además, bajo la misma aproximación, la integración de la solución con los procesos de negocio de la empresa permite convertir el dispositivo móvil en una herramienta segura para ejecutar procesos de firma – firma digital.

Dentro de estas premisas estamos trabajando en construir una solución de Autenticación Adaptativa, definida como una visión que tiene en cuenta el riesgo, denotado por diferentes variables y recursos de información (biometría conductual, riesgo del contexto, evaluaciones IP…), para poder adaptar los procesos de autenticación y autorización a cada situación de riesgo y estatus dentro del “user journey”. El objetivo de esta combinación de tecnologías es permitir una mejor experiencia de usuario sin comprometer la seguridad, ayudando a reducir costes de fraude e ineficiencias.

• Mentor: Vicente Segura Gualde – Head of IAM, Global Security

� Perfiles

demandados

para desarrollar

el proyecto

• Pasión por los temas de seguridad de la información, con interés particular en lo relativo a la gestión de la identidad y el acceso

• Conocimientos e interés en orientar su carrera profesional hacia el desarrollo software. En particular, es deseable que tenga conocimiento en una o más de las siguientes tecnologías:

o HTML5, CSS3, ASP .NET, Java, SQL Server, C#, C/C++, Python

• Muchas ganas de aprender

Adaptive Authetication

� Fuentes

proporcionadas

por Telefónica

para el

desarrollo del

proyecto

• En este proyecto se trabajará con varios tipos de tecnologías. Por un lado, fuentes de información big data de Telefónica, pertenecientes a nuestra red y que tengan relevancia a la hora de dar un contexto de la identidad de un cliente. También se interactuará con productos ya en marcha como Mobile Connect, Latch, SmartDigits y un partner de Biometria Conductual para poder llevar a cabo la prueba de concepto que se describe en la última sección.

� Links a

información

relevante

• Artículo que da una introducción al concepto de Autentificación Adaptativa: http://www.techrepublic.com/article/your-password-is-weak-adaptive-authentication-can-offer-some-armor/

• IAM team 11Paths: https://www.elevenpaths.com/es/tecnologia/identity-and-access-solutions/index.html

� Descripción

detallada del

proyecto

• El objetivo de este proyecto es el de crear una prueba de concepto de una solución de autentificación adaptativa que sea diferencial al mercado actual a través de la integración de varias tecnologías propias y externas.

• El desarrollo de esta prueba de concepto se llevará a cabo a lo largo de Q1 y Q2 de 2017 con el objetivo de presentarla en el Innovation Day de Julio que organiza 11 Paths.

• Esta prueba de concepto tiene varias capas de tecnología que se quieren integrar para crear una plataforma de Autentificación Adaptativa o Mobile Connect como producto de autentificación y autorización o Latch como una herramienta para manejar accesos o Smart Digits como un recurso de evaluación de fraude o Puntos de datos procedentes de la red de Telefónica para crear un scoring de riesgo contextual o Tecnología de biometría conductual para crear un scoring de riesgo del comportamiento del usuario dentro de una sesión o Evaluaciones de Malware para añadir valor después de la detección de fraude a través del scoring contextual y de

comportamiento

• Se trabajará con el equipo de Innovación de IAM que actualmente está validando hipótesis y evaluando diferentes casos de uso para crear una propuesta de valor de la Autentificación Adaptativa dentro de Telefónica. Esto proporcionara un ambiente dinámico donde los módulos de desarrollo de basaran en la demanda de casos de uso que se identifiquen.

• Los hitos se marcarán por cada módulo de desarrollo necesario para la finalización de la prueba de concepto; con el hito principal siendo su consecución antes de Julio 2017.

RETO BIG DATA Del área del Chief Data Officer de Telefónica.

• SmartDigits, parte de Luca, provee insights individualizados a clientes B2B bajo consentimiento de cliente final (usuario tanto de Telefónica como del cliente B2B). SmartDigits posee una plataforma de extracción de datos, procesado de dichos datos y, servicio de los mismos mediante una API con respuesta en tiempo real.

Esta plataforma almacena una gran cantidad de datos, que pueden ser objeto de estudio y análisis.

• Daniel Torres Global Product Manager (SmartDigits, Luca)

� Perfiles

demandados

para desarrollar

el proyecto

Perfil 1: data scientist, analista de datos, idealmente con visión de negocio Ingeniería Informática, Ingeniería Telecomunicaciones, Estadística, Matemáticas Perfil 2 (opcional): analista de negocio Administración de Empresas, Marketing

� Fuentes

proporcionadas

por Telefónica

para el

desarrollo del

proyecto

Los insights que provee SmartDigits son obtenidos de diferentes nodos de red, provisión, CRM, etc. Los datos que se pueden obtener de la plataforma son: datos de CRM (nombre, apellidos, dirección, fecha de nacimiento, email, etc.), datos de provisión (alta, baja, port-out, duplicado de SIM, desvío de llamada), datos de red (roaming, localización, etc.). La información provista con la que se podría trabajar está ya procesada, en formato JSON. Ejemplo de evento de dato de desconexión de cliente:

Ejemplo de dato de roaming de cliente:

� Links a

información

relevante

APIs en entorno de pruebas: https://sandbox.jetsetme.com/docs/ Área de negocio dentro de CDO: https://www.luca-d3.com/business-insights/index.html Video sobre uno de los servicios de SmartDigits para entender su aplicación: https://www.youtube.com/watch?v=LvtsT1hx3Xk

Insights trends

� Descripción

detallada del

proyecto

El objetivo de este proyecto es obtener valor adicional de todos los datos que se recogen en la plataforma de SmartDigits, mediante análisis de dichos datos. Actualmente dichos datos son usados para servirlos en tiempo real cuando el cliente B2B los necesita. Sin embargo estos datos no son analizados en su conjunto o para proveer de resultados que se puedan usar para mejorar el propio negocio de SmartDigits, o crear nuevas líneas de valor. Dichos datos son individualizados, así que este análisis podría realizarse de manera agregada y anonimizada, con datos precargados en la plataforma de los países donde actualmente estén disponibles (UK, SP). El nombre del proyecto es Insights Trends: � Insights son los datos que ya se obtienen y se sirven a clientes B2B en la plataforma de SmartDigits � Trends introduciría el concepto de buscar tendencias o correlaciones en dichos datos para sacar más información o conclusiones Algunos de los posibles casos de uso: � Crear mapa de viaje de clientes para hallar focos de posible fraude Caso: el número de días de viaje de los clientes así como la variedad de los destinos, pudiendo crear un score de riesgo según el número de viajes realizados y los destinos visitados (en coordinación con información de Seguridad y destinos donde hay detectados casos de fraude “card not present” por copia de tarjetas). � Correlar peticiones de duplicados de SIM con las ocurrencias de los eventos Caso: el producto actual de SIM swap entrega los eventos cuando son solicitados por el banco cliente. Dicha entrega se corresponde con una transacción o un evento de cliente final en el lado del banco, de la que no se tiene visibilidad. Si se establecen correlaciones entre los tiempos de ocurrencia de los eventos (duplicado de SIM) y los tiempos de petición de la información, puede inferirse cuáles de ellos han podido resultar en una transacción que se sospecha fraudulento. � Encontrar relación entre duplicados de SIM y cambios de terminal Caso: actualmente el cambio de terminal se vende como un posible indicador de fraude, pero conjuntado con el cambio de SIM existe una posibilidad de que ambos eventos ocurran a la vez. Encontrar la relación entre ambos nos permitiría conocer mejor estos casos. Por ejemplo, cuántos cambios de SIM implican cambio de terminal, cuántos cambios de SIM implican un cambio de SIM a un terminal de gama menor, cuántos cambios de SIM incluyen el cambio a un terminal usado anteriormente por el usuario. � Obtener patrones de cambio de domicilio Caso: los clientes finales no varían la mayoría de sus datos de CRM, pero sí la dirección postal. Por un lado se podrían hallar los cambios de domicilio registrados por los clientes, y estimar si se podría vender un servicio de actualización de bases de datos de direcciones. Además en el caso de tener las “localizaciones habituales” de esos clientes finales podríamos intentar inferir si los datos de dirección postal están actualizados, y el tiempo que pasa desde que el cliente final pasa a esa nueva localización y la notifica. Soporte proporcionado: Trabajo con el equipo de SmartDigits para adecuar los datos (anonimización) Acceso a los sistemas para recoger los datos Validación de los casos de uso de negocio Hitos/revisiones: 1. Accesibilidad y disponibilidad de los datos (primeros meses del proyecto) 2. Validación de casos de uso de negocio (en paralelo y de forma continua durante el proyecto) 3. Evaluación de primeros resultados y feedback de mejora (semanas después de validación anterior)

Resultado final: implementación de varios (4-6) casos de uso (como los propuestos u otros) con resultados valorables

RETO BIG DATA Del área del Chief Data Officer de Telefónica.

Advanced Analytics for Smart Mobility

• LUCA – Big Data B2B

• Maria Elena Cruz Martín – Technical Product Manager

� Perfiles

demandados

para desarrollar

el proyecto

• Se requiere un equipo interdisciplinar con una fuerte orientación a la analítica predictiva y el reconocimiento de patrones. Serán necesarios perfiles para abarcar todo el ciclo de vida de un producto de analítica: preparación y limpieza del dato, desarrollo de algoritmos y desarrollo de front-end.

� Fuentes

proporcionadas

por Telefónica

para el

desarrollo del

proyecto

• Fuentes de datos procedentes de información registrada en diferentes vehículos, incluyendo: o GPS: lat/long, velocidad, fecha y hora o Códigos de diagnóstico, controlador, fecha y hora o Aceleraciones en el espacio x, y, z [m/s^2] o Voltaje de batería o Adicionalmente: sistemas de frenado, volante, RPM del motor, odometría, horas del motor, emisiones, consumo de

combustible…

� Links a

información

relevante

• Especificaciones GeoTab Go7: https://docs.google.com/document/d/1Bo23jPOaaQR359n27bgT8wgMEmlCBLaUsTsUhEsRvPs/edit

• “Estimation of Fuel Consumption using In-Vehicle Parameters” (http://www.sersc.org/journals/IJUNESST/vol4_no4/3.pdf)

� Descripción

detallada del

proyecto

• Este reto persigue actuar en dos líneas principales: o Mantenimiento preventivo de vehículos: se propone construir un sistema que sea capaz de predecir de la mejor manera posible

las necesidades de mantenimiento de una flota de vehículos, de modo que se puedan evitar indisponibilidades y/o reducir los costes de reparación. El predictor se basará en los datos de diferentes parámetros de los vehículos, obtenidos por sistemas de monitorización automáticos y que permitirán determinar las diferentes tendencias en el funcionamiento de cada uno de los componentes. Se incluyen tareas de:

� Selección de fallos que suponen el target a predecir � Selección de las características que se usarán para construir el predictor y normalización de datos � Construcción de algoritmos de predicción � Validación de los resultados de la predicción � Construcción de herramientas de visualización de los datos

o Identificación de patrones de uso de combustible: se espera obtener un sistema que, a partir de datos como aceleraciones, frenadas, tiempo en marcha o niveles de combustible de una flota de vehículos, sea capaz de obtener información y caracterizar conductores y vehículos de cara a identificar métodos de conducción óptimos desde el punto de vista de consumo y marcas/modelos de vehículos que mejor se ajustan a las necesidades de una empresa, también desde el punto de vista del consumo. Se incluyen tareas de:

� Identificación de variables relevantes y normalización de las mismas � Agregación de los datos de los conductores en base a estadísticas � División de rutas en tramos � Comparación de patrones

• Los hitos principales del proyecto son (a partir de fecha T0, fecha de inicio del proyecto): o T0 + 2 semanas: Revisión de los trabajos de limpieza de datos o T0 + 1 mes: Decisión sobre variables seleccionadas para cada uno de los casos o T0 + 2 meses: Primera versión de los algoritmos disponibles o T0 + 3 meses: Validación de los algoritmos de predicción o T0 + 4 meses: Interfaz de usuario disponible. Revisión extremos a extremo del producto o T0+5 meses: Versión final del producto

RETO BIG DATA Del área del Chief Data Officer de Telefónica.

• ElevenPaths Security-IoT; Innovando en Ciberseguridad para entornos de IoT

• Tutores: o Nikos Tsouroulas – Head of Cybersecurity product team o Victor Mundilla, Product Manager para soluciones de Seguridad en IoT

� Perfiles

demandados

para desarrollar

el proyecto

• Desarrolladores multidisciplinares experimentados en Machine Learning, Data Warehouse, Bussines Intelligence

• Webservices, SOA, RESTful, SOAP, Scrum, Hadoop, Splunk, SAX, OpenStack, Mongo, Python, Java, Node.js, etc.

� Fuentes

proporcionadas

por Telefónica

para el

desarrollo del

proyecto

• Las fuentes principales de información serán los diferentes registros de tráfico, auditoria, control y mantenimiento generados por nuestras plataformas IoT como:

o Plataforma de gestión del Sistema de Conectividad Global GSM para IoT (SmartM2M) o Plataforma SmartCities (Thinking Cities), otras según análisis.

� Links a

información

relevante

• Cada vez con mayor frecuencia, tanto en ataques de denegación de servicios, como en otros incidentes de seguridad en internet, se ven afectados o implicados, dispositivos del ecosistema IoT. Cabe destacar que aunque con menor impacto real, pero con una inmensa repercusión global, casos puntuales donde se comprometen elementos la vida cotidiana, como el coche conectado con los recientes incidentes de Jeep o Tesla, ponen de manifiesto la importancia de las medidas de seguridad en este ámbito.

• Es por ello, que Telefónica, como proveedor de conectividad y de plataformas de gestión para estos entornos, debe ser capaz de proporcionar diferentes indicadores de seguridad relativos al uso que los dispositivos realizan de la conectividad suministrada.

IoT Threat Analytics

� Descripción

detallada del

proyecto

• Mediante el tratamiento de la información que es capaz de proporcionar la plataforma de gestión de conectividad, se podrán detectar de forma automática y desasistida comportamientos sospechosos de representar una amenaza de seguridad, pudiendo integrar estos eventos en el sistema existente de Gestión de la Seguridad, por lo que se fortalece notablemente la propuesta comercial a los clientes de Telefónica.

• Fases de proyecto: o Análisis de la información suministrada por la plataforma. o Modelado estructurado de la información a tratar junto con una caracterización de la misma. o Desarrollo de algoritmos de generación de patrones de comportamiento. o Desarrollo de algoritmos de detección de desviaciones atípicas. o Desarrollo de la integración con la plataforma de gestión de eventos de seguridad (Security Monitoring)

RETO BIG DATA Del área del Chief Data Officer de Telefónica.

• Área Cyberthreats / Fraud Management & Intelligence

• Tutor: Manuel Muñiz Somoza

� Perfiles

demandados

para desarrollar

el proyecto

• Se requiere un perfil con las siguientes capacidades (no necesario todas): o Capacidad de análisis y trabajo con fuentes con mucha información o Programación en lenguajes de scripting o Programación en lenguajes estructurados o Conocimientos sobre bases de datos o Conocimientos de herramientas de Big Data

� Fuentes

proporcionadas

por Telefónica

para el

desarrollo del

proyecto

• Las fuentes de datos principales con las que se trabajarán serán: o Listados de IP’s de telefónica (cualquier país) reportadas en listas negras públicas o Listados de IP’s de telefónica (cualquier país) reportadas en listas negras de sistemas privados (ej, sistemas Sink Holing de

Microsoft) o Listados de dominios reportados en listas negras públicas o Listados de dominios reportados en fuentes privadas (ej, CyberThreat Alliance) o Listados de servidores y dominios usados en infraestructuras de Command & Control

� Links a

información

relevante

• Puede encontrarse más información sobre los servicios en los que se colaboraría aquí: o https://www.elevenpaths.com/es/soluciones/fraude/index.html

• El principal formato de intercambio de información que se usara es STIX: o https://stixproject.github.io/

SCORING DE RIESGO DE TRANSACCIONES CON LISTAS NEGRAS

� Descripción

detallada del

proyecto

• El objetivo del análisis es diseñar un sistema para dar una valoración del posible riesgo de una transacción online, asociando atributos de la conexión con datos de listas negras y de infecciones que gestionamos en los servicios de ciberseguridad

• En el proyecto se trabajara con fuentes de datos, que combinadas con información de otras unidades ayudarán a los clientes de Telefónica a detectar y prevenir el fraude bancario (robo de credenciales online, clonado de tarjetas de crédito, identificación de puntos de compromiso, identificación de conexiones sospechosas, etc).

• El trabajo principal consistirá en desarrollar mecanismos de combinación de datos de múltiples fuentes, cruzándoos entre si, y construyendo como resultado una nueva fuente de datos que los relacione todos.

• También se deberán desarrollar los mecanismos de intercambio de la información procesada con otros actores externos a la organización (partners, alianzas multioperador / multifabricante, etc), así como con los sistemas automáticos de los clientes.

• Los mecanismos de intercambio consistirán en Webservices basados en el formato STIX.

• Los hitos principales del proyecto serán: o Integración de todas las fuentes en el sistema de Big Data o Desarrollo de nueva fuente que relacione todos los datos o Desarrollo de algortimos de scoring de riesgo o Pruebas de fiabilidad del algoritmo

RETO BIG DATA Del área del Chief Data Officer de Telefónica.

• Área Cyberthreats / Fraud Management & Intelligence

• Tutor: o Nikos Tsouroulas – Head of Cybersecurity product team o Manuel Muñiz – Security Fraud Management Product Manager

� Perfiles

demandados

para desarrollar

el proyecto

• Se requiere un perfil con las siguientes capacidades (no necesario todas): o Capacidad de análisis y trabajo con fuentes con mucha información o Programación en lenguajes de scripting o Programación en lenguajes estructurados o Conocimientos sobre tratamiento de ficheros de logs o Conocimientos de análisis de Malware o Conocimientos de funcionamiento de las infraestructuras de Malware (servidores Command & Control, droppers, Cyphers,

algoritmos DGA, webinjects, etc) o Conocimientos de técnicas de propagación de malware (Phishings, Spear-Phishing, exploit-kits, spam, etc)

� Fuentes

proporcionadas

por Telefónica

para el

desarrollo del

proyecto

• Las fuentes de datos principales con las que se trabajarán serán: o Listados de dominios reportados en fuentes privadas (ej, CyberThreat Alliance) o Listados de servidores y dominios usados en infraestructuras de Command & Control o Listados de malware identificado (hashes, C&C asociados, etc) o Resultados de análisis de Malware de sistemas automáticos de análisis masivo de Sandboxing

� Links a

información

relevante

• Puede encontrarse más información sobre los servicios en los que se colaboraría aquí: o https://www.elevenpaths.com/es/soluciones/fraude/index.html

• El principal formato de intercambio de información que se usara es STIX: o https://stixproject.github.io/

DETECCIÓN DE FRAUDE CON ANALISIS DE SANDBOXING

� Descripción

detallada del

proyecto

• Durante el proyecto se realizará la implementación de un sistema de análisis dinámico de payload de interceptación de conexiones (webinjects) en muestras masivas de malware, mediante el análisis con sistemas de sandboxing, que permitan identificar malware que incluya en su payload las url’s de nuestros clientes. Para ello, además del análisis clásico de muestras en sandbox, se detonarán conexiones a las url’s de los clientes, identificando aquellos malware que específicamente intercepten esas conexiones.

• Se procesarán los resultados de Sandboxing, extrayendo los servidores de Mando y Control, con el fin de poder neutralizarlos mediante procedimientos de Take-Down de los distintos servicios de Telefónica.

• Se desarrollaran mecanismos de carga de los distintos resultados de análisis en otros sistemas (big data) para enriquecer los resultados de otras detecciones (ej, relacionar ip’s, dominios, hash de malware, servidores de Mando y Control, etc) de forma que permita mejorar los servicios de detección y bloqueo preventivo de fraude.

• Se desarrollaran mecanismos de intercambio de información procesada con otros actores externos a la organización (partners, alianzas multioperador / multifabricante, sistemas de clientes), mediante sistemas de webservices y formato STIX.

• Por motivos de privacidad, deberán realizarse labores de anonimización de datos, que dependiendo del caso puede llegar a requerir que se use un sistema de anonimización que permita identificar siempre al mismo dato, y al mismo tiempo conserve el anonimato (tipo Hash).

• Los hitos principales del proyecto serán: o Desarrollo del sistema de análisis dinámico con Sandboxing o Integración de resultados de Sandboxing en el sistema de Big Data y con otras fuentes disponibles o Desarrollo de los mecanismos de transformación a STIX

RETO BIG DATA Del área del Chief Data Officer de Telefónica.

• Go To OB – 4th platform - CDO

• Gonzalo Durbán Díez de la Cortina / Director

1. Perfiles

demandados para

desarrollar el

proyecto

• Data scientists, data engineers, expertos en visualización de datos

2. Fuentes

proporcionadas por

Telefónica para el

desarrollo del

proyecto

• Dataset con la categorización de edad y género para un conjunto de clientes de cierta OB, que pueda completarse con información del datawarehouse y también procedente de otras fuentes como los productos SNA, Mobility, redes sociales, etc.

3. Links a información

relevante •

IDENFITIFICACIÓN EDAD Y GÉNERO

4. Descripción

detallada del

proyecto

• La estimación de la edad y el género de los clientes es un problema ciertamente importante y habitual en países cuyo mercado fundamental es el prepago (por ejemplo Latinoamérica) y no tienen la obligatoriedad de informar de los datos del cliente cuando éste adquiere el número. Así, existe una demanda real de estos datos básicos para poder segmentar al cliente.

• Dentro del grupo Go To OB, en este último año hemos estado llevando a cabo un primer producto para la identificación de género (hombre/mujer) y edad (5 grupos de edad diferentes) basado en los logs de navegación web que genera un usuario, en este caso con una muestra de México. La idea fundamental de este proyecto sería mejorar este producto y ampliarlo con nuevas fuentes de información que enriquezcan el conocimiento del usuario y nos permitan fortalecer la entrada al algoritmo de decisión del género o edad correspondiente.

• El contexto diferente de cada país, con la disponibilidad de ciertas fuentes de datos y productos específicos, hace especialmente interesante la propuesta de una solución modular, que no dependa de un conjunto de variables estándar sino que pueda adaptarse a la mayor disponibilidad posible por parte de la OB en los datos de entrada al problema.

• La propia definición del problema ofrece un doble reto: por un lado ayudar en el tratamiento de las fuentes de información disponibles y por otro, experimentar con diferentes técnicas y algoritmos de predicción para la consecución del mejor resultado posible.

• Hitos a cumplir: o Estudio del producto existente para género y el existente para edad (ahora mismo son independientes) o Propuesta de nuevas fuentes de datos de entrada: búsqueda de palabras, redes sociales, productos internos, Smart Steps o Análisis de los datos propuestos y correlación con el objetivo concreto o Sugerencia de distintos algoritmos y metodologías de selección de variables para su evaluación o Creación de la versión final del producto

RETO BIG DATA Del área del Chief Data Officer de Telefónica.

• Go To OB – 4th platform - CDO

• Gonzalo Durbán Díez de la Cortina / Director

� Perfiles

demandados

para desarrollar

el proyecto

• Data scientists, data engineers, expertos en visualización de datos

� Fuentes

proporcionadas

por Telefónica

para el

desarrollo del

proyecto

• Grupo de usuarios de redes sociales asociados a los identificadores de Telefónica, de forma que sirvan como ground truth sobre el que construir el modelo de matcheo entre ambas fuentes

� Links a

información

relevante

IDENTIFICACIÓN RRSS

� Descripción

detallada del

proyecto

• La información presente hoy en día en las redes sociales es básica para categorizar y entender los intereses de los usuarios. Existe un gap importante a la hora de incorporar estas fuentes de información públicas porque, aunque son fácilmente accesibles en la red, no hay una forma sencilla de conocer la correspondencia entre el usuario de una red social y el cliente de Telefónica.

• Este proyecto busca ampliar el número de usuarios para los que exista correspondencia entre su identificador en las redes sociales y el identificador de Telefónica, punto clave en la inclusión de nuevas fuentes de datos, abiertas, disponibles y cada vez más importantes para la comprensión de la información de clientes.

• Se pueden plantear distintas estrategias para la búsqueda de la relación por e-mail, búsqueda por nombres y apellidos, crawler sobre páginas como Linkedin, Twitter, Facebook… El uso de estas webs y sobre todo, de las APIs disponibles por su parte, será punto clave en la inclusión de las fuentes a considerar y de las redes sociales a estudiar.

• Hitos a completar: o Análisis de APIs disponibles y decisión de redes sociales a incorporar o Planteamiento de distintas estrategias de matching: por nombres y apellidos, e-mail, otros identificadores… o Obtención de cifras representativas para cada una de las opciones y medida de confianza asociada o Implementación de una o varias soluciones estudiadas

RETO BIG DATA Del área del Chief Data Officer de Telefónica.

• Go To OB – 4th platform - CDO

• Gonzalo Durbán Díez de la Cortina / Director

� Perfiles

demandados

para desarrollar

el proyecto

• Data scientists, data engineers, expertos en visualización de datos

� Fuentes

proporcionadas

por Telefónica

para el

desarrollo del

proyecto

• Fuentes utilizadas en el proyecto de normalización de datos asociado a la 4ª plataforma (bien con muestras o bien en modo conceptual sin ser necesarios los propios datos en crudo)

� Links a

información

relevante

• Enlace a la herramienta Metadata de la empresa Informática: https://www.informatica.com/products/informatica-platform/metadata-management.html#fbid=PyWNfoZx-pX

METADATA

� Descripción

detallada del

proyecto

• La 4ª plataforma tiene como elemento central el dato, clave en todo el diseño de la propia plataforma y en el aprovisionamiento del mismo. Para controlar las fuentes recibidas, los países presentes o faltantes y cualquier posible incidencia, planteamos este proyecto de una capa de metadatos que aporte conocimiento y valor.

• Se propone la creación de una página web o plataforma donde se registren los datos existentes desde los distintos países, para crear un dashboard que facilite la comprensión y la identificación de los mismos. La web mostrará las estadísticas básicas sobre ciertas variables que pueden ser configurables, un buscador de datos, KPIs básicos, gráficos explicativos… Se irán concretando los distintos elementos de la plataforma según el propio interés de Telefónica, las OBs y las sugerencias de los estudiantes.

• Se propone como referencia la herramienta Metadata de la empresa Informática (ver enlace en el apartado anterior) que ofrece funcionalidades similares a lo propuesto para el proyecto.

• Sería interesante considerar si este gestor de metadatos a nivel interno se puede ampliar para gestionar las consultas que el mismo usuario pueda realizar sobre sus propios datos.

• Hitos del proyecto: o Comprensión de las fuentes de datos y recopilación de lo existente o Generación de un modelo de metadatos con índices o Definición de las características básica del sitio web: tecnología, seguridad, gráficos o Creación de un motor de búsqueda por tipo de dato, agregaciones, periodos temporales, periodos específicos de tiempo… o Prueba conceptual con una muestra de datos antes de planificar la puesta “en producción” de la herramienta

RETO BIG DATA Del área del Chief Data Officer de Telefónica.

• Go To OB – 4th platform - CDO

• Gonzalo Durbán Díez de la Cortina / Director

� Perfiles

demandados

para desarrollar

el proyecto

• Data scientists, data engineers, expertos en visualización de datos

� Fuentes

proporcionadas

por Telefónica

para el

desarrollo del

proyecto

• Resultados de los productos internos de SNA y Mobility en un mismo periodo de tiempo para un mismo país

� Links a

información

relevante

Enlace a los product books explicativos de ambos productos:

• SNA: https://colabora.tid.es/analytics/Shared%20Documents/01.%20PRODUCTS/PRODUCT_BOOKS/2.Product_Summary/SNA/productbook_SNA.pptx

• Mobility: https://colabora.tid.es/analytics/Shared%20Documents/01.%20PRODUCTS/PRODUCT_BOOKS/2.Product_Summary/Mobility/productbook_mobility.pptx

SNAMOB

� Descripción

detallada del

proyecto

• El producto de SNA es una de las capacidades más demandadas y desplegadas en las distintas unidades de negocio del grupo Telefónica. Con él se estudian las interacciones entre clientes y competidores que aparecen en los registros de comunicaciones o CDRs y que nos muestran la vertiente social de nuestros clientes, no vistos como entes individuales sino como grupos de elementos que se relacionan entre sí.

• De estas relaciones y de la aplicación del concepto de afinidad, surge la comprobación de que la influencia se propaga a través de la red de clientes de forma más o menos rápida según sea iniciada por unos nodos u otros.

• Por otro lado, el producto Mobility nos aporta el punto de vista geolocalizado del usuario, estableciendo sus puntos de interés: casa, trabajo, ocio… y su área de influencia, de tal forma que podamos identificar su ubicación espacial con una precisión interesante de cara a la aplicación de ofertas o campañas personalizadas.

• Dentro de las propias OBs ha surgido con fuerza la demanda de fusión de ambos productos, de tal forma que podamos dar capacidad semántica a la creación de comunidades, distinguiendo gracias a la localización grupos distintos como pueden ser familias, amigos, compañeros de trabajo… y podamos concretar aún más el conocimiento de cliente y los insights obtenidos. Es por tanto que proponemos el estudio de la fusión de SNA + Mobility para la detección más certera de los grupos sociales presentes en nuestra red.

• Como complemento a esto, la creación de una herramienta de visualización propia o personalizada basada en otras soluciones existentes como GraphViz o Neo4j ayudará en la comprensión y categorización de resultados, añadiendo una capa de control que podrá ser utilizada fácilmente por las OBs.

• Hitos esperados: o Comprensión de los productos de SNA y Mobility o Algoritmo propuesto para la fusión de ambos o Resultados obtenidos y asignación de contenido semántico para los mismos o Creación de herramienta de visualización asociada

RETO BIG DATA Del área del Chief Data Officer de Telefónica.

• Go To OB – 4th platform - CDO

• Gonzalo Durbán Díez de la Cortina / Director

� Perfiles

demandados

para desarrollar

el proyecto

• Data scientists, data engineers, lingüistas (si es posible)

� Fuentes

proporcionadas

por Telefónica

para el

desarrollo del

proyecto

• Transcripciones de llamadas ya realizadas en Telefónica para su utilización como fuentes de texto. Dentro del amplio porcentaje de llamadas a considerar, se seleccionarán aquellas que tengan una mayor precisión para disminuir así la influencia del error y su propagación

� Links a

información

relevante

TRANSCRIPCIÓN DE VOZ

� Descripción

detallada del

proyecto

• El uso de la información proveniente de las llamadas de los clientes a los teléfonos de atención al cliente es un recurso no explotado en la actualidad por Telefónica y que almacena insights valiosos en cuanto a incidencias, reclamaciones, cobertura de red… a menudo complicados de obtener por otra vía. Así, este proyecto se enfocará en la resolución de algún caso de uso relacionado con el texto o la voz, demandado por las OBs, que ayude a perfilar y mejorar la utilidad de las transcripciones y de los modelos de procesado de lenguaje natural asociados a ellas.

• Las transcripciones de voz y el análisis de las palabras claves obtenidas puede tener un propósito de categorización o clasificación de las llamadas que ayude en el enrutamiento de las mismas en tiempo real.

• Otro posible caso de uso es la categorización de las mismas y la aplicación del sentiment analysis para definir el tipo de llamada en relación con la satisfacción o insatisfacción del cliente y reaccionar así de la forma adecuada.

• Se considerará el uso del deep learning como opción a evaluar y tener en cuenta, interesante también la comparación de los resultados obtenidos con algoritmos de machine learning tradicionales para evaluar el porcentaje de valor debido a los datos en sí mismos y el debido a las propias técnicas aplicadas sobre esos datos.

• Hitos a cumplir: o Obtención y selección de las transcripciones de llamadas disponibles, dentro del entorno del país y del periodo de tiempo acotado o Selección del caso de uso concreto en el que aplicar los conceptos de análisis de voz y/o texto o Prueba con varios algoritmos o métodos y comparativa de resultados obtenidos o Implementación definitiva y productivización de la solución

RETO BIG DATA Del área del Chief Data Officer de Telefónica.

• ElevenPaths – Telefónica Cyber Security Unit

• Rafa Sánchez – Security Analyst

� Perfiles

demandados

para desarrollar

el proyecto

• Conocimientos Big Data y algoritmos Machine Learning

• Consultor de redes

• Desarrollador

� Fuentes

proporcionadas

por Telefónica

para el

desarrollo del

proyecto

• Elementos de red con soporte IPFIX, Netflow, Jflow, NetStream, etc… Se proponen como ejemplo dos posibles opciones: o Firewalls PaloAlto virtuales o Balanceadores o routers de arquitecturas de backend de servicios web

• Estos elementos enviarían las métricas de tráfico a un colector BigData

� Links a

información

relevante

• Network anomaly detection (RIPE)

Threat traffic detection

� Descripción

detallada del

proyecto

• Objetivo: Detección de anomalías de tráfico de red que pudieran ser originadas por amenazas de seguridad. Se entrenarían los algoritmos Machine Learning con métricas del tráfico generado en un determinado punto de red. Una vez aprendido cómo es el tráfico habitual en un determinado entorno se detectarán flujos de tráfico que no encajen en lo esperado.

• Se plantean dos escenarios principales. o Análisis de tráfico de entrada y salida a Internet de una determinada red corporativa. Aquí sería un FW el que enviaría las

estadísticas de tráfico. El principal objetivo de este caso es la detección de malware en equipos de la red. o Análisis de tráfico generado en entornos de backend. En este caso se detectarían intentos de intrusión por parte de un atacante

que ha conseguido comprometer un elemento en una DMZ.

• Hito 1: Puesta en marcha del entorno de análisis, compuesto principalmente por: o Configuración de elementos que generan las métricas de tráfico a analizar o Repositorio donde se envían las métricas generadas o Configuración y puesta en marcha de algoritmos machine learning o Preparación de los procedimientos de aprendizaje supervisado de los algoritmos.

• Hito 2: Establecer parametrización de valores de tráfico a analizar. Aquí se establecerían los principales valores a tener en cuenta en la primera aproximación. Se tendrían en cuenta principalmente valores de red y valores temporales siguiendo un enfoque de detección de amenazas de seguridad.

• Hito 3: Puesta en marcha del proceso de aprendizaje supervisado de los algoritmos.

• Hito 4: Pruebas controladas de detección de amenazas en los entornos generados.

Ejemplo de casos que se pretenden detectar -> Exploit Kit que descarga ranwomware CERBER (http://www.malware-traffic-analysis.net/2016/10/11/index.html ):

RETO BIG DATA Del área del Chief Data Officer de Telefónica.

• Sistema para la realización de perfiles a través de capturas de red y Tacyt

• Seguridad en redes, análisis y segmentación de información.

• Sergio de los Santos

� Perfiles

demandados

para desarrollar

el proyecto

• Grado en informática, teleco o máster universitario.

� Fuentes

proporcionadas

por Telefónica

para el

desarrollo del

proyecto

• Tacyt y fuentes externas

� Links a

información

relevante

• https://www.elevenpaths.com/es/labsp/universidades/air-profiling-network-sistema-para-la-realizacion-de-perfiles-a-traves-de-capturas-de-red-y-tacyt/index.html

Air profiling network

� Descripción

detallada del

proyecto

Todo el tráfico que circula por una red deja un gran rastro e información de los hábitos y situaciones de las personas en su día a día. La incorporación del Smartphone en la vida diaria hace que el tráfico aumente y que datos privados de hábitos o usos del día a día queden expuestos a que alguien pueda procesarlos. Las redes WiFi inalámbricas no seguras instaladas en sitios abiertos y dónde las personas se conectan de forma masiva son un punto crítico dónde recopilar datos sobre los hábitos y datos privados de las personas. El presente proyecto propone el diseño e implementación de un sistema capaz de recibir capturas de red y procesarlos generando un perfil de los usuarios que aparecen en la captura. El objetivo es poder crear un Timeline del usuario y la utilización de la red a nivel de Internet

Todo el tráfico que circula por una red deja un gran rastro e información de los hábitos y situaciones de las personas en su día a día. La incorporación del Smartphone en la vida diaria hace que el tráfico aumente y que datos privados de hábitos o usos del día a día queden expuestos a que alguien pueda procesarlos. Las redes WiFi inalámbricas no seguras instaladas en sitios abiertos y dónde las personas se conectan de forma masiva son un punto crítico dónde recopilar datos sobre los hábitos y datos privados de las personas.

El presente proyecto propone el diseño e implementación de un sistema capaz de recibir capturas de red y procesarlos generando un perfil de los usuarios que aparecen en la captura. El objetivo es poder crear un Timeline del usuario y la utilización de la red a nivel de Internet. Los datos de interés son:

• Datos que pueden relacionar a un usuario con un dispositivo. Número de teléfono, direcciones MAC, Nombres de personas obtenidos a través de diferentes servicios.

• Datos que puedan provocar la inferencia de resultados sobre qué aplicaciones hay instaladas en un equipo o un dispositivo móvil. Estudio del protocolo DNS y creación de un pequeño motor de inferencia.

• Datos que pueden provocar la inferencia sobre los hábitos o gustos de los usuarios, por ejemplo las visitas a distintos sitios web, páginas de compras, de ocio, etcétera.

• Datos geográficos de la captura y el instante en el que se llevó a cabo la comunicación.

• Datos sobre la información del sistema operativo o dispositivo móvil utilizado.

Hitos:

• Control de las APIs de Tacyt y programación de analizador de red.

• Recoger muestras y análisis de tráfico de redes capturadas.

• Propuesta de procesado de datos y primeras pruebas.

• Realización de análisis final y conclusiones.

RETO BIG DATA Del área del Chief Data Officer de Telefónica.

• External Positioning and Big Data for Social Good (LUCA) – Aplicaciones en Educación

• Pedro A. de Alarcón Sanchez. Senior Data Scientist.

� Perfiles

demandados

para desarrollar

el proyecto

• Se requieren experiencia en procesar, analizar y visualizar datos con múltiples tecnologías (R, Python, Spark…).

� Fuentes

proporcionadas

por Telefónica

para el

desarrollo del

proyecto

• Datos abiertos disponibles en internet que proporcionen información del contexto en la ubicación de los cursos (indicadores sociodemográficos, desarrollo, educación, ambientales, salud…)

� Links a

información

relevante

� https://sustainabledevelopment.un.org/topics/education

Situación de la educación en el mundo

� Descripción

detallada del

proyecto

• Uno de los objetivos para el desarrollo sostenible declarados por Naciones Unidas es la promoción de una educación de calidad equitativa e inclusiva. No es un objetivo más, sino que de él dependen otros factores de desarrollo, con lo cual se constituye como un objetivo integral imprescindible para lograr un desarrollo sostenible.

• El objetivo de este proyecto es construir un mapa sobre el estado educativo global y su evolución que permita extraer conclusiones (descubrimiento de factores influyentes, imprescindibles, nocivos, etc.) y detectar oportunidades (experiencias de éxito en estrategias educativas, proyectos relevantes, efectos colaterales positivos, etc.) que afiancen y confirmen la educación como uno de los pilares fundamentales de la sociedad.

RETO BIG DATA Del área del Chief Data Officer de Telefónica.

• External Positioning and Big Data for Social Good (LUCA) – Aplicaciones sobre Open Data

• Pedro A. de Alarcón Sanchez. Senior Data Scientist.

� Perfiles

demandados

para desarrollar

el proyecto

• Se requieren experiencia en procesar, analizar y visualizar datos con múltiples tecnologías (R, Python, Spark…).

� Fuentes

proporcionadas

por Telefónica

para el

desarrollo del

proyecto

• Open data

� Links a

información

relevante

Mapa del estado de Open Data en el mundo

� Descripción

detallada del

proyecto

• Las instituciones públicas de todo el mundo, conscientes de la importancia y el volumen de los datos de que disponen, y de que en última instancia emanan de la gestión de los intereses de los usuarios, con lo cual pertenecen a ellos, están haciendo esfuerzos por inventariar esos datos, estructurarlos y ponerlos a disposición pública.

• Sin embargo el resultado final es una infinidad de fuentes heterogéneas de datos.

• El objetivo de este proyecto es aprovechar sinergias de iniciativas de intentariado y homgeneización ya existentes (OpenData Barometer, etc) para contribuir a su impulso mediante la aportación y formalización de datos abiertos en las regiones de influencia de Telefónica.

RETO BIG DATA Del área del Chief Data Officer de Telefónica.

• External Positioning and Big Data for Social Good (LUCA) – Aplicaciones sobre Open Data

• Pedro A. de Alarcón Sanchez. Senior Data Scientist.

� Perfiles

demandados

para desarrollar

el proyecto

• Se requieren experiencia en procesar, analizar y visualizar datos con múltiples tecnologías (R, Python, Spark…).

� Fuentes

proporcionadas

por Telefónica

para el

desarrollo del

proyecto

• Open data

� Links a

información

relevante

Integrando Open Data de los paises de UE

� Descripción

detallada del

proyecto

• Telefónica se ha constituido como agente activo en la promoción de los datos abiertos y está comprometida con su explotación con objetivos de servicio social más allá de la inmediatez de su utilidad económica.

• En el ámbito europeo hay una serie de fuentes de datos abiertos de utilidad relevante y recurrente que Telefónica quiere promover como palanca de acción social reutilizable por otras compañías o instituiciones. Por tanto, el objetivo que se persigue es demostrar la utilidad de estas fuentes con casos de uso prácticos en los que incluso se combinen con datos internos del negocio de Telefónica..

RETO BIG DATA Del área del Chief Data Officer de Telefónica.

• External Positioning and Big Data for Social Good (LUCA) – Aplicaciones para IoT

• Pedro A. de Alarcón Sanchez. Senior Data Scientist.

� Perfiles

demandados

para desarrollar

el proyecto

• Se requieren experiencia en procesar, analizar y visualizar datos con múltiples tecnologías (R, Python, Spark…).

� Fuentes

proporcionadas

por Telefónica

para el

desarrollo del

proyecto

• Sensorización de Telefónica en real time

• Open data feeds (twitter, tráfico, clima…)

� Links a

información

relevante

• http://www.developers.meethue.com/

Sincronización de datos en real time con Philips

Hue

� Descripción

detallada del

proyecto

• El sistema Hue Light de Philips consiste en una pasarela zigbee conectada con bombillas que pueden cambiar el color e intensidad de iluminación de las luces de forma programática. Esto permite sincronizar la iluminación con inputs externos, por ejemplo, música, luz del día... Objetivo: Se trata de conectar datos en tiempo real obtenidos de un input como twitter, actividad de parking, tráfico junto con modelos predictivos y traducirlo en cambios de iluminación. Por ejemplo, cambiar la iluminación cuando se acerque hora punta del tráfico.

RETO BIG DATA Del área del Chief Data Officer de Telefónica.

• External Positioning and Big Data for Social Good (LUCA) – Aplicaciones para Ciencia

• Pedro A. de Alarcón Sanchez. Senior Data Scientist.

� Perfiles

demandados

para desarrollar

el proyecto

• Se requieren experiencia en procesar, analizar y visualizar datos con múltiples tecnologías (R, Python, Spark…).

� Fuentes

proporcionadas

por Telefónica

para el

desarrollo del

proyecto

• Open data (Google Scholar, …)

� Links a

información

relevante

Visualización de publicaciones en Big Data

� Descripción

detallada del

proyecto

• Google Scholar es un servicio ofrecido por google para búsqueda de artículos científicos. Se puede consultar online aunque presenta ciertas barreras para hacer descarga masiva de resultados. Objetivo: Conseguir descargar un volumen significativo de datos de google scholar y elaborar visualizaciones interesantes (temas más publicados, por paises...). Además se puede buscar relaciones con Twitter, blogs...

RETO BIG DATA Del área del Chief Data Officer de Telefónica.

• External Positioning and Big Data for Social Good (LUCA) – Aplicaciones para Ciencia

• Pedro A. de Alarcón Sanchez. Senior Data Scientist.

� Perfiles

demandados

para desarrollar

el proyecto

• Se requieren experiencia en procesar, analizar y visualizar datos con múltiples tecnologías (R, Python, Spark…).

� Fuentes

proporcionadas

por Telefónica

para el

desarrollo del

proyecto

• Open data PubMed

� Links a

información

relevante

Visualización de publicaciones en PubMed

� Descripción

detallada del

proyecto

• PubMed es la fuente de información de referencia para publicaciones en el área médica (http://www.ncbi.nlm.nih.gov/pubmed), existen otros recursos similares para otras áreas (pej.: NASA: http://www.nasa.gov/open/researchaccess/pubspace). Objetivo: Hacer una análisis histórico de la evolución del tipo de publicaciones, por ejemplo, qué temas han sido más investigados en cada año (segun las referencias), relaciones entre artículos, predicción de nuevos tópicos hot, trayectoria de los paises y su impacto literario en pubmed (NOTA: Este reto está relacionado con el anterior)

RETO BIG DATA Del área del Chief Data Officer de Telefónica.

• External Positioning and Big Data for Social Good (LUCA) – Aplicaciones para Discovery & Insights

• Pedro A. de Alarcón Sanchez. Senior Data Scientist.

� Perfiles

demandados

para desarrollar

el proyecto

• Se requieren experiencia en procesar, analizar y visualizar datos con múltiples tecnologías (R, Python, Spark…).

� Fuentes

proporcionadas

por Telefónica

para el

desarrollo del

proyecto

• Datos de comunicaciones globales proporcionados por Telefonica

• Open Data

� Links a

información

relevante

Predicción del balance comercial entre paises a partir del tráfico de

llamadas entre los mismos

� Descripción

detallada del

proyecto

• Partimos de la hipótesis que las llamadas entre paises A --> B puede implicar una intención de A de realizar transacciones comerciales con B, lo cual debería traducirse en exportaciones (con unos meses de retraso). Objetivo: Verificar si se cumple esta hipótesis entre paises concretos y de forma generalizada.

RETO BIG DATA Del área del Chief Data Officer de Telefónica.

• External Positioning and Big Data for Social Good (LUCA) – Aplicaciones para Discovery & Insights

• Pedro A. de Alarcón Sanchez. Senior Data Scientist.

� Perfiles

demandados

para desarrollar

el proyecto

• Se requieren experiencia en procesar, analizar y visualizar datos con múltiples tecnologías (R, Python, Spark…).

� Fuentes

proporcionadas

por Telefónica

para el

desarrollo del

proyecto

• Open Data

� Links a

información

relevante

Visualization of Sustainable Development Goals

� Descripción

detallada del

proyecto

• Naciones unidas ha definido una serie de metas medibles en cuanto a sostenibilidad y desarrollo mundial en diferentes áreas (Pobreza, Educación, Salud, Derechos humanos...). Objetivo: Utilizar datos abiertos de UN/UNICEF para monitorizar visualmente inversiones de los paisesy regiones en estas metas, factores demográficos vs resultados conseguidos a lo largo del tiempo. Investigar si es posible predecir la evolución de estas métricas en función de otros factores que afectan al pais. Si se obtuvieran resultados este proyecto puede desarrollarse aun mas con colaboración de Naciones Unidas

RETO BIG DATA Del área del Chief Data Officer de Telefónica.

• External Positioning and Big Data for Social Good (LUCA) – Aplicaciones para Discovery & Insights

• Pedro A. de Alarcón Sanchez. Senior Data Scientist.

� Perfiles

demandados

para desarrollar

el proyecto

• Se requieren experiencia en procesar, analizar y visualizar datos con múltiples tecnologías (R, Python, Spark…).

� Fuentes

proporcionadas

por Telefónica

para el

desarrollo del

proyecto

• Open Data

� Links a

información

relevante

Análisis de datos sobre música y sus metadatos

� Descripción

detallada del

proyecto

• Explorar datasets de contenidos y consumo musical, por ejemplo en https://aws.amazon.com/datasets/million-song-dataset/ que contienen títulos de canciones, autor, estimación de "KPIs musicales" (tonalidad, tonalidad mayor/menor, frases, partes de la canción, ...), rankings en listas de audiencia/ventas... Objetivo: Encontrar insights interesantes, como ¿Se pueden extraer alguna característica o patrón en las canciones con más éxito?

RETO BIG DATA Del área del Chief Data Officer de Telefónica.

• External Positioning and Big Data for Social Good (LUCA) – Aplicaciones para Discovery & Insights

• Pedro A. de Alarcón Sanchez. Senior Data Scientist.

� Perfiles

demandados

para desarrollar

el proyecto

• Se requieren experiencia en procesar, analizar y visualizar datos con múltiples tecnologías (R, Python, Spark…).

� Fuentes

proporcionadas

por Telefónica

para el

desarrollo del

proyecto

• Open Data

� Links a

información

relevante

Análisis de datos sobre películas, sus metadatos y premios

� Descripción

detallada del

proyecto

• Existe abundante información estructurada en bases de datos de libre disposición como IMDB sobre películas (metadatos de actores, año de producción, pais, ratings de usuarios, premios…).

• Objetivo: Relacionar diferentes fuentes para obtener insights no triviales. Por ejemplo: ¿Qué puede predecir mejor la recaudación de una película, la temática o el reparto? Se trata de un proyecto de exploración de datos donde las propias preguntas surgirán de dicha exploración y se intentaran resolver usando ciencia de datos y visualizacion

RETO BIG DATA Del área del Chief Data Officer de Telefónica.

• External Positioning and Big Data for Social Good (LUCA) – Aplicaciones para Discovery & Insights

• Pedro A. de Alarcón Sanchez. Senior Data Scientist.

� Perfiles

demandados

para desarrollar

el proyecto

• Se requieren experiencia en procesar, analizar y visualizar datos con múltiples tecnologías (R, Python, Spark…).

� Fuentes

proporcionadas

por Telefónica

para el

desarrollo del

proyecto

• Datos de comunicaciones globales proporcionados por Telefonica

• Open Data

� Links a

información

relevante

Modelización de relación entre paises según patrones de llamadas internacionales

� Descripción

detallada del

proyecto

• Telefonica dispone de un gran volumen de información sobre llamadas internacionales. Esto permite generar series temporales de datos agregados entre dos paises cualesquiera (numero de llamadas, duración media …). A su vez, se han observado que ciertos eventos de envergadura global (desastres naturales, brexit...) alteran los patrones comunes de llamadas entre paises. Objetivos: Sería interesante modelizar las relaciones entre paises en función al volumen y patrones de llamadas, atendiendo a diferentes cortes en los datos (horarios laborales, dias festivos...), de esta forma se podría construir una serie de "comunidades" entre paises de acuerdo a la temporalidad y patrones de llamadas así como extraer insights sobre cómo las llamadas entre paises se ven afectadas por eventos de escala global o nacional.Otra aplicación puede ser generar modelos predictivos de tráfico internacional según estacionalidad, paises...