Upload
reinaldo-soria
View
220
Download
0
Embed Size (px)
Citation preview
La Operacional—el día a día de la empresa•Automatizar la rutina, tareas previsibles•Tiempo de respuesta en segundos•Transacciones individuales con alcance
limitado•Énfasis sobre la entrada de los datos•Datos distribuidos en aplicaciones críticos
Ejemplos: Contabilidad, Facturación, Gestión de Almacen, Ventas-TPV, Sistema de Ventas, Nomina, Pedidos, Recaudación, Gestión de Campañas, Expedición de Billetes, Centro de Llamadas ...
Necesidades de Negocio:Sistema Operacional
Introduccióna DSS y DW
La Informacional—Sistema de Soporte de Decisiones (DSS)
•Exploración, análisis y presentación de información o conocimientos
•Pocas consultas pero muy intensivas y de considerable alcance
•Naturaleza de las consultas no es previsibles•Enfasis sobre obtención de información o
conocimiento•Avanzar en la competividad estratégica de la
organización
Ejemplos: Consultas, Data Mining, Estadísticas Descriptivos, EIS, Generadores de Informes, OLAP ...
Necesidades de Negocio:Sistema de Información
Introduccióna DSS y DW
Ejemplos de Objetivos de un Sistema de Información
•Análisis de Churn•Análisis de Clickstream•Análisis de Riesgos•Análisis de Segmentación de Mercados,
Clientes, ...•Análisis de Tráfico de Redes (Llamadas)•Análisis de Turn-Over•Análisis de Venta-Cruzada•Definición y Predicciones de Comportamientos•Perfiles de Usuarios, Clientes, Consumidores, …•Perfiles y Análisis de Garantía•Perfiles y Detección de Fraude•Rendimiento de Clientes y Productos
Introduccióna DSS y DW
Operacional• Control de la Cadena
Logística (Existencias, Pedidos y Entregas)
• Facturación
• Fidelización de Clientes
• Gestión de Contactos• Gestión de Pacientes• Marketing (Gestión de
Campañas)• Producción• Recursos Humanos• Tesorería
• Ventas
El día a día de la empresa
Analítica• Análisis de Carga de la Red• Análisis de Logística• Análisis y Proyección Financiera• Detección y Análisis de Fraudes• Análisis de Cesta de la Compra• Perfiles y Análisis de Garantías• Análisis de Reclamaciones• Perfiles y Análisis de Pacientes• Análisis y Segmentación de
Mercado• Análisis de Producción y Calidad• Análisis y Segmentación de
Población• Análisis de Inversiones• Análisis de Riesgo• Análisis de Tráfico (Llamadas) de
la Red• Análisis de Venta Cruzada
Ventajas Estratégicas de los Datos
Aplicaciones Operacionales y Analíticas
Introduccióna DSS y DW
•Los sistemas operacionales o de producción están ocupados constantemente durante el día con el trabajo operacional (On-line) y durante la noche con procesos batch
•Los sistemas OLTP no pueden estar reservados para DSS durante el día, imposible parar el OLTP sin repercusiones graves para la empresa
•Un sistema adicional exclusivamente para DSS con la arquitectura de OLTP no resuelve el problema—arquitectura de modelo de datos
¿Por qué no existe fácilmente DSS?
Introduccióna DSS y DW
Procesos de los DatosIntroduccióna DSS y DW
SistemaOperacional
SistemaInformacional
DW
Datos
DataMart
AnálisisLectura/Escritura
Solo lectura
Consulta/Respuesta
• Arquitecturas• Sistema Operacional• Sistema de Soporte de Decisiones (DSS)• Operacional Data Store (ODS)
• Objetivos de Análisis y Modelos de Datos• Diseño de Procesos y Aplicaciones• Planificación del Proyecto: Los dos partes, el
Data Warehouse (DW) y el Análisis• Metodología y Herramientas de DW• Metodología y Herramientas de Análisis
Mientras que la construcción y mantenimiento del DW es un trabajo mayoritariamente informático, el Análisis no es, el Análisis es un trabajo de investigación
Algunas Consideraciones en un Proyecto DSS o DW
Introduccióna DSS y DW
• Incremento en el alcance histórico de los datos (años de datos, no días, semanas o meses)
• Incremento en la “granularidad” de los datos, almacenamiento posible a nivel de detalle (documentos individuales con agregaciones o resúmenes pero siempre con la posibilidad de rollback)
Grandes volúmenes de datos Grandes preguntas
El Futuro VoluminosoIntroduccióna DSS y DW
Granularidad (años, estaciones, trimestre, meses, semanas, días, horas, segundos, milisegundos ... )
Fijación (año real o año de negocio, estaciones ... )
Múltiples versiones de tiempos de datos•Base de Datos Bitemporal
• Tiempo efectivo o tiempo valido• Tiempo registrada o tiempo de
transacción
• Tiempo definido por el usuario
Un Asignatura Pendiente, el Tiempo y el Base de Datos Temporal
Introduccióna DSS y DW
Ficherosoperacionales
Mecanismos de acceso
FicherosIntermedios
Adquisición Job Streams(Programas)
Almacén(Data Warehouse)
Espaciode Trabajo
Accesos(Herramientas y aplicaciones)
Ficheros intermedios
Ficheros intermedios
3
10
4
21
5
6
7
8
9
12
11
13
Arquitectura del SistemaIntroduccióna DSS y DW
1 - Identificación de los datos críticos de negocio para el Data Warehouse2 - Programas de adquisición mapping, transformación,
limpieza,clasificación, validación, referencias cruzadas, formateo, funciones de almacenamiento, etc.
3 - Programas de “Back-flush” para devolver datos limpios a los sistemas fuente
4 - Desarrollo de los programas para el operacional / Sistemas fuentes5 - Datos preparados para cargarse en el warehouse6 - Carga de la Base de datos en las tablas relacionales7 - Generación de tablas de almacenamiento con datos sumariados,
referencias cruzadas8 - Creación y carga de tablas de trabajo (Data Marts).9 - Actualizaciones periódicas que afectan a la fase de adquisición10 - Envía contenidos del espacio de trabajo al fichero intermedio para
incluirse en la siguiente recarga / refresco del warehouse principal11 - Aplicaciones y herramientas de acceso de usuario final12 - Debe incluir mecanismos de reacción13 - Cualquier cambio específico para su incorporación eventual en el
Warehouse principal
Procesos y AplicacionesIntroduccióna DSS y DW
•Estructuras de datos fuente•Alineación de la transformación de datos•Definir las reglas de transformación (funciones
de conversión, conversiones semánticas-tablas de codificación, funciones definidas por usuario)
•Validación de las fuentes de datos•“Matching” (emparejar)• Intercalar, limpiar y mejorar hasta una vista
consolidada o registro integrado (esquema compuesto)
•Mapping de las estructuras de almacenamiento•Transformar datos para su destino•Recomendaciones para procesos “Back-flush”
Detalles de AdquisiciónIntroduccióna DSS y DW
• Identificación de los datos•Modelo de datos•Diseño de la base de datos•Fuentes de datos•Validación de la integridad de los datos•Sincronización de los datos•Desarrollar un proceso “Back-flush” para el
operacional•Desarrollar la arquitectura de almacenamiento
de datos•Mapping y transformación de datos•Recogida de métricas de datos•Desarrollo de la solución
Disciplina con los DatosIntroduccióna DSS y DW
Espacios Computacionales: Análisis de verificación de hipótesis basadas en la intuición (1)1) Informes y Consultas—[variables y observaciones : cuantitativo]
Estas técnicas comprenden análisis, consultas y generación de informes que extraen la información contenida en los datos. Incluye los Sistemas de Información Ejecutiva (EIS).
2) Agregación y familia OLAP—[agrupación aritmética : cuantitativo]A estas técnicas se llega a través de procesos iterativos e interactivos, cálculos recursivos y manipulación exploratoria de los datos.
Incluye el Análisis Multidimensional (MDA), el Procesamiento Analítico Interactivo (OLAP), el Procesamiento Analítico Interactivo Relacional (ROLAP), el Procesamiento Analítico Interactivo Multidimensional (MOLAP) y técnicas exploratorias de datos como drill-down, drill-up y drill-through.
3) Cálculo Diferencial—[variaciones e intergración : cuantitativo]Cálculo de probabilidad de ocurrencia de un determinado suceso.Modelado de series temporales.
Introduccióna DSS y DW
Espacios Computacionales: Análisis de verificación de hipótesis basadas en la intuición (2)4) Geometría Posicional—[geometría : cuantitativo]
Representación geométrica de características medidas sobre los elementos objeto de estudio mediante un Sistema de Información Geográfica (GIS).
5) Perspectiva Cualitativa—[variables y observaciones : cualitativo]Conlleva los conceptos de tomar nota de objetos, recoger objetos y reflexionar sobre los objetos
Es un proceso:• iterativo y progresivo• recursivo• cada paso del proceso contiene el proceso entero
La codificación de los objetos permite aplicar la técnica adecuada para el estudio que se desee realizar sobre los datos incluida en cualquiera de los espacios computacionales anteriores
Introduccióna DSS y DW
Espacios Computacionales: Análisis basada en técnicas híbridas
6) Métodos Comparativo—[reducción de datos : cuantitativo y cualitativo]
Basado en la teoría de conjuntos, esta técnica incluye el análisis comparativo tanto de casos como de variables y observaciones. Los datos tanto cualitativos como cuantitativos son agrupados en conjuntos para ser comparados a nivel micro o macro social utilizando matemática Booleana.
Introduccióna DSS y DW
Espacios Computacionales: Análisis basado en el descubrimiento
7) Descubrimiento—[influencia y lógica : cuantitativo y cualitativo]El análisis exploratorio de datos (EDA), la minería de datos (data mining) y los agentes inteligentes extraen significados y nuevos conocimientos de vastas cantidades de información
Se basan en algoritmos, emparejamiento de patrones, patrones heurísticos de reconocimiento de reglas, redes neuronales e inteligencia artificial
Se utilizan las técnicas:• clasificación y estimación• reglas de inducción o árboles de decisión• cluster o agrupación• reglas de asociación• análisis secuencial• razonamientos heurísticos• lógica difusa “fuzzy logic”• algoritmos genéticos• transformaciones basadas en fractales• análisis de categorización
Introduccióna DSS y DW
Funciones, Algoritmos y Aplicaciones a través de Data Mining
Asociaciones Estadísticas, Teoría de conjuntos Análisis de la cesta de compra
Clasificación Árboles de decisión, Marketing preciso, Control deRedes neuronales calidad, Valoración de riesgos
Agrupación Estadísticas, Redes neuronales Segmentación de mercado, Reutilización del diseño
ModelizaciónRegresión lineal y no-lineal, Ranking / Puntuaciones en,Acoplamiento de curva clientes, Modelos de precios, Redes neuronales Control de procesos
Patrones Estadísticas, Teoría de Análisis de la cesta de comprasecuenciales conjuntos en el tiempo
Series Modelos estadísticos ARMA, Pronóstico de ventas, Pronósticotemporales Box-Jenkins, Redes neuronales de interés, Predicción de ratios,
Control de inventario
Funciones Algoritmos Aplicaciones Ejemplos
Introduccióna DSS y DW
Perfiles como Objetivo:Visualización vía OLAP
1) Medida de Recente—periodicidad de visitas: horas? días? semanas?
2) Frecuencia —cuantas veces3) Intensidad —total de compras u otro indicador
cuantitativa
Bajo Alto
Alto
Bajo
Alto
BajoIntensidad
Recente
Frecuencia
Introduccióna DSS y DW
Identificación de Patrones
Optimización genética
Código genético
Series temporales combinadas
y Patrones casuales
Tendencias ypatrones
estacionales
Patrones casuales
no lineales
Patronescasualeslineales
Estructuras flexibles
Estructurasrígidas
Redes neuronales
Teoría de señales y
análisis espectral
Lógicadifusa
Teoría de Mate.Estadistica y
probabilidades
Empareja-miento parcial
Aproxima-ciones
biotécnicas
Análisis combinatorio
Introduccióna DSS y DW
Accrue HitList, powerful and flexible server log analysis with over 300 report elements. Analog (from Dr. Stephen Turner), a free and fast program to analyse the web server logfiles (Win, Unix, more) ANGOSS KnowledgeWebMiner, combines ANGOSS KnowledgeSTUDIO with proprietary algorithms for clickstream analysis,
Acxiom Data Network, and interfaces to web log reporting tools. Blue Martini Customer Interaction System's Micro Marketing module collects clickstreams at the application server level, transforming
them to the data warehouse, and provides mining operations.Clementine offers sequence association and clustering used for Web data analysis. CustomerConversion from Quadstone, customer-centric analysis and graphical reporting of web and other data. Data Mining Suite, Discovers patterns of user activity on web-sites by using an intelligent visit characterizer which takes a long trail of
activities and automatically characterizes it to a synopsis. EasyMiner, features Cross-session analysis ; Click-stream analysis; Cross-sales; by MINEit Software. prudsys ECOMMINER: combined clickstream and database analysis for e-commerce Megaputer WebAnalyst, integrates the data and text mining capabilities of Megaputer's analytical software directly into your website. MicroStrategy Web Business Analyzer , features a friendly GUI, workflow wizards and a full set of pre-packaged analytical modules
and reports net.Analysis (from net.Genesis), e-business intelligence solution, providing the superior scalability required by large e-business
enterprises. NetTracker family, powerful and easy-to-use Internet usage tracking programs, from Sane Solutions. SAS Webhound, analyzes Web site traffic to answer questions like: who is visiting; how long do they stay? What are they looking at? Torrent WebHouse, providing high-performance clickstream transformation, customized web reporting and clickstream analysis, and
more. WebManage Enterprise Reporter, a comprehensive web site reporting and log analysis tool with support for multiple servers and
ODBC. WebTrends, a suite for Data Mining of web traffic information. WUM 6.0, an integrated environment for log preparation, querying and visualization. XAffinity(TM), for identifying affinities or patterns in transaction and click stream data
Herramientas de Web Mining o Clickstream
Introduccióna DSS y DW
En un análisis de sensibilidad el resultado es la
importancia de las variables independientes en la predicción.
Análisis por descubrimiento con Clementine
Nodo resultado del proceso de
de análisis planteado
Introduccióna DSS y DW
Análisis por descubrimiento conClemetine
Perfil de la sesión de los navegantes del
fin de semana
Clusters o grupos homogéneos de
navegantes
Introduccióna DSS y DW
Mínimo nivel de confianza para las
reglas
Mínimo número de casos de una regla y número máximo de condiciones en una
regla
Tipos de reglas
Definición de parámetros para el informe de reglas
Análisis por descubrimiento conWizRule
Introduccióna DSS y DW
Informe de ReglasLista de reglas del tipo If-Then
Contenido de un registro
que se desvía de la regla
Índice de campo, aparecen los campos utilizados y el número
de regla donde se utiliza
Análisis por descubrimiento conWizRule
Introduccióna DSS y DW
82
7165
125
100
77
123
58
77
20
76
41
Entre las páginas de entrada, el menú es
la de mayor aceptación.
Las páginas informativas del
portal son las que retienen durante
más tiempo al navegante.
Análisis por Hipótesis: Páginas de Aceptación
Tiempo medio de permanencia en la página (segundos)
Introduccióna DSS y DW
La relación entre el tiempo transcurrido
en servir las peticiones a los
navegantes y los bytes enviados es
aleatoria.
A partir de éste gráfico se pueden
identificar posibles páginas de rechazo
por el elevado tiempo transcurrido en
servirlas.
Análisis por Hipótesis: Dispersión
TiempoTranscurrido
400000
200000
100000
80000
60000
40000
20000
Byt
esE
nvia
dos
200000
100000
50000400003000020000
10000
5000400030002000
1000
500400300200
100
/Europa/PROREC/Contenido_description.htm
/Europa/Labortel/Principal.htm
(en escala logarítmica)
(en
esca
la lo
garí
tmic
a)
Introduccióna DSS y DW