26
Tema II.2: Modelado y Análisis de datos Maestría: Sistemas de Soporte para Toma de Decisiones

Tema II.2: Modelado y Análisis de datos

  • Upload
    others

  • View
    5

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Tema II.2: Modelado y Análisis de datos

Tema II.2: Modelado y Análisis de datos

Maestría: Sistemas de Soporte para Toma de Decisiones

Page 2: Tema II.2: Modelado y Análisis de datos

Contenido

• Datawarehouse

• Datamining

• Metodología

Objetivos: Identificar los modelos y los procedimientos para formulación y resolución de problemas de análisis de decisiones.Indice:

Page 3: Tema II.2: Modelado y Análisis de datos
Page 4: Tema II.2: Modelado y Análisis de datos

3. La Toma de Decisiones 4

En la vida real nos encontraremos con problemas del tipo:

• Tenemos que optar por una herramienta de desarrollo,

• Hay que seleccionar a un candidato para trabajar en nuestra empresa.

• Hay que decidirse por un examen de dos que coinciden en fecha y hora...

Page 5: Tema II.2: Modelado y Análisis de datos

3. La Toma de Decisiones 5

Qué significa esto

• Como personas, tomamos decisiones constantemente.

• No todas las decisiones requieren de un proceso estricto. Puede ser que no este ni estructurada la situación.

• Si un ciempiés tuviese que decidir de forma no instintiva sus patas, no se movería.

Page 6: Tema II.2: Modelado y Análisis de datos

Data Mining – Tradicionalmente"Data mining es la extracción de información implícita, previamente

desconocida y potencialmente útil desde los datos".

Witten & Frank (2000). Data Mining.

"La aplicación de algoritmos específicos para extraer patrones de datos, es una parte de descubrimiento de conocimiento de bases de datos"

Fayyad (1997). From data mining to knowledge discovery in databases.

Page 7: Tema II.2: Modelado y Análisis de datos

Data Mining – Tradicionalmente

• Computer Science• (Semi-)automated application of

algorithms for pattern discovery

• Algorithms developed in the field of Artificial Intelligence (machine learning)

• Part of the process of knowledge discovery

• Statistics• Process of discovering patterns in

data

• (Manual) application of a series of statistical techniques (among which machine learning)

• Incorporates

• Exploration

• Sampling

• Modeling

• Validation

Data mining = Statistics + MarketingData mining = Statistics + Marketing

Page 8: Tema II.2: Modelado y Análisis de datos

Data Mining –Fusion

“Una actividad de extracción de información cuyo objetivo es descubrir hechos ocultos contenidos en las bases de datos. Usando una combinación de máquina de aprendizaje, análisis estadísticos, modelos, técnicas y tecnología de base de datos, minería de datos encuentra patrones y sutiles relaciones de datos y deduce reglas que permiten la predicción de resultados futuros.“

Rudjer Boskovic Institute (2001). DMS Tutorial.

Page 9: Tema II.2: Modelado y Análisis de datos

Proceso de Data Mining Process

•Estos algoritmos son sólo parte de un proceso que equipo científicos que descubrimiento de conocimiento y los estadísticos de la llaman minería de datos

•El proceso comienza con el reconocimiento de un problema y termina con el control de una solución desplegada en que todo

•El proceso debe ser apoyo para una aplicación exitosa

Page 10: Tema II.2: Modelado y Análisis de datos

Datamart

• Un Datamart es una base de datos departamental, especializada en el almacenamiento de los datos de un área de negocio específica. Se caracteriza por disponer la estructura óptima de datos para analizar la información al detalle desde todas las perspectivas que afecten a los procesos de dicho departamento.

• Un datamart puede ser alimentado desde los datos de un datawarehouse, o integrar por si mismo un compendio de distintas fuentes de información.

• Por tanto, para crear el datamart de un área funcional de la empresa es preciso encontrar la estructura óptima para el análisis de su información, estructura que puede estar montada sobre una base de datos OLTP, como el propio datawarehouse, o sobre una base de datos OLAP. La designación de una u otra dependerá de los datos, los requisitos y las características específicas de cada departamento. De esta forma se pueden plantear dos tipos de datamarts

Page 11: Tema II.2: Modelado y Análisis de datos

Tipos DatamartDatamart OLAP

• Se basan en los populares cubos OLAP, que se construyen agregando, según los requisitos de cada área o departamento, las dimensiones y los indicadores necesarios de cada cubo relacional. El modo de creación, explotación y mantenimiento de los cubos OLAP es muy heterogéneo, en función de la herramienta final que se utilice.

Datamart OLTP

• Pueden basarse en un simple extracto del datawarehouse, no obstante, lo común es introducir mejoras en su rendimiento (las agregaciones y los filtrados suelen ser las operaciones más usuales) aprovechando las características particulares de cada área de la empresa. Las estructuras más comunes en este sentido son las tablas report, que vienen a ser fact-tables reducidas (que agregan las dimensiones oportunas), y las vistas materializadas, que se construyen con la misma estructura que las anteriores, pero con el objetivo de explotar la reescritura de queries (aunque sólo es posibles en algunos SGBD avanzados, como Oracle).

Los datamart que están dotados con estas estructuras óptimas de análisis presentan las siguientes ventajas:

• Poco volumen de datos

• Mayor rapidez de consulta

• Consultas SQL y/o MDX sencillas

• Validación directa de la información

• Facilidad para la historización de los datos

Page 12: Tema II.2: Modelado y Análisis de datos

Bases de datos OLTP y OLAP

OLTP - On-Line Transactional Processing

• Los sistemas OLTP son bases de datos orientadas al procesamiento de transacciones. Una transacción genera un proceso atómico (que debe ser validado con un commit, o invalidado con un rollback), y que puede involucrar operaciones de inserción, modificación y borrado de datos. El proceso transaccional es típico de las bases de datos operacionales.• El acceso a los datos está optimizado para tareas frecuentes de lectura y escritura.

(Por ejemplo, la enorme cantidad de transacciones que tienen que soportar las BD de bancos o hipermercados diariamente).

• Los datos se estructuran según el nivel aplicación (programa de gestión a medida, ERP o CRM implantado, sistema de información departamental...).

• Los formatos de los datos no son necesariamente uniformes en los diferentes departamentos (es común la falta de compatibilidad y la existencia de islas de datos).

• El historial de datos suele limitarse a los datos actuales o recientes.

Page 13: Tema II.2: Modelado y Análisis de datos

Bases de datos OLTP y OLAP

OLAP - On-Line Analytical Processing

• Los sistemas OLAP son bases de datos orientadas al procesamiento analítico. Este análisis suele implicar, generalmente, la lectura de grandes cantidades de datos para llegar a extraer algún tipo de información útil: tendencias de ventas, patrones de comportamiento de los consumidores, elaboración de informes complejos… etc. Este sistema es típico de los datamarts.• El acceso a los datos suele ser de sólo lectura. La acción más común es la consulta, con

muy pocas inserciones, actualizaciones o eliminaciones.

• Los datos se estructuran según las áreas de negocio, y los formatos de los datos están integrados de manera uniforme en toda la organización.

• El historial de datos es a largo plazo, normalmente de dos a cinco años.

• Las bases de datos OLAP se suelen alimentar de información procedente de los sistemas operacionales existentes, mediante un proceso de extracción, transformación y carga (ETL)

Page 14: Tema II.2: Modelado y Análisis de datos

Datamining (Minería de datos)

• El datamining (minería de datos), es el conjunto de técnicas y tecnologías que permiten explorar grandes bases de datos, de manera automática o semiautomática, con el objetivo de encontrar patrones repetitivos, tendencias o reglas que expliquen el comportamiento de los datos en un determinado contexto.

• Básicamente, el datamining surge para intentar ayudar a comprender el contenido de un repositorio de datos. Con este fin, hace uso de prácticas estadísticas y, en algunos casos, de algoritmos de búsqueda próximos a la Inteligencia Artificial y a las redes neuronales.

• De forma general, los datos son la materia prima bruta. En el momento que el usuario les atribuye algún significado especial pasan a convertirse en información. Cuando los especialistas elaboran o encuentran un modelo, haciendo que la interpretación que surge entre la información y ese modelo represente un valor agregado, entonces nos referimos al conocimiento.

Page 15: Tema II.2: Modelado y Análisis de datos

Etapas Datamining

Aunque en datamining cada caso concreto puede ser radicalmente distinto al anterior, el proceso común a todos ellos se suele componer de cuatro etapas principales:• Determinación de los objetivos. Trata de la delimitación de los objetivos que el cliente

desea bajo la orientación del especialista en data mining.• Pre procesamiento de los datos. Se refiere a la selección, la limpieza, el enriquecimiento,

la reducción y la transformación de las bases de datos. Esta etapa consume generalmente alrededor del setenta por ciento del tiempo total de un proyecto de data mining.

• Determinación del modelo. Se comienza realizando unos análisis estadísticos de los datos, y después se lleva a cabo una visualización gráfica de los mismos para tener una primera aproximación. Según los objetivos planteados y la tarea que debe llevarse a cabo, pueden utilizarse algoritmos desarrollados en diferentes áreas de la Inteligencia Artificial.

• Análisis de los resultados. Verifica si los resultados obtenidos son coherentes y los coteja con los obtenidos por los análisis estadísticos y de visualización gráfica. El cliente determina si son novedosos y si le aportan un nuevo conocimiento que le permita considerar sus decisiones.

Page 16: Tema II.2: Modelado y Análisis de datos

Ejercicios

• Polución China

• Cata de Vinos

• Empresa de Telecomunicaciones

Page 17: Tema II.2: Modelado y Análisis de datos

CRISP-DM

• CRISP-DM: Cross-Industry Standard Process for Data Mining

• Consortium effort involving:• NCR Systems Engineering Copenhagen

• DaimlerChrysler AG

• SPSS Inc.

• OHRA Verzekeringen en Bank Groep B.V

• History:• Version 1.0 released in 1999

• Version 2.0 being developed

• See www.crisp-dm.org for details

Page 18: Tema II.2: Modelado y Análisis de datos

Phases of CRISP-DM

• Not linear, repeatedly backtracking

Page 19: Tema II.2: Modelado y Análisis de datos

Fases y Tareas

BusinessUnderstanding

DataUnderstanding

DataPreparation

Modeling DeploymentEvaluation

FormatData

IntegrateData

ConstructData

CleanData

SelectData

DetermineBusiness

Objectives

ReviewProject

ProduceFinal

Report

Plan Monitering&

Maintenance

PlanDeployment

DetermineNext Steps

ReviewProcess

EvaluateResults

AssessModel

BuildModel

GenerateTest Design

SelectModelingTechnique

AssessSituation

ExploreData

DescribeData

CollectInitialData

DetermineData Mining

Goals

VerifyData

Quality

ProduceProject Plan

Page 20: Tema II.2: Modelado y Análisis de datos

Tareas clave de DM?• Tareas clave DM cubiertas por una DB antigua de DM

son:

• Predictive Modeling (Classification)

• Segmentation (Clustering)

• Association (Data Summarization)

• Sequence and Deviation Analysis

• Dependency Modeling

Page 21: Tema II.2: Modelado y Análisis de datos

Qué es XML for Analysis?

• XML for Analysis es un conjunto de Interfaces de mensaje XML que utiliza el estándar SOAP para definir los datos de acceso y de interacción entre una aplicación cliente y un proveedor de datos analíticos (OLAP y minería de datos) para trabajar por Internet.

Page 22: Tema II.2: Modelado y Análisis de datos

History of XMLA

2000 2001 2002 2003

Hyperion & Microsoft Announce Co-Sponsorship of XMLA Specification

SAS Joins Council

First XMLA CouncilMeeting (creation of SIG teams)

Microsoft Releases SDK

Version 1.0 Released

Version 1.1 Released

Version 1.2 (TBD)

Apr Nov MayAprApr Sep

InterOperate Workshop I

InterOperate Workshop II

Mar

Second XMLA CouncilMeeting

1st Public XMLAInterOperabilityDemonstration(TDWI)

Page 23: Tema II.2: Modelado y Análisis de datos

Model Statistics

• Elements

• UnivariateStatistics

• Attributes• Field

• Elements• Discrete Statistics

• Continuous Statistics

• Counts: Valid, Invalid and Missing counts

• NumericInfo: min/ max/ mean/ standard deviation/ median/ interQuartileDistance

Page 24: Tema II.2: Modelado y Análisis de datos

Supported Data Mining Models

• Tree Model

• Neural Networks

• Clustering Model

• Regression Model

• General Regression Model

• Naïve Bayes Model

• Association Rules

• Sequence Rule Model

Page 25: Tema II.2: Modelado y Análisis de datos

Sequence Model

• Representa la salida de secuencia DM

• Attributes• modelName

• functionName

• algorithmName

• numberOfTransactions

• minimumSupport

• minimumConfidence

• lengthLimit

• …..

• Elements• Sequence Rule

• Elements

• Antecedent Sequence

• sequenceReference

• Consequent Sequence

• Delimiter

• Sequence

• Elements

• SetReference

• Delimiter

• Set Predicate

• Array

Page 26: Tema II.2: Modelado y Análisis de datos

Bibliografía

• Turban, Aronson, Liang, Decision Support System and Intelligent System 7th Ed, Prentice Hall,2007

• Gallagher, Watson, Métodos Cuantitativos Para la Toma de Decisiones en Administración, McGraw Hill, 2000

• Bierman, Bonini, Hausman, Análisis cuantitativo para la toma de decisiones, McGraw HIll, 2000

• Cohen, Asín, Sistemas de Información para la toma de Decisiones 3th Ed., McGraw HIll, 2002

• LAUDON, Kenneth C. y Jane, Sistemas de información gerencial, 12ª. Ed., México, Pearson, 2012

• Lluis Cano, Business Intelligence-Competir con Información, Banesto-ESADE, 2002.• García, Molina, Data Mining v5, U. Carlos III de Madrid, 2012• Pete Chapman (NCR), Julian Clinton (SPSS), Randy Kerber (NCR), Thomas Khabaza

(SPSS), Thomas Reinartz, (DaimlerChrysler), Colin Shearer (SPSS) and RüdigerWirth (DaimlerChrysler) “CRISP-DM 1.0 - Step-by-step data mining guide”