36
Borrador Tesis V0.2 LA INTELIGENCIA DE NEGOCIOS BASADA EN EL PROCESO UNIFICADO EDWAR JAVIER HERRERA OSORIO UNIVERSIDAD NACIONAL DE COLOMBIA FACULTAD DE INGENIERIA DEPARTAMENTO DE INGENIERÍA E INDUSTRIAL BOGOTÁ D.C. 2009

TesisV0.2

Embed Size (px)

Citation preview

Page 1: TesisV0.2

Borrador Tesis V0.2

LA INTELIGENCIA DE NEGOCIOS BASADA EN EL PROCESO UNIFICADO

EDWAR JAVIER HERRERA OSORIO

UNIVERSIDAD NACIONAL DE COLOMBIA

FACULTAD DE INGENIERIA DEPARTAMENTO DE INGENIERÍA E INDUSTRIAL

BOGOTÁ D.C. 2009

Page 2: TesisV0.2

Borrador Tesis V0.2

LA INTELIGENCIA DE NEGOCIOS BASADA EN EL PROCESO UNIFICADO

EDWAR JAVIER HERRERA OSORIO

Tesis de grado para optar el título de

Magíster en Ingeniería de sistemas y Computación

Director ELIZABETH LEÓN GUZMÁN

Ph. D. en Ciencias de la Computación

UNIVERSIDAD NACIONAL DE COLOMBIA FACULTAD DE INGENIERIA

DEPARTAMENTO DE INGENIERÍA E INDUSTRIAL BOGOTÁ D.C.

2009

Page 3: TesisV0.2

Borrador Tesis V0.2

UNIVERSIDAD NACIONAL DE COLOMBIA

Facultad de Ingeniería

Coordinación Curricular

Ingeniería de Sistemas e Industrial

Sede Bogotá

DIRECTOR: Ph. D. Elizabeth León Guzmán

REALIZADO POR: Edwar Javier Herrera Osorio Cód. 299775

LA INTELIGENCIA DE NEGOCIOS BASADA EN EL PROCESO UNIFICADO.

BUSINESS INTELLIGENCE WITH UNIFIED PROCESS.

RESUMEN

El presente proyecto presenta como se le puede aplicar al proceso de inteligencia

de negocios la metodología para el desarrollo software “proceso unificado”. El

proceso unificado es conocido como un estándar adoptado la OMG y tiene como

principal objetivo realizar el desarrollo por medio de fases y flujos de trabajo.…..

ABSTRACT

This project as it may apply to the business intelligence methodology for software

development "unified process". The unified process is known as standard adopted

by the OMG and its main objective is to perform through the development phases

and workflows…..

Page 4: TesisV0.2

Borrador Tesis V0.2

Palabras Claves: Proceso unificado, Bodega de datos, Minería de datos,

inteligencia de negocios, Proceso de ingeniería en bodega de datos, proceso de

ingeniería en minería de datos, Proceso de ingeniería en inteligencia de negocios.

KEY WORDS: unified process (UP), data warehouse (DW), data mining (DM), business intelligence (BI), Data Warehouse Engineering Process (DWEP), Data

Mining Engineering Process (DMEP), Business Intelligence Engineering Process

(BIEP).

___________________________

Ph. D. Elizabeth León Guzmán

Director Proyecto de Grado

Page 5: TesisV0.2

Borrador Tesis V0.2

TABLA DE CONTENIDO

CAPÍTULO I ............................................................................................................ 9

INTRODUCCIÓN ................................................................................................. 9

MOTIVACIÓN .................................................................................................... 10

OBJETIVOS ....................................................................................................... 10

APORTES .......................................................................................................... 11

ORGANIZACIÓN DEL DOCUMENTO ............................................................... 11

CAPITULO II ......................................................................................................... 12

PROCESO DE INTELIGENCIA DE NEGOCIOS. .............................................. 12

EL PROBLEMA DE LA INTELIGENCIA DE NEGOCIOS. ................................. 14

BODEGA DE DATOS. ....................................................................................... 15

Componentes de la bodega de datos............................................................. 15

Modelo de datos ............................................................................................. 16

MINERÍA DE DATOS......................................................................................... 17

Definición de KDD .......................................................................................... 17

CRISP-DM ..................................................................................................... 18

FASES DEL DWEP Y PROCESO UNIFICADO ................................................ 20

Fase de inicio: ................................................................................................ 20

Fase de elaboración: ...................................................................................... 20

Fase de construcción: .................................................................................... 21

Fase de transición: ......................................................................................... 21

CAPITULO III ........................................................................................................ 22

BODEGA DE DATOS CON UML 2.1 ................................................................. 22

Flujos de Trabajo de DWEP 2.1.1 .................................................................. 22

MINERIA DE DATOS CON UML 2.0 ................................................................. 30

Desarrollo del proceso de la minería de datos. .............................................. 30

Proceso de ingeniería a la minería de datos. ................................................. 30

INTELIGENCIA NEGOCIOS BASADA EN UML 2.0 .......................................... 30

Integración del proceso de ingeniería de la bodega de datos y la minería de datos. ............................................................................................................. 30

CAPITULO IV ........................................................................................................ 31

Page 6: TesisV0.2

Borrador Tesis V0.2

VALIDACIÓN DEL MODELO DE PROCESO DE INGENIERIA A LA INTELIGENCIA DE NEGOCIOS ........................................................................ 31

Problema de la vida real: Supermercado ....................................................... 31

Selección y pre-procesamiento de datos ....................................................... 31

Análisis exploratorio ....................................................................................... 31

Generación de la bodega de datos. ............................................................... 31

Generación del proceso de minería de datos. ................................................ 31

Generación de reglas ..................................................................................... 31

Evaluación calidad las reglas ......................................................................... 31

CONCLUSIONES Y TRABAJO A FUTURO .......................................................... 32

BIBLIOGRAFIA ..................................................................................................... 33

ANEXO A GLOSARIO ........................................................................................... 36

Page 7: TesisV0.2

Borrador Tesis V0.2

LISTA DE FIGURAS

Ilustración 1 cadena de datos CRM ..................................................................... 17

Ilustración 2 Tipos de conocimiento ..................................................................... 19

Ilustración 3 Etapas del proceso KDD .................................................................. 21

Page 8: TesisV0.2

Borrador Tesis V0.2

LISTA DE TABLAS

Page 9: TesisV0.2

Borrador Tesis V0.2

CAPÍTULO I

En este capítulo se realiza una introducción, motivación, objetivos y aportes

presentes por el desarrollo de este proyecto.

INTRODUCCIÓN

El objetivo de esta tesis es la construcción de una metodología para el proceso de

inteligencia basada en el proceso unificado (BIEP en ingles Business Intelligence

Engineering Process). Un sistema de inteligencia de negocios se compone por dos

elementos, la bodega de datos (DW en ingles Data Warehouse), el análisis de los

datos que se realiza mediante técnicas OLAP (Online Analytical Processing,) o por

técnica de minería de datos (DM en ingles Data Mining). La BIEP integra la

metodología proceso de ingeniería para el desarrollo de bodegas de datos (DWEP

en ingles Data Warehouse Engineering Process) y la metodología para el proceso

de ingeniería para minería de datos (DMEP en ingles Data Mining Engineering

Process).

Se desarrollo un prototipo de software basado en BIEP para validarlo, el cual sirve

como base para la investigación y aplicación de esta metodología para el

desarrollo de soluciones orientadas a las pequeñas y medianas empresas del

entorno nacional (PYMES).

Page 10: TesisV0.2

Borrador Tesis V0.2

MOTIVACIÓN

Los problemas más frecuente donde fallan de los proyectos de inteligencia de

negocios son: la recolección de requerimientos, el análisis y diseño [11], debido

especialmente a que no se encuentra una metodología estándar para su

desarrollo.

Se ha realizado una metodología denominada proceso de ingeniería para la

bodega de datos (DWEP) basada en el proceso unificado (UP), la cual abarca los

flujos de trabajo de requerimientos, análisis, diseño, pruebas, mantenimiento y

revisiones posteriores al desarrollo. En el componente del proceso de minería de

datos la comunidad europea ha propuesto el desarrollo del modelo Cross-Industry

Standard Process for Data Mining “CRISP-DM”, el cual da un conjunto de fases

pero no se especifica los artefactos para su publicación.

OBJETIVOS

General:

Desarrollar una metodología para el proceso de la inteligencia de negocios

basada en la metodología del proceso unificado.

Específicos:

Actualizar la metodología proceso de ingeniería para la bodega de datos

(PIBD), a UML versión 2.0

Crear una metodología para el proceso de ingeniería para minería de datos

en los flujos de trabajo de requerimientos, análisis y diseño.

Integrar la metodología del proceso de ingeniería para la bodega de datos y

el proceso de ingeniería para minería de datos. (Proceso de ingeniería de la

inteligencia de negocios BIEP).

Validar la metodología del proceso de ingeniería de inteligencia de negocios

(PIIN) a un ejemplo de la vida real.

Page 11: TesisV0.2

Borrador Tesis V0.2

APORTES

ORGANIZACIÓN DEL DOCUMENTO

Esta tesis esta ordena así capítulo II observamos los antecedes (Estado del arte),

capítulo III la actualización del DWEP a la versión UML 2.0, el planteamiento de la

metodología DMEP y BIEP y en el capítulo IV la validación del modelo BIEP.

Page 12: TesisV0.2

Borrador Tesis V0.2

CAPITULO II

En este capítulo se establecen las bases teóricas del proyecto al igual que el

conocimiento previo que hay que tener en cuenta para el desarrollo de este y con

el fin de hacer más compresible su lectura en el anexo A se presenta un glosario

para aclarar conceptos.

PROCESO DE INTELIGENCIA DE NEGOCIOS.

El término “inteligencia de negocios” (en inglés se conoce como “Business

Intelligence”) describe un tipo de procesos orientados a la toma de decisiones más

acertadas y estratégicas para el desarrollo de un negocio. Howard Dresner, en el

año de 1989, la definió como “… un conjunto de conceptos y métodos para

mejorar el proceso de decisión utilizando un sistema de soporte basado en

hechos...” [1]. En este contexto, la inteligencia de negocios se define como el

proceso de análisis de los bienes o datos acumulados en la empresa, con el fin de

extraer una “cierta inteligencia” o conocimiento de ello.

Un sistema de inteligencia de negocios se compone por dos elementos, ver figura

1: (i) la bodega de datos (DW en ingles Data Warehouse) cuyas partes son: las

fuentes de datos, los procesos de extracción, carga y transformación (ETL), y la

zona de almacenamiento; y (ii) el análisis de los datos, que puede darse por dos

Page 13: TesisV0.2

Borrador Tesis V0.2

procedimientos diferentes, el primero, conformados por medio de consultas

simples y reportes, caracterizados por informes predefinidos y análisis de

información mediante técnicas OLAP (Online Analytical Processing,) y, el

segundo, mediante técnicas de minería de datos (DM en ingles Data Mining) que

permiten encontrar comportamientos en conjuntos de datos analizados, para

realizar clasificaciones o predicciones, o generar información para los EIS

(Executive Information Systems), DSS (Decision Support Systems, Sistemas de

ayuda a la toma de decisiones) ó el BSC (cuadro de mandos integral).

Figura 1. Componentes del entorno de Inteligencia de negocios

El proceso de inteligencia de negocios viene creciendo a una tasa anual del

11.5%, y gastos de inversión de más de 7 billones de dólares [2, 3], ver figura 2,

lo que evidencia su potencialidad y el papel que está asumiendo en el desarrollo

económico en las organizaciones, de allí que sea importante profundizar en su

estudio en los entes académicos e industriales.

Figura 2.

Crecimiento e inversiones en herramientas de inteligencia de Negocios

Page 14: TesisV0.2

Borrador Tesis V0.2

EL PROBLEMA DE LA INTELIGENCIA DE NEGOCIOS.

En diversos informes indican que entre el 40% y el 50% [16, 17] de los procesos

de inteligencia de negocios fallan o son abandonados. Según lo observado por

parte Larry Poole [18] estos fallan por: (i) Carencia de un líder que entienda el

valor del proyecto y esté dispuesto a apoyarlo asignando los recursos apropiados

y a enfocarse de modo que el proyecto tenga éxito. (ii) Los requisitos son pobres

ya que no se involucran a los usuarios en las discusiones para adquirirlos para

asegurar que se está planeando construir realmente algo que se necesita y que va

a utilizar. (iii) Los diseños son pobre debido a que los requisitos son deficientes y

el tiempo de modelado es limitado. (iv) Carencia del entrenamiento a usuarios

finales para el uso adecuado de la solución para llevar a buen término la

implantación del proyecto. (v) En las organizaciones se cree a menudo que con la

solución inicial se termina el proyecto descuidando su mantenimiento o

crecimiento, ya que ella puede involucrar más partes de la organización, y esto se

puede hacer por medio de diversos datamart hasta generar una única bodega de

datos [5]. (vi) Otro de los problemas escoger inadecuadamente la herramientas a

utilizar, en el mercado hay un gran número de ellas y sus características y precios

varían, hay que realizar una adecuada valoración para saber escoger cual se

ajusta más en la implementación. “… Es importante entender las necesidades de

usuarios y seleccionar la herramienta que faciliten el desarrollo de las aplicaciones

previstas…” [18], (vii) Muchos proyectos arranca pensando en una solución final

pero sin saber el tiempo y trabajo consuma, o si su solución es compleja. (viii)

Después de la utilización de la solución por parte de los usuarios, ocurre los

siguientes casos: que la solución no cumpla con sus objetivos y la dejen de usarla

o pueden cumplir ampliamente y querer que sus funcionalidades crezcan. En

ambos casos, se necesita estar en constante revisión, mirando los logros, llevando

así a cabo las modificaciones y mejoras necesarias de modo que todos sus

usuarios quieran utilizarlo.

Page 15: TesisV0.2

Borrador Tesis V0.2

BODEGA DE DATOS.

Es uno de los componentes del proceso de inteligencia de negocios, Bill Inmon lo

define: “… Una Bodega de Datos es una colección de datos integrados orientados

a temas, integrados, no-volátiles y variables en el tiempo, organizados para

soportar necesidades empresariales…” [4] y para Ralph Kimball “... la Bodega de

Datos es un colección de datos en forma de una base de datos que guarda y

ordena información que se extrae directamente de los sistemas operacionales

(ventas, producción, finanzas, marketing, etc.) y de datos externos…” [5].

Componentes de la bodega de datos

En las bodegas de datos se presentan el desarrollo de cinco etapas[5]: sistemas

fuente operaciones (Source) en donde se almacenan las transacciones del

negocio, área de depuración de datos (Integration) en donde se encuentran los

datos que forman la parte transaccional que pueden ser usados en la bodega de

datos, área de presentación de datos (Data Warehouse) en donde se ubica los

datos en un espacio de almacenamiento de la bodega de datos, Adaptación

(Customization) define el mapeo entre el almacén de datos y las estructuras

empleadas por el cliente, herramienta de acceso de datos (Client) en donde el

usuario puede tomar y realizar las diversas consultas por medio de técnicas OLAP

o por procesos de minería de datos. Ver figura 3.

Page 16: TesisV0.2

Borrador Tesis V0.2

Figura 3. Componentes básicos de una Bodega de Datos.

Modelo de datos

En las DW se definen los siguiente niveles de abstracción [6]: Conceptual, lógico y

el físico.

a. Modelo Conceptual de datos: Representa las interacciones entre las

entidades y relaciones. Este modelo está más cerca de los problemas del

mundo real que a la solución. Se destacan los siguientes modelos en las

DW: modelo Multidimensional/ER (Sapia) [7], modelo Estrella/ER (Tryfona)

[8], modelo GOLD (Trujillo) [9, 10], modelo Husemann [11], modelo YAM2

[12].

b. Modelo Lógico de datos: El objetivo del modelo lógico de datos es describir

en el máximo detalle posible, sin tener en cuenta cómo van a ser

físicamente en la base de datos. Es este modelo esta incluido las

entidades, las relaciones y su interacción, los tipos de datos de todos los

atributos de cada entidad, definición de la llaves primarias y foráneas,

definición del proceso extracción, transformación y carga (E.T.L), entre

otras actividades.

c. Modelo Físico de datos: En el modelo de datos físicos, incluyen toda la especificación de todas las tablas y columnas, siguiendo las reglas del negocio, para determinar el diseño de la bodega de datos. En este modelo

Page 17: TesisV0.2

Borrador Tesis V0.2

se escribe el código para crear tablas, vistas, reglas de integridad, consultas multidimensiones.

MINERÍA DE DATOS

Fayyad [13] definió la minería de datos como: “… Un proceso no trivial de

identificación válida, novedosa, potencialmente útil y entendible de patrones

comprensibles que se encuentran ocultos en los datos…”.

Definición de KDD

El término ‘KDD’ es empleado para describir el proceso total de descubrimiento y

extracción de conocimiento nuevo, no obvio a partir de un conjunto de datos, el

cual está conformado por relaciones y patrones entre los elementos que

conforman los datos [17], [18].

Figura 4. Pasos en el búsqueda de conocimiento en la bases de datos U. Fayyad, G. Piatetsky-Shapiro, and P. Smyth, “From Data Mining to Knowledge Discovery in Databases”[11].

La Minería de Datos es un proceso completo de descubrimiento de conocimiento

que involucra varios pasos [12]:

Page 18: TesisV0.2

Borrador Tesis V0.2

1. Entendimiento del dominio de aplicación, el conocimiento relevante a utilizar

y las metas del usuario.

2. Selección de un conjunto de datos en donde realizar el proceso de

descubrimiento.

3. Limpieza y preprocesamiento de los datos, diseñando una estrategia

adecuada para manejar ruido, valores incompletos, valores fuera de rango,

valores inconsistentes.

4. Selección de la tarea de descubrimiento a realizar, por ejemplo,

clasificación, agrupamiento o clustering, reglas de asociación, etc.

5. Selección de los algoritmos que serán aplicados.

6. Transformación de los datos al formato requerido por el algoritmo especifico

de explotación de datos, hallando los atributos útiles, reduciendo las

dimensiones de los datos, entre otros.

7. Encontrar patrones interesantes.

8. Evaluación de los patrones descubiertos y presentación de los mismos

mediante técnicas de visualización. Quizás sea necesario eliminar patrones

redundantes o no interesantes, o se necesite repetir algún paso anterior con

otros datos, con otros algoritmos, con otras metas o con otras estrategias.

9. Utilización del conocimiento descubierto, ya sea incorporándolo dentro de

un sistema o simplemente para almacenarlo y reportarlo a las personas

interesadas.

Las Fases para el desarrollo de un proceso de minería de datos son cuatro a

saber:

• Filtrado de datos

• Selección de variables

• Extracción de conocimiento

• Interpretación y evaluación

CRISP-DM

Page 19: TesisV0.2

Borrador Tesis V0.2

La comunidad europea ha propuesto el desarrollo del modelo Cross-Industry

Standard Process for Data Mining “CRISP-DM” [14 y 15], cuyo objetivo es

fomentar la interoperabilidad de las herramientas utilizadas en el proceso de

minería de datos para reducir sus costos, tiempo y aprendizaje.

Sus principales propiedades son:

• No es propietario.

• Independiente de la aplicación o la industria.

• Neutral con respecto a herramientas.

• Enfocado en problemas de negocios así como en el análisis técnico.

• Plataforma guía

• Experiencia Base

El proceso para su desarrollo se basa en un proceso cíclico, con

retroalimentaciones en sus diversas fases. Ver Figura 4.

Figura 5.

Modelo CRISP-DM

Fase 1: Comprensión del negocio

• Entendimiento de los objetivos y requerimientos del proyecto.

• Definición del problema de Minería de Datos

Fase 2: Comprensión de los datos

• Obtención de un conjunto inicial de datos.

Page 20: TesisV0.2

Borrador Tesis V0.2

• Exploración del conjunto de datos.

• Identificación de las características de calidad de los datos

• Identificación de los resultados iníciales obvios.

Fase 3: Preparación de Datos

• Selección de datos.

• Limpieza de datos.

Fase 4: Modelamiento

• Implementación en herramientas de Minería de Datos.

Fase 5: Evaluación

• Determinar las coincidencias entre los objetivos del negocio y los resultados

de la compresión, preparación y modelamiento de los datos.

• Identificar los temas de negocio que deberían haberse abordado

Fase 6: Despliegue

• Colocar los modelos resultantes en la práctica

• Configuración para minería de datos de forma repetida ó continua

Recientemente se ha plantado un dilema en el proceso de inteligencia de

negocios, por cuanto se está buscando pasar e integrar de los modelos orientados

a los datos al paradigma orientado a objetos.

FASES DEL DWEP Y PROCESO UNIFICADO

Fase de inicio: El objetivo de esta fase es desarrollar el análisis del proyecto para

justificar su puesta en marcha. Para lograrlo se realiza una descripción general del

proyecto, una planeación basada en interacciones de las fases subsiguientes, se

detectan los riesgos críticos y se establecen la funcionalidad básica del software

con una descripción de la arquitectura candidata.

Fase de elaboración: Una vez finalizada la fase de inicio, se pretende formar una

arquitectura sólida para la construcción del software. Esta fase se busca

Page 21: TesisV0.2

Borrador Tesis V0.2

establecer la base lógica de la aplicación con los casos de uso definitivos y los

artefactos del sistema que lo componen, además de mitigar el riesgo tecnológico

de la exploración del lenguaje de programación en cuanto a interfaz de usuario se

refiere. Para esto, se finalizó la primera iteración con un prototipo funcional para la

realización de pruebas de software y la definición del modelo para la

implementación de la interfaz de usuario.

Figura 6 El Proceso Unificado [21] y Proceso de Ingeniería de la bodega de datos [10]

Fase de construcción: Se inicia a partir de la línea base de arquitectura que se

especifico en la fase de elaboración, y su finalidad es desarrollar un producto listo

para la operación inicial en el entorno del usuario final.

Fase de transición: Una vez que el proyecto entra en la fase de transición, el

sistema ha alcanzado la capacidad operativa inicial. Esta fase busca implantar el

producto en su entorno de operación.

Page 22: TesisV0.2

Borrador Tesis V0.2

CAPITULO III

BODEGA DE DATOS CON UML 2.1 Diagramas: cada etapa o nivel necesita formalismos de modelado diferentes. Por

lo tanto, DWEP en su versión 2.1.1 se compone de 20 diagramas (5 etapas y 3

niveles). En la tabla 1 se observan los diferentes diagramas.

Source (S) Integration Data Warehouse (DW) Customization Client (c)

SCS (Class) DM (Class)

SCOS (Object) DWSS (Sequence)

DWSMS (State Machine)

DWAS (Activity)

SLS (Class)

SLCS (Communication)

Physical Transportation Diagram(Deployment) DWPS (Comp & Deployment) Transportation Diagram

(Deployment) CPS (Comp & Deployment)SPS (Comp & Deployment)

Conceptual DWCS (Class) DM (Class) CCS (Class)

Logical ETL (Class) DWLS (Class) Exporting Process (Class) CLS (Class)

Tabla 1 Diagramas Aplicados al DWEP Estos 20 diagramas se aplican de acuerdo DWEP en los diferentes flujos de trabajo siguiendo las

mismas fases del proceso unificado

Flujos de Trabajo de DWEP 2.1.1

Requerimiento. Durante este flujo de trabajo, los usuarios finales especifican las medidas y

agregaciones más interesantes, el análisis dimensional, consultas usadas para la

generación de reportes periódicos y frecuencia de la actualización de los datos. El

proceso unificado plantea la utilización del modelo de casos de uso. En la figura 7

se observa el diagrama de casos de uso aplicado a un requerimiento dado por un

usuario (Sales Manager). En la figura 4 se observa el lado izquierdo los diferentes

Page 23: TesisV0.2

Borrador Tesis V0.2

casos de uso para la generación del requerimiento, en la parte derecha se observa

el caso de uso en formato Extendido.

Figura 7 Casos de Uso

Análisis.

El objetivo de este flujo de trabajo es mejorar la estructura y los requisitos

obtenidos en la etapa de requerimientos. En esta etapa se documenta los

sistemas operaciones preexistentes que alimentan la bodega de datos. El proceso

unificado propone el uso del diagrama de diagramas de clase, objetos,

comunicación y despliegue. [10 y 22]. DWEP siguiere el uso de los diagramas

Source Conceptual Schema (SCS, ver figura 8), Source Conceptual Object

Schema (SCOS, ver figura 9), Source Logical Schema (SLS, ver figura 10),

Source Logical Comunications Schema (SLCS, ver figura 11) y Source Physical

Schema (SPS, Ver figura 12).

Page 24: TesisV0.2

Borrador Tesis V0.2

Figura 8 Diagrama SCS

Miami :Ci ties Sony:Customer001:Orders

TV:Products

Radio:Products

Play Statio

TV2:Products

002:Orders

Radio2:Products

Figura 9 Diagrama SCOS

Figura 10 Diagrama SLS

Page 25: TesisV0.2

Borrador Tesis V0.2

1: Read_table

2: Read_table

3: Read_table

4: Read Table

Job System

:Cities

:Customer

:Orders

:Products

Figura 11 Diagrama SLCS

Figura 12 Diagrama SPS

Diseño.

Al final de este flujo de trabajo, está definida la estructura de la bodega de datos.

El principal resultado de este flujo de trabajo es el modelo conceptual de la

bodega de datos. El proceso unificado propone el uso clases estructuradas en

paquetes, diseños de subsistemas con interfaces definidas (componentes) y la

Page 26: TesisV0.2

Borrador Tesis V0.2

forma de colaboración entre las clases. DWEP propone el uso de los diagramas

Data Warehouse Conceptual Schema (DWCS ver figura 13), Client Conceptual

Schema (CCS),el Data Mapping (DM ver figura 14), Data Warehouse State

Machine Schema (DWMSS, ver figura 15) y el Data Warehouse Activity Schema

(DWAS, ver figura 16). El DM muestra la relación entre SCS y DWCS adema

entre DWCS y el CCS

Figura 13 Diagrama DWCS

Figura 14 Diagrama DM

Page 27: TesisV0.2

Borrador Tesis V0.2

DWSD Customer Open Source

Read and extract data to relational data base

Transform and load in temporal Space in DW Load to temporal Space DW to DW

Figura 15 Diagrama DWSMS

Figura 16 Diagrama DWAS

Implementación.

Durante este flujo de trabajo, la bodega de datos se construye: La estructura física

de la bodega de datos se construyen, empiezan a recibir datos de los sistemas

operaciones, se afina para un funcionamiento optimizado, entre otras tareas. El

proceso unificado propone como artefacto el diagrama de componentes. El DWEP

utiliza los siguientes artefactos Data Warehouse Logical Schema (DWLS Ver

figura 17), Data Warehouse Physical Schema (DWPS, ver figura 18), Client

Logical Schema (CLS), Client Physical Schema (CPS), ETL Process (Ver figura

19), Data Warehouse Secuence Schema (DWSS, ver figura 20),

Page 28: TesisV0.2

Borrador Tesis V0.2

Figura 17 Diagrama DWLS [10]

Figura 18 Diagrama DWPS [10]

Figura 19 Diagrama ETL [10]

Page 29: TesisV0.2

Borrador Tesis V0.2

Load(Parameter)

Transform(Parameter)

extract(Parameter)

Sales manager

Relacional DB:Customer DWTemporalSpace:Customer DW:Customer

Load(Parameter)

Transform(Parameter)

extract(Parameter)

Figura 20 Diagrama DWSS

Pruebas.

El objetivo de este trabajo es verificar que la aplicación funcione correctamente. Más concretamente, los efectos de las pruebas son los siguientes: Planificar las pruebas necesarias, diseñar y aplicar las pruebas mediante la creación de casos de prueba y realizar las pruebas y analizar los resultados de cada prueba.

Mantenimiento.

A diferencia de la mayoría de los sistemas, la bodega de datos es un proceso que se retroalimenta constantemente. El objetivo de este flujo de trabajo es definir la actualización y carga de los procesos necesarios para mantener la bodega de datos. Este flujo de trabajo comienza cuando se construye la bodega de datos y es entregado a los usuarios finales, pero no tiene una fecha de finalización. Durante este trabajo, los usuarios finales pueden tener nuevas necesidades, tales como las nuevas consultas, lo que desencadena el comienzo de una nueva iteración con los requisitos de flujo de trabajo.

Revisiones post desarrollo.

Esto no es un flujo de trabajo de las actividades de desarrollo, sino un proceso de revisión para la mejora de proyectos a futuro. Si hacemos un seguimiento del tiempo y esfuerzo invertido en cada fase es útil en la estimación de tiempo y de las necesidades para generar los requisitos para desarrollos futuros.

Page 30: TesisV0.2

Borrador Tesis V0.2

MINERIA DE DATOS CON UML 2.0

Desarrollo del proceso de la minería de datos.

Proceso de ingeniería a la minería de datos.

INTELIGENCIA NEGOCIOS BASADA EN UML 2.0

Integración del proceso de ingeniería de la bodega de datos y la minería de

datos.

Page 31: TesisV0.2

Borrador Tesis V0.2

CAPITULO IV

VALIDACIÓN DEL MODELO DE PROCESO DE INGENIERIA A LA

INTELIGENCIA DE NEGOCIOS

Problema de la vida real: Supermercado

Selección y pre-procesamiento de datos

Análisis exploratorio

Generación de la bodega de datos.

Generación del proceso de minería de datos.

Generación de reglas

Evaluación calidad las reglas

Page 32: TesisV0.2

Borrador Tesis V0.2

CONCLUSIONES Y TRABAJO A FUTURO

Page 33: TesisV0.2

Borrador Tesis V0.2

BIBLIOGRAFIA

[1] Gartner Group, Howard Dresner Biography, disponible en

http://www.gartner.com/research/fellows/asset_79427_1175.jsp

[2] Nigel Pendse, “The dramatic consolidation in 2007 makes market shares

much harder to calculate”, Consultado en internet

http://www.olapreport.com/market.htm.

[3] Dan Vesset, “World wide Business Intelligence Tools 2007 Vendor

Shares”, Consultado en Internet http://download.microsoft.com/download/

0/5/1/051389A2-FB6E-4AF0-B844-1FDAE6060514/WW-BI-Tools-2005-

vendor-Shares.pdf

[4] W. Inmon, Building the data warehouse. Wiley, 2002.

[5] R. Kimball and M. Ross, The Data Warehouse Toolkit: The Complete Guide

to Dimensional Modeling. Wiley, 2002.

[6] Steel,T.B.,Jr. (Chairman): ANSI/X3/SPARC Study Group on Data Base

Management Systems Interim Report; ACM SIGMOD FDT, Vol. 7, No. 2,

1975.

[7] C. Sapia, M. Blaschka, G. Hofling, and B. Dinter. Extending the E/R Model

for the Multidimensional Paradigm. In Proceeding of the 1ST International

Workshop on Data Warehouse and Data Mining (DWDM’98), volumen 1552

of Lecture Notes in computer Science, pages 105-116, Singapore,

November 19- 20 199. Springer- Velang.

[8] N. Tryfona. F. Busborg, and J.G. Christiansen. starER: A Conceptual Model

for Data Warehouse Desing. In proceedings of the ACM 2nd international

Workshop on Data Warehousing and OLAP (DOLAP`99), pages 3-8,

Kansas City, USA, November 6 1999. ACM.

[9] J. Trujillo. The GOLD model: An Object Oriented multidimensional data

model for multidimensional database, Symposium on Applied Computing

Proceedings of the 2000 ACM, symposium on Applied computing- Volume

1, Italy, pages 346-350, 2000. ACM.

Page 34: TesisV0.2

Borrador Tesis V0.2

[10] J. Trujillo, Data WareHouse Desig with UML, PHD. Thesis, Universidad de

Alicante, 2005.

[11] B. Husemann, J. Lechtenborger, G. Vossen, Conceptual Data Warehouse

Desing, Proceeding of the International Workshop on Design and

Management of Data Warehouses (DMDW’2000), StockHolm, Sweden.

[12] A. Abello, J. Samos, and F. Saltor. YAM2 (Yet Another Multidimensionañ

Model): An extension of UML. In International database Engineering

applications Symposium (IDEAS’02), pages 172-181, Edmoton Canada,

July 17-19 2002. IEEE Computer Society.

[13] U. Fayyad, G. Piatetsky-Shapiro, and P. Smyth, From Data Mining to

Knowledge Discovery in Databases, American Association for Artificial

Intelligence pag 37 -54. 1996.

[14] Colin Shearer, “The CRISP-DM Model: The New Blueprint for DataMining”,

JOURNAL of Data Warehousing, Volume 5, Number 4, p. 13-22, 2000.

[15] P. Chapman et al., “CRISP-DM 1.0: Step-by-step data mining guide,” SPSS

Inc (2000), http://www.crisp-dm.org/CRISPWP-0800.pdf.

[16] Custer consortiwn, “41% HAVE EXPERIENCED DATA WAREHOUSE

PROJECT FAILURES”, Consultado en Internet http://www.cutter.com/

research/2003/edge030218.html.

[17] Mark Madsen, “A 50% Data Warehouse Failure Rate is Nothing New”,

Consultado en Internet http://it.toolbox.com/blogs/bounded-rationality/a-50-

data-warehouse-failure-rate-is-nothing-new-4669.

[18] Larry Poole, “8 Reasons Why Business Intelligence Initiatives Fail!”,

XyberNet, Inc., consultado 20 de marzo de 2008 en Internet:

www.xyber.net/8Reasons.doc.

[19] Booch Grady, Rumbaugh Jim, Jacobson Ivar, “UML, El lenguaje unificado

de modelado”, consultado en internet http://www.itescam.edu.mx/

principal/sylabus/ fpdb/recursos/r25380.PDF

[20] Fuentes Lidia, Vallecillo Antonio. “Una Introducción a los Perfiles UML,

Consultado en Internet” http://www.lcc.uma.es/~av/Publicaciones/04/

UMLProfiles-Novatica04.pdf.

Page 35: TesisV0.2

Borrador Tesis V0.2

[21] Object Management Group (OMG). Unifie Modeling Language (UML),

version 2.0, consultado marzo de 2008 Internet: http://www.uml.org/

[22] Jacobson, Ivar; Booch, Grady; Rumbaugh, James. “El proceso unificado de

desarrollo de software.”, Addison Wesley. Madrid, ES. 2000. 438 p

[23] Y. Cui and J. Widom. Lineage Tracing for General Data Warehouse

Transformations. In Proceedings of the 27th International Conference on

Very Large Data Bases (VLDB’01), pages 471– 480, Rome, Italy,

September 11 - 14 2001.

Page 36: TesisV0.2

Borrador Tesis V0.2

ANEXO A GLOSARIO