Documento Dise No Curs Ov 4

Embed Size (px)

Citation preview

  • 7/21/2019 Documento Dise No Curs Ov 4

    1/38

    GUIA DE CURSO:

    DATA WAREHOUSING BSICO CON PENTAHO

    Versin 1.0

    ELABORADO POR:

    ING. LUIS TAMAYO

    www.relative-engine.com

    PARA:

    CEC - EPN

    FECHA DE PRESENTACIN:Quito, 08 de Abril del 2013

  • 7/21/2019 Documento Dise No Curs Ov 4

    2/38

    DATA WAREHOUSING BSICO CON PENTAHO

    ING. LUIS TAMAYO CEC EPN

    Captulo:OBJETIVOSDELCURSO

    2

    Contenido

    OBJETIVOS DEL CURSO.................................................................................... 4

    MDULO I. CONCEPTOS GENERALES DE INTELIGENCIA DE NEGOCIOS............ 5CONCEPTOSGENERALES .................................................................................. 5PROCESODEINTELIGENCIADENEGOCIOS ......................................................... 5

    INFORMACION OPERATIVA ............................................................................ 5ETL ............................................................................................................. 6ETERPRISE DATAWAREHOUSE (EDWH) ........................................................... 6SOLUCIONES DE INTELIGENCIA DE NEGOCIOS .............................................. 13

    MODULO 2 MODELADO DIMENSIONAL ........................................................... 14

    ELEGIR EL PROCESO DE NEGOCIO ............................................................................ 15

    ESTABLECER EL NIVEL DE GRANULARIDAD .................................................................. 15ELEGIR LAS DIMENSIONES .................................................................................... 15IDENTIFICAR LAS TABLAS DE HECHOS Y MEDIDAS.......................................................... 15MODELO GRFICO DE ALTO NIVEL............................................................................ 16IDENTIFICACIN DE ATRIBUTOS DE DIMENSIONES Y TABLAS DE HECHOS ............................... 17IMPLEMENTAR EL MODELO DIMENSIONAL DETALLADO ..................................................... 18PRUEBA DEL MODELO .......................................................................................... 18REVISIN Y VALIDACIN DEL MODELO ...................................................................... 18DOCUMENTOS FINALES ........................................................................................ 18DISEO FSICO................................................................................................. 19DISEO DEL SISTEMA DE EXTRACCIN,TRANSFORMACIN Y CARGA (ETL). .......................... 19

    LA TECNICA SCD ........................................................................................ 19ESPECIFICACIN Y DESARROLLO DE APLICACIONES DE BI ................................................ 20

    INFORMES ESTANDAR ................................................................................. 20APLICACIONES ANALITICAS ......................................................................... 21

    MODULO TRES-CUATRO - CASO DE ESTUDIO ................................................. 22

    DESCRIPCIONDELCASODEESTUDIO .............................................................. 22TEMPLATESDEDOCUMENTACION .................................................................... 22

    MDULO CINCO PLATAFORMA DE DWH/BI PENTAHO CE V4.0 ....................... 23

    INTALACIONDEJAVASOBRELINUX ................................................................. 23INSTALACIONDEPENTAHO ............................................................................. 23

    User Console .............................................................................................. 25BI User Console .......................................................................................... 26

    MDULO SEIS. INTEGRACIN DE DATOS Y ACTIVIDADES DE EXTRACCIN,TRANSFORMACIN Y CARGA (ETL) USANDO PENTAHO DATA INTEGRATION . 27

    INSTALACIONDEPENTAHODATAINTEGRATION(PDI) ....................................... 27

  • 7/21/2019 Documento Dise No Curs Ov 4

    3/38

    DATA WAREHOUSING BSICO CON PENTAHO

    ING. LUIS TAMAYO CEC EPN

    Captulo:OBJETIVOSDELCURSO

    3

    CONFIGURACIONDEREPOSITORIOSPDI .......................................................... 28DETALLEGENERALDEPDI .............................................................................. 31

    Men......................................................................................................... 31Panel izquierdo ........................................................................................... 31Transform .................................................................................................. 34

    Panel intermedio ......................................................................................... 36Panel Inferior ............................................................................................. 36

    REFERENCIAS ................................................................................................ 38

  • 7/21/2019 Documento Dise No Curs Ov 4

    4/38

    DATA WAREHOUSING BSICO CON PENTAHO

    ING. LUIS TAMAYO CEC EPN

    Captulo:OBJETIVOSDELCURSO

    4

    OBJETIVOS DEL CURSO

    Comprender los conceptos generales de Inteligencia de Negocios y DataWarehousing

    Comprender y aplicar la metodologa de Kimball para la construccin de un

    sistema de DWH/BI Disear modelos dimensionales de datos

    Conocer, instalar y configurar la plataforma de DWH/BI Pentaho

    Utilizar Pentaho Data Integration para realizar las actividades de integracinde datos y procesos de extraccin, transformacin y carga (ETL)

    Administrar de forma bsica la plataforma de DWH/BI Pentaho.

    El curso se comprende de cuatro mdulos:

    Mdulo I. Conceptos Generales. Inteligencia de Negocios y DataWarehousing

    Mdulo II. Tcnicas de modelamiento dimensional Mdulo III. Caso de Estudio a ser utilizado durante el transcurso de todo el

    curso Mdulo IV. Diseo del Data Warehouse para el caso de estudio

    Mdulo V. Plataforma de DWH/BI Pentaho CE v4.0

    Mdulo VI. Integracin de datos y actividades de extraccin,transformacin y carga (ETL) usando Pentaho Data Integration

  • 7/21/2019 Documento Dise No Curs Ov 4

    5/38

    DATA WAREHOUSING BSICO CON PENTAHO

    ING. LUIS TAMAYO CEC EPN

    Captulo:MDULOI.CONCEPTOSGENERALESDEIN

    TELIGENCIADENEGOCIOS

    5

    MDULO I. CONCEPTOS GENERALES DE INTELIGENCIA DENEGOCIOS

    Que es la inteligencia de negocios (BI)? El trmino BI se refiere al uso de datos en una empresa y convertirlo en

    informacin analizada para facilitar la toma de decisiones. Abarca la comprensin del funcionamiento actual de la empresa, as

    como la anticipacin de acontecimientos futuros, con el objetivo deofrecer conocimientos para respaldar las decisiones empresariales.

    Apoya a la toma de decisiones estratgicas, tcticas y operativas de unacompaa

    BI no es Data Warehousing.

    De acuerdo al nivel y a la complejidad de anlisis, las actividades deinteligencia de negocios se resumen de la siguiente manera:

    FACTURACI

    ON

    CONTABILID

    AD

    OPERATIONAL INFORMATION ETL EDW BUSINESS INTELIGENCE SOLUTION

    ENTERPRISE BI

    INFORMACION OPERATIVA Corresponde a la informacin que administra la empresa como parte de

    su giro de negocio. La misma puede provenir de distintas fuentes:

    o Archivos de textoo Archivos Excelo BDD empresariales

  • 7/21/2019 Documento Dise No Curs Ov 4

    6/38

    DATA WAREHOUSING BSICO CON PENTAHO

    ING. LUIS TAMAYO CEC EPN

    Captulo:MDULOI.CONCEPTOSGENERALESDEIN

    TELIGENCIADENEGOCIOS

    6

    ETL Es el proceso que permite a las organizaciones mover datos desde

    mltiples fuentes, reformatearlos, limpiarlos, y cargarlos en otra base dedatos, data mart, o data warehouse para analizarla y apoyar un procesode negocio

    o Extract (Extraer) Extraer la informacin de las diferentes fuentes de datos.

    o Transform (Transformar) Esta fase aplica una serie de reglas de negocio o funciones

    sobre los datos extrados para convertirlos en datos quesern cargados.

    o Load (carga) Es el momento en el cual los datos de la fase anterior

    (transformacin) son cargados en el sistema de destino

    ETERPRISE DATAWAREHOUSE (EDWH) Un almacn de datos (DM o DWH) es la principal fuente de datos

    utilizada para la presentacin de informes y anlisis BI. Los datos almacenados se cargan desde las fuentes de datos a travs de

    los ETL (por ejemplo, facturacin, contabilidad). Usualmente guarda aos de historia y es consultado para inteligencia de

    negocios u otras actividades analticas Un Data Mart (DM) es un DWH para un tema o aplicacin especfica

    (Ventas, Reclamos, etc.)

    Ventajas de un DWH

    o Toda la informacin est un solo lugar (Una sla fuente de laverdad)

    o Informacin actualizadao Acceso rpidoo No hay lmites de espacio (Ej. Archivos XLS)o Contiene toda la historia de la compaao Fcil de comprender (Modelada en trminos del negocio)o Contiene definiciones claras y uniformeso Datos estandarizados

    Desafos de un DWH

    o Problemas de calidad de datos, entre ellos: Datos Duplicados Datos Incompletos Datos Incorrectos Datos Conflictivos Datos Faltantes (Falla de Integridad Referencial) Valores nulos

  • 7/21/2019 Documento Dise No Curs Ov 4

    7/38

    DATA WAREHOUSING BSICO CON PENTAHO

    ING. LUIS TAMAYO CEC EPN

    Captulo:MDULOI.CONCEPTOSGENERALESDEIN

    TELIGENCIADENEGOCIOS

    7

    o Volumen de datos (Tb) y rendimiento (ndices, ndices binarios,particiones, agregaciones, vistas materializadas).

    o Captura de Cambios de Datos (CDC)o Consiste en identificar qu datos han sido insertados, modificados

    o borradoso Puede ser Intrusiva (Triggers) y No Intrusiva (PDI, Merge Rows)o Requerimientos cambiantes (Un DWH Evoluciona).

    Metodologas

    METODOLOGAS ACTUALES

    Existen muchas metodologas de diseo y construccin de DW. Cada fabricante de software de inteligencia de negocios busca imponer

    una metodologa con sus productos. Sin embargo, se imponen entre lamayora dos metodologas, la de Kimball y la de Inmon. Para

    comprender la mayor diferencia entre estas dos metodologas, debemosexplicar adems de la nocin de DW mencionando en la introduccin, laidea de Data mart.

    Un Data mart es un repositorio de informacin, similar a un DW, peroorientado a un rea o departamento especfico de la organizacin (porejemplo Compras, Ventas, RRHH, etc.), a diferencia del DW que cubretoda la organizacin, es decir la diferencia fundamental es su alcance.

    Desde el punto de vista arquitectnico, la mayor diferencia entre los dosautores es el sentido de la construccin del DW, esto es comenzando porlos Data marts o ascendente (Bottom-up, Kimball) o comenzando contodo el DW desde el principio, o descendente (TopDown, Inmon).

  • 7/21/2019 Documento Dise No Curs Ov 4

    8/38

    DATA WAREHOUSING BSICO CON PENTAHO

    ING. LUIS TAMAYO CEC EPN

    Captulo:MDULOI.CONCEPTOSGENERALESDEIN

    TELIGENCIADENEGOCIOS

    8

    Por otra parte, la metodologa de Inmon se basa en conceptos bienconocidos del diseo de bases de datos relacionales; la metodologapara la construccin de un sistema de este tipo es la habitual paraconstruir un sistema de informacin, utilizando las herramientashabituales, al contrario de la de Kimball, que se basa en un modeladodimensional (no normalizado)

    Cul metodologa adoptar?

    o Para el curso adoptaremos la metodologa de Kimball, por cuantoproporciona un enfoque de menor a mayor, muy verstil, y unaserie de herramientas prcticas que ayudan a la implementacinde un DW. Es acorde a nuestras empresas porque se puedenimplementar pequeos datamarts en reas especficas de lasmismas (compras, ventas, etc.), con pocos recursos y de pocoirlos integrndolos en un gran almacn de datos. Por tanto,detallaremos esta metodologa.

    METODOLOGA KIMBALL EN DETALLE

    La metodologa se basa en lo que Kimball denomina Ciclo de VidaDimensional del Negocio (Business Dimensional Lifecycle). Este ciclo devida del proyecto de DW, est basado en cuatro principios bsicos:

  • 7/21/2019 Documento Dise No Curs Ov 4

    9/38

    DATA WAREHOUSING BSICO CON PENTAHO

    ING. LUIS TAMAYO CEC EPN

    Captulo:MDULOI.CONCEPTOSGENERALESDEIN

    TELIGENCIADENEGOCIOS

    9

    Centrarse en el negocio

    o Hay que concentrarse en la identificacin de los requerimientosdel negocio y su valor asociado, y usar estos esfuerzos paradesarrollar relaciones slidas con el negocio, agudizando elanlisis del mismo y la competencia consultiva de los

    implementadores.Construir una infraestructura de informacin adecuada

    o Disear una base de informacin nica, integrada, fcil de usar,de alto rendimiento donde se reflejar la amplia gama derequerimientos de negocio identificados en la empresa.

    Realizar entregas en incrementos significativos

    o Crear el almacn de datos (DW) en incrementos entregables enplazos de 6 a 12 meses. Hay que usa el valor de negocio de cadaelemento identificado para determinar el orden de aplicacin de

    los incrementos. En esto la metodologa se parece a lasmetodologas giles de construccin de software.

    Ofrecer la solucin completa

    o Proporcionar todos los elementos necesarios para entregar valor alos usuarios de negocios. Para comenzar, esto significa tener unalmacn de datos slido, bien diseado, con calidad probada, yaccesible.

    o Tambin se deber entregar herramientas de consulta ad hoc,aplicaciones para informes y anlisis avanzado, capacitacin,soporte, sitio web y documentacin.

    La construccin de una solucin de DW/BI (Datawarehouse/BusinessIntelligence) es sumamente compleja, y Kimball nos propone unametodologa que nos ayuda a simplificar esa complejidad. Las tareas deesta metodologa (ciclo de vida) se muestran en la figura

  • 7/21/2019 Documento Dise No Curs Ov 4

    10/38

    DATA WAREHOUSING BSICO CON PENTAHO

    ING. LUIS TAMAYO CEC EPN

    Captulo:MDULOI.CONCEPTOSGENERALESDEIN

    TELIGENCIADENEGOCIOS

    10

    De la figura, podemos observar dos cuestiones. Primero, hay que resaltar el rol central de la tarea de definicin de

    requerimientos. Los requerimientos del negocio son el soporte inicial de las tareas

    subsiguientes. Tambin tiene influencia en el plan de proyecto (ntese ladoble fecha entre la caja de definicin de requerimientos y la deplanificacin).

    En segundo lugar podemos ver tres rutas o caminos que se enfocan entres diferentes reas:

    o Tecnologa (Camino Superior). Implica tareas relacionadas con

    software especfico, por ejemplo, Microsoft SQL Analysis Services.o Datos (Camino del medio). En la misma disearemos e

    implementaremos el modelo dimensional, y desarrollaremos elsubsistema de Extraccin, Transformacin y Carga (Extract,Transformation, and Load - ETL) para cargar el DW.

    o Aplicaciones de Inteligencia de Negocios (Camino Inferior). Enesta ruta se encuentran tareas en las que diseamos ydesarrollamos las aplicaciones de negocios para los usuariosfinales.

    Estas rutas se combinan cuando se instala finalmente el sistema. En la parte de debajo de la figura se muestra la actividad general de

    administracin del proyecto. A continuacin describiremos cada una delas tareas.

  • 7/21/2019 Documento Dise No Curs Ov 4

    11/38

    DATA WAREHOUSING BSICO CON PENTAHO

    ING. LUIS TAMAYO CEC EPN

    Captulo:MDULOI.CONCEPTOSGENERALESDEIN

    TELIGENCIADENEGOCIOS

    11

    Planificacin

    o En este proceso se determina el propsito del proyecto de DW/BI,sus objetivos especficos y el alcance del mismo, los principalesriesgos y una aproximacin inicial a las necesidades de

    informacin.o En la visin de programas y proyectos de Kimball, Proyecto, se

    refiere a una iteracin simple del KLC (Kimball Life Cycle), desdeel lanzamiento hasta el despliegue.

    o Esta tarea incluye las siguientes acciones tpicas de un plan deproyecto:

    Definir el alcance (entender los requerimientos delnegocio).

    Identificar las tareas Programar las tareas Planificar el uso de los recursos. Asignar la carga de trabajo a los recursos Elaboracin de un documento final que representa un plan

    del proyecto.o Adems en esta parte definimos cmo realizar la administracin o

    gestin de esta subfase que es todo un proyecto en s mismo, conlas siguientes actividades:

    Monitoreo del estado de los procesos y actividades. Rastreo de problemas Desarrollo de un plan de comunicacin comprensiva que

    direccione la empresa y las reas de TI.

    Anlisis de requerimientoso La definicin de los requerimientos es en gran medida un proceso

    de entrevistar al personal de negocio y tcnico, pero siempreconviene tener un poco de preparacin previa. Se debe aprendertanto como se pueda sobre el negocio, los competidores, laindustria y los clientes del mismo. Hay que leer todos los informesposibles de la organizacin; rastrear los documentos de estrategiainterna; entrevistar a los empleados, analizar lo que se dice en laprensa acerca de la organizacin, la competencia y la industria.Se deben conocer los trminos y la terminologa del negocio.

    o Parte del proceso de preparacin es averiguar a quin se debe

    realmente entrevistar.o Esto normalmente implica examinar cuidadosamente elorganigrama de la organizacin. Hay bsicamente cuatro gruposde personas con las que hablar desde el principio:

    El directivo responsable de tomar las decisionesestratgicas

    Los administradores intermedios y de negocio responsablesde explorar alternativas estratgicas y aplicar decisiones

  • 7/21/2019 Documento Dise No Curs Ov 4

    12/38

    DATA WAREHOUSING BSICO CON PENTAHO

    ING. LUIS TAMAYO CEC EPN

    Captulo:MDULOI.CONCEPTOSGENERALESDEIN

    TELIGENCIADENEGOCIOS

    12

    Personal de sistemas, si existen, la gente que realmentesabe qu tipos de problemas informticos y de datosexisten.

    Por ltimo, la gente que se necesita entrevistar por razonespolticas.

    o A partir de las entrevistas, podemos identificar temas analticos yprocesos de negocio. Los temas analticos agrupan requerimientoscomunes en un tema comn.

    o Por otra parte, a partir del anlisis se puede construir unaherramienta de la metodologa denominada matriz deprocesos/dimensiones (Bus Matrix en ingls).

    o Una dimensin es una forma o vista o criterio por medio de cualse pueden sumariar, cruzar o cortar datos numricos a analizar,datos que se denominan medidas (measures en ingls).

    o Esta matriz tiene en sus filas los procesos de negocio identificado,y en las columnas, las dimensiones identificadas.

    o Un ejemplo de esta matriz se puede observar en la siguientetabla. Cada X en la interseccin de las filas y columnas significaque en el proceso de negocio de la fila seleccionada se identifican

    las dimensiones propuestas.

  • 7/21/2019 Documento Dise No Curs Ov 4

    13/38

    DATA WAREHOUSING BSICO CON PENTAHO

    ING. LUIS TAMAYO CEC EPN

    Captulo:MDULOI.CONCEPTOSGENERALESDEIN

    TELIGENCIADENEGOCIOS

    13

    Finalmente se busca priorizar los requerimientos o procesos de negociosms crticos.

    SOLUCIONES DE INTELIGENCIA DE NEGOCIOS

    Este conjunto de herramientas y metodologas tienen en comn lassiguientes caractersticas:

    o Accesibilidad a la informacin.o Los datos son la fuente principal de este concepto.o Acceso de los usuarios a los datos con independencia de la

    procedencia de estos.o Apoyo en la toma de decisiones.o Orientacin al usuario final.o Se busca independencia entre los conocimientos tcnicos de los

    usuarios y su capacidad para utilizar estas herramientas. Para este curso se utilizara la Suite Pentaho como solucin de BI.

  • 7/21/2019 Documento Dise No Curs Ov 4

    14/38

    DATA WAREHOUSING BSICO CON PENTAHO

    ING. LUIS TAMAYO CEC EPN

    Captulo:MODULO2MO

    DELADODIMENSIONAL

    14

    MODULO 2 MODELADO DIMENSIONAL

    La creacin de un modelo dimensional es un proceso dinmico y altamenteiterativo.

  • 7/21/2019 Documento Dise No Curs Ov 4

    15/38

    DATA WAREHOUSING BSICO CON PENTAHO

    ING. LUIS TAMAYO CEC EPN

    Captulo:MODULO2MO

    DELADODIMENSIONAL

    15

    El proceso de diseo comienza con un modelo dimensional de alto nivelobtenido a partir de los procesos priorizados de la matriz descrita en elmdulo anterior.

    El proceso iterativo consiste en cuatro pasos:o Elegir el proceso de negocio.o Establecer el nivel de granularidad.o Elegir las dimensiones.o Identificar medidas y las tablas de hechos.

    El primer paso es elegir el rea a modelar. Esta es una decisin de ladireccin, y depende fundamentalmente del anlisis de requerimientos yde los temas analticos anotados en la etapa anterior.

    La granularidad significa especificar el nivel de detalle. La eleccin de la granularidad depende de los requerimientos del

    negocio y lo que es posible a partir de los datos actuales. La sugerencia general es comenzar a disear el DW al mayor nivel de

    detalle posible, ya que se podra luego realizar agrupamientos al niveldeseado. En caso contrario no sera posible abrir (drill-down) lassumarizaciones en caso de que el nivel de detalle no lo permita.

    Las agregaciones mejoran el rendimiento.

    Las dimensiones surgen naturalmente de las discusiones del equipo, y

    facilitadas por la eleccin del nivel de granularidad y de la matriz deprocesos/dimensiones.

    Las tablas de dimensiones tienen un conjunto de atributos(generalmente textuales) que brindan una perspectiva o forma deanlisis sobre una medida en una tabla hechos.

    Una forma de identificar las tablas de dimensiones es que sus atributosson posibles candidatos para ser encabezado en los informes, tablaspivot, cubos, o cualquier forma de visualizacin, unidimensional omultidimensional.

    El ltimo paso consiste en identificar las medidas que surgen de losprocesos de negocios.

    Una medida es un atributo (campo) de una tabla que se desea analizar,sumarizando o agrupando sus datos, usando los criterios de corteconocidos como dimensiones.

    Las medidas habitualmente se vinculan con el nivel de granularidad, y seencuentran en tablas que denominamos tablas de hechos (fact tables eningls).

  • 7/21/2019 Documento Dise No Curs Ov 4

    16/38

    DATA WAREHOUSING BSICO CON PENTAHO

    ING. LUIS TAMAYO CEC EPN

    Captulo:MODULO2MO

    DELADODIMENSIONAL

    16

    Cada tabla de hechos tiene como atributos una o ms medidas de unproceso organizacional, de acuerdo a los requerimientos. Un registrocontiene una medida expresada en nmeros, como ser cantidad, tiempo,dinero, etc., sobre la cual se desea realizar una operacin de agregacinen funcin de una o ms dimensiones.

    Las cinco funciones bsicas de agregacin son:o Mximo: max()o Mnimo: min()o Conteo: count()o Suma: sum()o Promedio: avg()

    La granularidad es el nivel de detalle que posee cada registro de unatabla de hechos.

    Para concluir con el proceso dimensional inicial se realiza un grficodenominado modelo dimensional de alto nivel (o grfico de burbujas,Bubble chart, en el lxico de Kimball), como ilustra la figura.

  • 7/21/2019 Documento Dise No Curs Ov 4

    17/38

    DATA WAREHOUSING BSICO CON PENTAHO

    ING. LUIS TAMAYO CEC EPN

    Captulo:MODULO2MO

    DELADODIMENSIONAL

    17

    La segunda parte de la sesin inicial de diseo consiste en completarcada tabla con una lista de atributos bien formada. Una lista de este tipose muestra en la figura. Esta lista o grilla se forma colocando en las filaslos atributos de la tabla, y en las columnas la siguiente informacin:

    o Caractersticas relacionadas con la futura tabla dimensional delalmacn de datos (target), por ejemplo tipo de datos, si es claveprimaria, valores de ejemplo, etc.

    o El origen de los datos (source, por lo general atributos de lastablas transaccionales).

    o Reglas de conversin, transformacin y carga (ETL rules), que nosdicen cmo transformar los datos de las tablas de origen a las del

    almacn de datos.

  • 7/21/2019 Documento Dise No Curs Ov 4

    18/38

    DATA WAREHOUSING BSICO CON PENTAHO

    ING. LUIS TAMAYO CEC EPN

    Captulo:MODULO2MO

    DELADODIMENSIONAL

    18

    Este proceso consiste simplemente en completar la informacinincompleta de los pasos anteriores.

    El objetivo en general es identificar todos los atributos tiles y susubicaciones, definiciones y reglas de negocios asociadas que especificancmo se cargan estos datos. Para este cometido se usa la misma planilladel punto anterior.

    Si el modelo ya est estable, lo que se hace habitualmente es probarlocontra los requerimientos del negocio. Haciendo la pregunta prctica deCmo podemos obtener esta informacin en particular del modelo?Para las pruebas podemos usar diseos de reportes estructurados, deusuarios actuales, diseos de cubos prospectivos, etc.

    Un vez que tenemos confianza plena en el modelo, ingresamos en estaetapa final (ver figura 2), lo cual implica revisar el modelo con diferentesaudiencias, cada una con diferentes conocimientos tcnicos y delnegocio.

    En el rea de sistemas deberan revisarlo los programadores y analistasde los sistemas, y el DBA si existe.

    Tambin debera revisarse con usuarios y personas del negocio quetengan mucho conocimiento de los procesos y que quizs no hayanparticipado del diseo del modelo.

    Finalmente podemos hacer un documento que enuncie una serie depreguntas del negocio (tomadas a partir de los requerimientos), y lasconteste por medio del modelo.

    El producto final, como se puede ver en la Figura, son una serie dedocumentos (solo mencionamos los ms importantes), a saber:

    o Modelo de datos inicial de alto nivelo Lista de atributoso Diagrama de tablas de hechoso Definicin de campos de medidao Diagrama de tablas de dimensioneso Descripcin de los atributos de las dimensioneso Matriz DW (o DW Bus Matrix) completa

  • 7/21/2019 Documento Dise No Curs Ov 4

    19/38

    DATA WAREHOUSING BSICO CON PENTAHO

    ING. LUIS TAMAYO CEC EPN

    Captulo:MODULO2MO

    DELADODIMENSIONAL

    19

    En esta parte, intentamos contestar las siguientes preguntas:o Cmo puede determinar cun grande ser el sistema de DW/BI?o Cules son los factores de uso que llevarn a una configuracin

    ms grande y ms compleja?o Cmo se debe configurar el sistema?o Cunta memoria y servidores se necesitan? Qu tipo de

    almacenamiento y procesadores?o Cmo instalar el software en los servidores de desarrollo, prueba

    y produccin?o Qu necesitan instalar los diferentes miembros del equipo de

    DW/BI en sus estaciones de trabajo?o Cmo convertir el modelo de datos lgico en un modelo de datos

    fsicos en la base de datos relacional?o Cmo conseguir un plan de indexacin inicial?o Debe usarse la particin en las tablas relacionales?

    El sistema de Extraccin, Transformacin y Carga (ETL) es la base sobrela cual se alimenta el Datawarehouse.

    Si el sistema ETL se disea adecuadamente, puede extraer los datos delos sistemas de origen de datos, aplicar diferentes reglas para aumentarla calidad y consistencia de los mismos, consolidar la informacinproveniente de distintos sistemas, y finalmente cargar (grabar) lainformacin en el DW en un formato acorde para la utilizacin por partede las herramientas de anlisis.

    LA TECNICA SCDo La tcnica de Slowly Changing Dimensions permite identificar y

    guardar qu registros cambiaron.o Existen los siguientes tipos:

    Tipo DescripcinSCD Tipo 1 Sobrescribe el registro.SCD Tipo 2 Agrega un registro con columnas

    que indican su validez.SCD Tipo 3 Consiste en agregar una

    columna por cada una que sequiera registrar el cambio.

  • 7/21/2019 Documento Dise No Curs Ov 4

    20/38

    DATA WAREHOUSING BSICO CON PENTAHO

    ING. LUIS TAMAYO CEC EPN

    Captulo:MODULO2MO

    DELADODIMENSIONAL

    20

    Una parte fundamental de todo proyecto de DW/BI est enproporcionarles a una gran comunidad de usuarios una forma ms

    estructurada y por lo tanto, ms fcil, de acceder al almacn de datos. Proporcionamos este acceso estructurado a travs de lo que llamamosaplicaciones de inteligencia de negocios (Business IntelligenceAplications).

    Las aplicaciones de BI son la cara visible de la inteligencia de negocios:los informes y aplicaciones de anlisis proporcionan informacin til alos usuarios. Las aplicaciones de BI incluyen un amplio espectro de tiposde informes y herramientas de anlisis, que van desde informes simplesde formato fijo a sofisticadas aplicaciones analticas que usan complejosalgoritmos e informacin del dominio.

    Kimball divide a estas aplicaciones en dos categoras basadas en el nivelde sofisticacin, y les llama informes estndar y aplicaciones analticas.

    INFORMES ESTANDARo Los informes estndar son la base del espectro de aplicaciones de

    BI. Por lo general son informes relativamente simples, de formatopredefinido, y parmetros de consulta fijos.

    o En el caso ms simple, son informes estticos pre-almacenados.Los informes estndar proporcionan a los usuarios un conjuntobsico de informacin acerca de lo que est sucediendo en unrea determinada de la empresa. Este tipo de aplicaciones son elcaballo de batalla de la BI de la empresa.

    o Son informes que los usuarios usan da a da. La mayor parte delo que piden las personas durante el proceso de definicin derequisitos se clasificara como informes estndar. Por eso esconveniente desarrollar un conjunto de informes estndar en elciclo de vida del proyecto.

    o Algunos informes estndares tpicos podran ser: Ventas del ao actual frente a previsin de ventas por

    vendedor Tasa de renovacin mensual por plan de servicio Tasa quinquenal de desercin por unidad acadmica Tasas de respuestas de correo electrnico por promocin

    por producto (marketing) Recuento de audiencia y porcentaje de la audiencia total

    por la red de televisin por da de la semana y hora del da(Sistema de marketing televisivo)

    Reclamos del ao actual hasta la fecha frente a previsin,por tipo de vehculo

    Volumen de llamadas por producto como un porcentaje deltotal de ventas

  • 7/21/2019 Documento Dise No Curs Ov 4

    21/38

    DATA WAREHOUSING BSICO CON PENTAHO

    ING. LUIS TAMAYO CEC EPN

    Captulo:MODULO2MO

    DELADODIMENSIONAL

    21

    APLICACIONES ANALITICAS Las aplicaciones analticas son ms complejas que los informes

    estndar. Normalmente se centran en un proceso de negocio especfico yresumen cierta experiencia acerca de cmo analizar e interpretar ese

    proceso de negocio. Estas aplicaciones pueden ser muy avanzadas e incluir algoritmos y

    modelos de minera de datos, que ayudan a identificar oportunidadeso cuestiones subyacentes en los datos.

    Otra caracterstica avanzada en algunas aplicaciones analticas es queel usuario puede pedir cambios en los sistemas transaccionalesbasndose en los conocimientos obtenidos del uso de la aplicacin deBI.

    En el otro extremo del espectro, algunas aplicaciones analticas sevenden como soluciones cerradas o enlatados, y son independientesde las aplicaciones particulares de la empresa.

    Algunas aplicaciones analticas comunes incluyen:o Anlisis de la eficacia de la promocioneso Anlisis de rutas de acceso en un sitio Webo Anlisis de afinidad de programaso Planificacin del espacio en espacios comercialeso Deteccin de fraudeso Administracin y manejo de categoras de productos

  • 7/21/2019 Documento Dise No Curs Ov 4

    22/38

    DATA WAREHOUSING BSICO CON PENTAHO

    ING. LUIS TAMAYO CEC EPN

    Captulo:MODULOTRES-CUATRO-CASODEESTUD

    IO

    22

    MODULO TRES-CUATRO - CASO DE ESTUDIO

    El grupo CHH, cuyo giro de negocio se basa en la gestin de talento

    humano se encuentra conformado por dos empresas TrabajoFacil yHeadHuntingExperts, tienen cedes en Ecuador, Colombia, Per y Chile.

    El Gerente general de la empresa, ha solicitado al gerente financiero elacceso a los balances generales y estados de resultados de lasempresas.

    Esta informacin debe ser entregada por:o Paso Empresao Meso Aoo Valores en dlares o su moneda original.

    Actualmente el gerente financiero tienen un sistema ERP en Ecuador atravs del cual genera los balances y estados de resultados, para todoslos otros pases recibe la informacin en Excel, a travs de correoelectrnico.

    Basado en la realidad actual, al gerente financiero le toma una semanagenerar el consolidado de todos los pases, el mismo que se entrega enExcel al gerente general y esta informacin nunca est disponible demanera inmediata.

    Que solucin propondra usted para solucionar el caso plantado.

    Para documentar un proyecto de BI se adjunta los siguientes templatessirven de base para el levantamiento.

    o Documento de diseoo Bus Matrixo Matriz de procesos y dimensioneso Tabla de definicin de dimensiones y hechos.

  • 7/21/2019 Documento Dise No Curs Ov 4

    23/38

    DATA WAREHOUSING BSICO CON PENTAHO

    ING. LUIS TAMAYO CEC EPN

    Captulo:MDULOCINCOPLATAFORMADEDWH/BI

    PENTAHOCEV4.0

    23

    MDULO CINCO PLATAFORMA DE DWH/BI PENTAHO CE V4.0

    Para realizar la instalacion de Java (versin del manual jdk1.6.0_30 osuperior) en linux se debe realizar los siguientes pasos.

    Crear el usuario bipentaho en Linux.

    Bajar los binarios (jdkx.tar.gz) de java para linux del urlhttp://www.oracle.com/technetwork/java/javase/downloads, en elhome del usuario bipentaho.

    Descomprimir el archivo descargado con el comando:

    Se crea carpeta /home/bipentaho/jdk1.6.0_30

    Configurar las variables de entorno en el archivo .bash_profiles en elhome del usuario pentaho y comprobar si esta la configuracincorrecta.

    Bajar el instalador de Pentaho Bi server (biserver-ce-4.x-stable.zip) enel home del usuario bipentaho.

    Descomprimir el archivo generando la carpeta biserver-ce-4.x-stable.

    Dar los permisos necesarios.

    #cd /home/bipentaho

    #tar xvf jdk_1.6.0_30.tar.gz

    #cd /home/bipentaho#vi .bash_profileJAVA_HOME=/home/bipentaho/jdk1.6.0_30

    export JAVA_HOMEPATH= /home/bipentaho/jdk1.6.0_30/bin:$PATHexport PATH

    #source .bash_profile#java -versionjava version "1.6.0_30"Java(TM) SE Runtime Environment (build 1.6.0_30-b12)Java HotSpot(TM) Server VM (build 20.5-b03, mixed mode)

    #chmod R 777 biserver-ce-4.x-stable

  • 7/21/2019 Documento Dise No Curs Ov 4

    24/38

    DATA WAREHOUSING BSICO CON PENTAHO

    ING. LUIS TAMAYO CEC EPN

    Captulo:MDULOCINCOPLATAFORMADEDWH/BI

    PENTAHOCEV4.0

    24

    La base sobre la cual se funcionara BI Server es Posgres. Se debe proceder con los siguientes pasos:

    o Crear el usuario biserver.

    o Copiar los archivos adjuntos en el home del usuario bipentaho.

    hibernate.sql quartz.sql sampledata. sql shark. sql

    o Creacin de las bases de datos necesarias para pentaho.

    o Correr los scripts

    o En la base de datos hibernate, correr.

    $ sudo su postgres

    --como postgres$ createrole biserver

    $ createdb hibernate -O biserver$ createdb quartz -O biserver$ createdb sampledata -O biserver$ createdb shark -O biserver

    --como postgres$psql -U biserver -d hibernate < hibernate.sql

    $psql -U biserver -d quartz < quartz.sql$psql -U biserver -d shark < shark.sql

    --como postgresCREATE SEQUENCE hibernate_sequenceINCREMENT 1

    MINVALUE 1MAXVALUE 9223372036854775807START 1CACHE 1;

    ALTER TABLE hibernate_sequence OWNER TO biserver;

  • 7/21/2019 Documento Dise No Curs Ov 4

    25/38

    DATA WAREHOUSING BSICO CON PENTAHO

    ING. LUIS TAMAYO CEC EPN

    Captulo:MDULOCINCOPLATAFORMADEDWH/BI

    PENTAHOCEV4.0

    25

    o Adicionalmente editar los siguientes archivos:

    Una vez realizadas las configuraciones, se procede a levantar los doscomponentes de los que consta BI Server.

    USER CONSOLE Consola de administracin de usuarios, la cual permite crear usuarios y

    roles.

    /home/bipentaho/biserverfull/biserver-ce/tomcat/webapps/pentaho/META-INF/context.xml/home/bipentaho/biserverfull/biserver-ce/pentaho-

    solutions/system/hibernate/postgresql.hibernate.cfg.xml/home/bipentaho/biserver-ce-4.5.0-stablepostgres/biserver-ce/pentaho-solutions/system/quartz/quartz.properties/home/bipentaho/biserver-ce-4.5.0-stablepostgres/biserver-ce/pentaho-solutions/system/applicationContext-spring-security-hibernate.properties/home/bipentaho/biserver-ce-4.5.0-stablepostgres/biserver-

    ce/tomcat/conf/Catalina/localhost/pentaho.xml/home/usrpentaho/biserver-ce-4.5.0-stablepostgres/biserver-ce/pentaho-solutions/system/publisher_config.xml

  • 7/21/2019 Documento Dise No Curs Ov 4

    26/38

    DATA WAREHOUSING BSICO CON PENTAHO

    ING. LUIS TAMAYO CEC EPN

    Captulo:MDULOCINCOPLATAFORMADEDWH/BI

    PENTAHOCEV4.0

    26

    BI USER CONSOLE Consola donde se cargarn los reportes

  • 7/21/2019 Documento Dise No Curs Ov 4

    27/38

    DATA WAREHOUSING BSICO CON PENTAHO

    ING. LUIS TAMAYO CEC EPN

    Captulo:MDULOSEIS

    .INTEGRACINDEDATOSY

    ACTIVIDADESDEEXTRACC

    IN,

    27

    MDULO SEIS. INTEGRACIN DE DATOS Y ACTIVIDADES DEEXTRACCIN, TRANSFORMACIN Y CARGA (ETL) USANDOPENTAHO DATA INTEGRATION

    Para la instalacin de PDI es necesario realizar los siguientes pasos:

    o Bajar el archivo pdi-ce-4.1.0-stable.zip, del urlhttp://wiki.pentaho.com/display/COM/Latest+Stable+Builds, en elhome del usuario bipentaho.

    o Descomprimir el archivo con el comando unzip.

    o Se crea el directorio data-integration, dar los permisos deejecucin al mismo.

    o Levantar PDI con el siguiente comando

    #cd /home/bipentaho#unzip pdi-ce-4.1.0-stable.zip

    #chmod R 777 data-integration

    #cd /home/bipentaho/data-integration

    #./spoon.sh

  • 7/21/2019 Documento Dise No Curs Ov 4

    28/38

    DATA WAREHOUSING BSICO CON PENTAHO

    ING. LUIS TAMAYO CEC EPN

    Captulo:MDULOSEIS

    .INTEGRACINDEDATOSY

    ACTIVIDADESDEEXTRACC

    IN,

    28

    PDI permite administrar un repositorio central para las transformacionesy Jobs que se desarrollan en el mismo, permitiendo una gestin mseficiente de los fuentes (No manejar versionamiento).

    Para realizar una configuracin adecuada se debe realizar los siguientespasos:

    o Al cargar el aplicativo PDI, se presenta la pantalla.

  • 7/21/2019 Documento Dise No Curs Ov 4

    29/38

    DATA WAREHOUSING BSICO CON PENTAHO

    ING. LUIS TAMAYO CEC EPN

    Captulo:MDULOSEIS

    .INTEGRACINDEDATOSY

    ACTIVIDADESDEEXTRACC

    IN,

    29

    +, agregar un nuevo repositorio x, eliminar repositorios existentes. , editar repositorios existentes. Repositorio, detalle de repositorios que actualmente se

    encuentran configurados. User Name, nombre del usuario que administra el

    repositorio. Password, password del usuario que administra el

    repositorio.

    o Agregar nuevos repositorios Al agregar un nuevo repositorio, existe dos opciones:

    Base de datos Archivo

    Para el curso utilizaremos base de datos como repositorio.

    Para crear un repositorio de base de datos se requiere lassiguientes configuraciones.

  • 7/21/2019 Documento Dise No Curs Ov 4

    30/38

    DATA WAREHOUSING BSICO CON PENTAHO

    ING. LUIS TAMAYO CEC EPN

    Captulo:MDULOSEIS

    .INTEGRACINDEDATOSY

    ACTIVIDADESDEEXTRACC

    IN,

    30

    Conexin a base de datos. New, Edit, Delete para realizar cualquier accin de

    conexin se debe ingresar la siguiente informacin:

    Dependiendo la base datos se deber llenar lainformacin

    ID, identificador a travs del cual se va a conocer al mismo. Name, nombre del repositorio. Create or Upgrade realiza la creacin de maneraautomtica del repositorio. Remove, elimina el repositorio.

  • 7/21/2019 Documento Dise No Curs Ov 4

    31/38

    DATA WAREHOUSING BSICO CON PENTAHO

    ING. LUIS TAMAYO CEC EPN

    Captulo:MDULOSEIS

    .INTEGRACINDEDATOSY

    ACTIVIDADESDEEXTRACC

    IN,

    31

    Cuando se carga PDI se presenta la siguiente pantalla base.

    La pantalla principal del PDI se compone de cuatro partes principales:

    MEN El men presenta las opciones de gestin que maneja PDI.

    PANEL IZQUIERDO El panel izquierdo presenta dos tabs:

    View

    Lista la transformacin que actualmente se encuentra activo,adicionalmente muestra todos los componentes en la transformacin.

  • 7/21/2019 Documento Dise No Curs Ov 4

    32/38

    DATA WAREHOUSING BSICO CON PENTAHO

    ING. LUIS TAMAYO CEC EPN

    Captulo:MDULOSEIS

    .INTEGRACINDEDATOSY

    ACTIVIDADESDEEXTRACC

    IN,

    32

    DESIGN Muestra todas las opciones tiles en las transformaciones o Jobs.

    Las opciones de diseo de mayor utilidad disponible son:

  • 7/21/2019 Documento Dise No Curs Ov 4

    33/38

    DATA WAREHOUSING BSICO CON PENTAHO

    ING. LUIS TAMAYO CEC EPN

    Captulo:MDULOSEIS

    .INTEGRACINDEDATOSY

    ACTIVIDADESDEEXTRACC

    IN,

    33

    INPUT

    Conjunto de herramientas disponibles para ingreso de informacin, porejemplo carga de informacin desde bases de datos, archivos de texto yExcel.

  • 7/21/2019 Documento Dise No Curs Ov 4

    34/38

    DATA WAREHOUSING BSICO CON PENTAHO

    ING. LUIS TAMAYO CEC EPN

    Captulo:MDULOSEIS

    .INTEGRACINDEDATOSY

    ACTIVIDADESDEEXTRACC

    IN,

    34

    OUTPUT

    Conjunto de herramientas destinado a registrar las salida de los pasosprevios utilizados en la transformacin, por ejemplo salida a una tabla,archivo de texto y Excel.

    TRANSFORM Herramientas utilizadas para realizar las trasformaciones de datos, por

    ejemplo permite, operaciones en cadenas, generacin de constantes,conversin de campos entre tipos de datos.

  • 7/21/2019 Documento Dise No Curs Ov 4

    35/38

    DATA WAREHOUSING BSICO CON PENTAHO

    ING. LUIS TAMAYO CEC EPN

    Captulo:MDULOSEIS

    .INTEGRACINDEDATOSY

    ACTIVIDADESDEEXTRACC

    IN,

    35

    LOOKUP

    Permite realizar bsquedas en tablas, o stream de datos para obtenerinformacin adicional en funcin de la informacin existente.

  • 7/21/2019 Documento Dise No Curs Ov 4

    36/38

    DATA WAREHOUSING BSICO CON PENTAHO

    ING. LUIS TAMAYO CEC EPN

    Captulo:MDULOSEIS

    .INTEGRACINDEDATOSY

    ACTIVIDADESDEEXTRACC

    IN,

    36

    SCRIPTING

    Permite la inclusin de scripts dentro de los procesos de transformacin. Los scripts pueden ser de base de datos, as como formulas y java.

    PANEL INTERMEDIO Contienen las transformaciones o los Jobs sobre los que actualmente seencuentra trabajando.

    PANEL INFERIOR

    Contiene los resultados de ejecucin, logs detallando las acciones

    realizadas en cada paso.

  • 7/21/2019 Documento Dise No Curs Ov 4

    37/38

    DATA WAREHOUSING BSICO CON PENTAHO

    ING. LUIS TAMAYO CEC EPN

    Captulo:MDULOSEIS

    .INTEGRACINDEDATOSY

    ACTIVIDADESDEEXTRACC

    IN,

    37

  • 7/21/2019 Documento Dise No Curs Ov 4

    38/38

    DATA WAREHOUSING BSICO CON PENTAHO

    ulo:REFERENCIAS

    REFERENCIAS

    Imhoff & Galemmo, Mastering Data Warehouse Design: RelationalandDimensional Techniques, Wiley Publishing, 2003 Inmon, Building theData Warehouse, (Third Edition). John Wiley & Sons, 2002.

    La metodologa de Kimball para el diseo de almacenes de datos (Datawarehouses) Gustavo R. Rivadera Facultad de Ingeniera e Informtica,

    UCASAL.

    Pginas tiles

    http://www.kimballgroup.com : Este sitio contiene mucha informacin yartculos sobre la metodologa, y adems una serie de planillas de Excelusadas en cada paso de la metodologa.

    http://www.bi-bestpractices.com/view-articles/4768 http://kle.sisorg.com.mx/articulo04.html http://churriwifi.wordpress.com/2010/04/19/15-2-ampliacion-

    conceptosdel-modelado-dimensional/