110
INSTITUTO POLITÉCNICO NACIONAL UNIDAD PROFESIONAL INTERDISCIPLINARIA DE INGENIERIA Y CIENCIAS SOCIALES Y ADMINISTRATIVAS SECCIÓN DE ESTUDIOS DE POSGRADO E INVESTIGACIÓN “MODELO DE DATAMART PARA ANÁLISIS DE INDICADORES DE DESEMPEÑO ESTUDIANTIL EN LA SEPI UPIICSA” TESIS QUE PARA OBTENER EL GRADO DE MAESTRO EN CIENCIAS EN INFORMÁTICA PRESENTA JOSÉ LUIS CRUZ SANTOYO DIRECTOR DE TESIS DR. FERNANDO VÁZQUEZ TORRES CIUDAD DE MÉXICO, 2018

MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Embed Size (px)

Citation preview

Page 1: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

INSTITUTO POLITÉCNICO NACIONAL

UNIDAD PROFESIONAL INTERDISCIPLINARIA DE INGENIERIA Y CIENCIAS

SOCIALES Y ADMINISTRATIVAS

SECCIÓN DE ESTUDIOS DE POSGRADO E INVESTIGACIÓN

“MODELO DE DATAMART PARA ANÁLISIS DE

INDICADORES DE DESEMPEÑO ESTUDIANTIL EN LA

SEPI UPIICSA”

TESIS QUE PARA OBTENER EL GRADO DE

MAESTRO EN CIENCIAS EN INFORMÁTICA

PRESENTA

JOSÉ LUIS CRUZ SANTOYO

DIRECTOR DE TESIS

DR. FERNANDO VÁZQUEZ TORRES

CIUDAD DE MÉXICO, 2018

Page 2: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 1

Page 3: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 2

Page 4: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 3

Agradecimientos

A mis padres por el apoyo y la confianza que siempre me han brindado a lo largo de

mi vida y que han sido la base para seguir adelante y alcanzar mis metas y objetivos.

A mi esposa Alma Nayely por su compañía, amor y comprensión, además de que me

impulso a terminar este trabajo de tesis.

Al Dr. Fernando Vázquez Torres y al Dr. Eric Manuel Rosales Peña Alfaro por

compartir su tiempo, sus conocimientos y asesorías durante la realización de este

documento.

A Dios por las bendiciones que ha derramado sobre mi persona y porque me dio la

oportunidad de realizar esta gran aventura en mi glorioso Instituto Politécnico Nacional.

Dedicatoria

Esta obra está dedicada para mis paisanos y familiares de los dos estados más

maravillosos de México y de los cuales tengo la bendición y fortuna de pertenecer: Oaxaca

y Guanajuato, pero especialmente para mis abuelos Villo, Avis, Lancha y Fifo que son la base

de la gran familia a la que pertenezco, la familia Cruz Santoyo.

Por último quiero expresar que mi único deseo es que este grado académico que

obtengo pueda servir de inspiración y ejemplo para las generaciones futuras que de mi

desciendan.

José Luis Cruz Santoyo

Page 5: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 4

Resumen

Gestionar la información en cualquier tipo de organización es hoy en día una

herramienta clave para poder sobrevivir y competir en un mundo global y en constante

cambio.

Actualmente las Tecnologías de la Información y Comunicaciones (TIC’s) están

presentes prácticamente en todas las organizaciones, negocios e instituciones educativas,

con el único fin de explotar el mayor recurso con el que cuenta cada una de ellas: la

información.

La Inteligencia de Negocios es un conjunto de herramientas tecnológicas que ayuda

a las empresas a transformar los datos en información, y la información a su vez en

conocimiento con el único fin de mejorar en el proceso de toma de decisiones.

El objetivo de este trabajo es diseñar una propuesta para implementar un modelo

de Datamart para el Análisis de Indicadores de Desempeño Estudiantil en la Sección de

Estudios de Posgrado e Investigación (SEPI) de la UPIICSA y que sirva de soporte a los

directivos para conocer y tomar decisiones que beneficien a los programas de posgrado que

se imparten en esta institución educativa de acuerdo con la información histórica con que

se cuenta almacenada.

Palabras clave: Inteligencia de Negocios, Toma de Decisiones, Educación, TIC, Datamart,

Indicadores de desempeño.

Page 6: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 5

Abstract

Managing information in any type of organization is today a key tool for surviving

and competing in a global and constant changing world.

Today, Information and Communication Technologies (ICT) are present in virtually

all organizations, businesses and educational institutions, with the sole purpose of

exploiting the greatest resource available to each of them: information.

Business Intelligence is a set of technological tools that help companies to transform

data into information and information in turn in knowledge for the sole purpose of

improving the decision making process.

The objective of this paper is to design a proposal to implement a Datamart model

for the Analysis of Performance Indicators Studying in the Section of Postgraduate Studies

and Research (SEPI) of the UPIICSA and that serves as a support for managers to know and

take decisions that benefit the graduate programs that are taught in this educational

institution according to the historical information with which it is stored.

Key words: Business Intelligence, Decision making, Education, TIC, Datamart, Indicators of

performance.

Page 7: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 6

Contenido

Agradecimientos .................................................................................................................................. 3

Dedicatoria .......................................................................................................................................... 3

Resumen .............................................................................................................................................. 4

Abstract ............................................................................................................................................... 5

Índice de Ilustraciones ......................................................................................................................... 9

Índice de Tablas ................................................................................................................................. 12

CAPÍTULO 1 ........................................................................................................................................ 13

1.1 Introducción ...................................................................................................................... 14

1.2 Planteamiento del Problema ............................................................................................. 14

1.3 Solución Propuesta ............................................................................................................ 15

1.4 Solución Técnica ................................................................................................................ 15

1.5 Objetivo General ................................................................................................................ 16

1.6 Objetivo Específicos ........................................................................................................... 16

1.7 Justificación ....................................................................................................................... 17

1.8 Alcance del proyecto ......................................................................................................... 17

1.9 Limitaciones ....................................................................................................................... 17

CAPÍTULO 2 ........................................................................................................................................ 19

2.1 Inteligencia de Negocios .................................................................................................... 20

2.2 Cuadro de Mando Integral ................................................................................................. 21

2.3 Sistema de Soporte a la Decisión ....................................................................................... 23

2.4 Sistema de Información Ejecutiva ...................................................................................... 23

2.5 Sistemas OLTP y OLAP ....................................................................................................... 24

2.6 Data Warehouse ................................................................................................................ 26

2.7 Data Mart .......................................................................................................................... 27

2.8 Arquitectura BI .................................................................................................................. 28

2.8.1 Arquitectura BI. El enfoque de William H. Inmon .......................................................... 28

2.8.2 Arquitectura BI. El enfoque de Ralph Kimball ................................................................ 30

2.9 Metodología ...................................................................................................................... 32

2.9.1 Metodología de Kimball ................................................................................................. 33

2.9.2 CRISP-DM (Cross Industry Standard Process for Data Mining) ...................................... 40

Page 8: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 7

CAPÍTULO 3 ........................................................................................................................................ 51

3.1 Herramientas de Inteligencia de Negocios ........................................................................ 52

3.2 Pentaho ............................................................................................................................. 52

3.2.1 Funcionalidades ............................................................................................................. 53

3.2.2 Ventajas ......................................................................................................................... 54

3.2.3 ¿Por qué elegir Pentaho? .............................................................................................. 55

3.3 Características de Pentaho ................................................................................................ 56

3.3.1 Pentaho Reporting ......................................................................................................... 56

3.3.2 Pentaho Report Designer ............................................................................................... 56

3.3.3 Pentaho Report Design Wizard ...................................................................................... 57

3.3.4 Web ad-hoc reporting ................................................................................................... 57

3.3.5 Características generales Pentaho Reporting ................................................................ 58

3.3.6 Pentaho Analysis ............................................................................................................ 59

3.3.7 Pentaho Dashboards ...................................................................................................... 59

3.3.8 Pentaho Data Integration .............................................................................................. 59

3.3.9 Data Mining ................................................................................................................... 61

3.3.10 Pentaho BI Plataform .................................................................................................... 62

CAPÍTULO 4 ........................................................................................................................................ 64

4.1 Desarrollo de la solución ................................................................................................... 65

4.2 Comprensión del Negocio ................................................................................................. 65

4.2.1 Objetivo del Negocio ..................................................................................................... 65

4.2.2 Objetivos Específicos ..................................................................................................... 65

4.3 Evaluación de la Situación ................................................................................................. 66

4.3.1 Definición de Requerimientos de Negocio .................................................................... 66

4.3.2 Determinación de los Indicadores de Desempeño ........................................................ 67

4.4 Comprensión de los Datos ................................................................................................. 68

4.4.1 Recopilación inicial de los datos .................................................................................... 68

4.4.2 Descripción de los datos ................................................................................................ 68

4.4.3 Exploración de los Datos ................................................................................................ 71

4.5 Preparación de los Datos ................................................................................................... 77

4.5.1 Proceso ETL .................................................................................................................... 77

4.6 Modelado .......................................................................................................................... 83

Page 9: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 8

4.6.1 Selección de la técnica de modelado ............................................................................. 83

4.6.2 Construcción del modelo ............................................................................................... 83

4.7 Evaluación .......................................................................................................................... 84

4.7.1 Evaluar los resultados .................................................................................................... 84

4.8 Implementación ............................................................................................................... 103

4.8.1 Informe Final................................................................................................................ 103

CAPÍTULO 5 ...................................................................................................................................... 105

5.1 Conclusiones .................................................................................................................... 106

5.2 Recomendaciones ........................................................................................................... 106

5.3 Trabajos Futuros .............................................................................................................. 107

Bibliografía ....................................................................................................................................... 108

Page 10: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 9

Índice de Ilustraciones

Ilustración 1.1 Solución Técnica Propuesta ....................................................................................... 16

Ilustración 2.1 La Inteligencia de Negocios. ...................................................................................... 20

Ilustración 2.2 Cuadro de Mando Integral. ....................................................................................... 22

Ilustración 2.3 Arquitectura BI. Enfoque de William H. Inmon. ........................................................ 29

Ilustración 2.4 Estructura interna DW. Enfoque de William H. Inmon. ............................................ 29

Ilustración 2.5 Arquitectura BI. Enfoque de Ralph Kimball. .............................................................. 31

Ilustración 2.6 Estructura interna DW. Enfoque de Ralph Kimball. .................................................. 31

Ilustración 2.7 Tareas de Ciclo de Vida Dimensional. ....................................................................... 34

Ilustración 2.8 Esquema de los 4 niveles de CRISP-DM. ................................................................... 40

Ilustración 2.9 Modelo de procesos CRISP–DM. ............................................................................... 41

Ilustración 2.10 Fase de comprensión del negocio o problema. ...................................................... 42

Ilustración 2.11 Fase de comprensión de los datos. ......................................................................... 43

Ilustración 2.12 Fase de preparación de los datos. ........................................................................... 45

Ilustración 2.13 Fase de modelado. .................................................................................................. 46

Ilustración 2.14 Fase de evaluación. ................................................................................................. 48

Ilustración 2.15 Fase de implementación. ........................................................................................ 49

Ilustración 3.1 Logo de Pentaho. ....................................................................................................... 53

Ilustración 3.2 Funcionalidades de Pentaho. .................................................................................... 55

Ilustración 3.3 Logo de Pentaho Reporting. ...................................................................................... 56

Ilustración 3.4 Ejemplos de informes en Pentaho. ........................................................................... 57

Ilustración 3.5 Pentaho Kettle. .......................................................................................................... 60

Ilustración 3.6 Arquitectura de Pentaho Data Integration. .............................................................. 60

Ilustración 3.7 Arquitectura de Componentes de Suite Pentaho. .................................................... 63

Ilustración 4.1 Base de Datos parcial de la SEPI UPIICSA. ................................................................. 69

Ilustración 4.2 Tabla de la SEPI UPIICSA, dedicación de tiempo. ...................................................... 69

Ilustración 4.3 Tabla de la SEPI UPIICSA, estado civil. ....................................................................... 70

Ilustración 4.4 Tabla de la SEPI UPIICSA, catálogo de escuelas origen. ............................................ 70

Ilustración 4.5 Tabla de la SEPI UPIICSA, catálogo de países. ........................................................... 70

Ilustración 4.6 Tabla de la SEPI UPIICSA, catálogo de programas de posgrado. ............................... 70

Ilustración 4.7 Tabla de la SEPI UPIICSA, información de alumnos. .................................................. 71

Ilustración 4.8 Datos en Excel con información de alumnos. ........................................................... 72

Ilustración 4.9 Datos en Excel con nacionalidad de alumnos. .......................................................... 73

Ilustración 4.10 Datos en Excel con situación escolar de alumnos. .................................................. 73

Ilustración 4.11 Datos en Excel con estado civil de alumnos. ........................................................... 74

Ilustración 4.12 Datos en Excel con información de titulación de alumnos. .................................... 74

Ilustración 4.13 Datos en Excel con los programas de posgrado. ..................................................... 75

Ilustración 4.14 Datos en Excel con los tipos de alumnos. ............................................................... 75

Ilustración 4.15 Datos en Excel con las universidades de procedencia de nivel superior. ............... 76

Ilustración 4.16 Datos en Excel con el sexo de los alumnos. ............................................................ 76

Ilustración 4.17 Job general de proceso ETL de la SEPI UPIICSA ....................................................... 77

Ilustración 4.18 Job de la validación de la estructura de la Base de Datos. ...................................... 78

Page 11: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 10

Ilustración 4.19 Job de carga de tablas de Dimensiones. ................................................................. 78

Ilustración 4.20 Transformación de carga de datos en DimAlumno. ................................................ 79

Ilustración 4.21 Transformación de carga de datos en DimEscuelaOrigen. ..................................... 79

Ilustración 4.22 Transformación de carga de datos en DimEstadoCivil. ........................................... 79

Ilustración 4.23 Transformación de carga de datos en DimNacionalidad. ....................................... 80

Ilustración 4.24 Transformación de carga de datos en DimProgramaPosgrado. ............................. 80

Ilustración 4.25 Transformación de carga de datos en DimSexo. ..................................................... 80

Ilustración 4.26 Transformación de carga de datos en DimSituacionAlumno. ................................. 80

Ilustración 4.27 Transformación de carga de datos en DimTipoAlumno. ......................................... 81

Ilustración 4.28 Transformación de carga de datos en DimTituladoSuperior. ................................. 81

Ilustración 4.29 Transformación de carga de datos en DimTiempo. ................................................ 81

Ilustración 4.30 Job de carga de tabla de Hechos. ............................................................................ 81

Ilustración 4.31 Transformación de carga de datos en FactAlumno. ............................................... 82

Ilustración 4.32 Modelo Estrella de Data Mart de Alumnos. ............................................................ 83

Ilustración 4.33 Cubo Olap de Alumnos. ........................................................................................... 84

Ilustración 4.34 Pantalla de Login de Consola de Usuario Pentaho. ................................................. 85

Ilustración 4.35 Tabla con Cantidad de Alumnos de Tiempo Completo y Parcial por Programa de

Posgrado. ........................................................................................................................................... 86

Ilustración 4.36 Gráfica con Cantidad de Alumnos de Tiempo Completo y Parcial por Programa de

Posgrado. ........................................................................................................................................... 86

Ilustración 4.37 Tabla con Cantidad de Alumnos de las Escuelas que han provenido en la Maestría

en Ciencias en Administración. ......................................................................................................... 87

Ilustración 4.38 Gráfica con Cantidad de Alumnos de las Escuelas que han provenido en la Maestría

en Ciencias en Administración. ......................................................................................................... 87

Ilustración 4.39 Tabla con Cantidad de Alumnos de las Escuelas que han provenido de la Maestría

en Ciencias en Estudios Interdisciplinarios para Pequeñas y Medianas Empresas. ......................... 87

Ilustración 4.40 Gráfica con Cantidad de Alumnos de las Escuelas que han provenido de la Maestría

en Ciencias en Estudios Interdisciplinarios para Pequeñas y Medianas Empresas. ......................... 88

Ilustración 4.41 Tabla con Cantidad de Alumnos de las Escuelas que han provenido de la Maestría

en Ciencias en Informática. ............................................................................................................... 88

Ilustración 4.42 Gráfica con Cantidad de Alumnos de las Escuelas que han provenido de la Maestría

en Ciencias en Informática. ............................................................................................................... 88

Ilustración 4.43 Tabla con Cantidad de Alumnos de las Escuelas que han provenido de la Maestría

en Ciencias en Ingeniería Industrial. ................................................................................................. 89

Ilustración 4.44 Gráfica con Cantidad de Alumnos de las Escuelas que han provenido de la Maestría

en Ciencias en Ingeniería Industrial. ................................................................................................. 89

Ilustración 4.45 Tabla con Cantidad de Alumnos de las Escuelas que han provenido del Doctorado

en Gestión y Políticas de Innovación................................................................................................. 89

Ilustración 4.46 Gráfica con Cantidad de Alumnos de las Escuelas que han provenido del Doctorado

en Gestión y Políticas de Innovación................................................................................................. 90

Ilustración 4.47 Tabla con Cantidad de Alumnos por Estado Civil y si están Titulados de Nivel

Superior. ............................................................................................................................................ 90

Ilustración 4.48 Gráfica con Cantidad de Alumnos por Estado Civil y que Si están Titulados de Nivel

Superior. ............................................................................................................................................ 91

Page 12: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 11

Ilustración 4.49 Gráfica con Cantidad de Alumnos por Estado Civil y que No están Titulados de

Nivel Superior. ................................................................................................................................... 91

Ilustración 4.50 Tabla con Cantidad de Alumnos de Tiempo Completo por Sexo que se titularon a

tiempo agrupados por Año. .............................................................................................................. 92

Ilustración 4.51 Gráfica con Cantidad de Alumnos de Tiempo Completo de Sexo Femenino que se

titularon a tiempo agrupados por Año. ............................................................................................ 92

Ilustración 4.52 Gráfica con Cantidad de Alumnos de Tiempo Completo de Sexo Masculino que se

titularon a tiempo agrupados por Año. ............................................................................................ 92

Ilustración 4.53 Tabla con Cantidad de Alumnos Extranjeros que han cursado un Programa de

Posgrado en la SEPI UPIICSA. ............................................................................................................ 93

Ilustración 4.54 Gráfica con Cantidad de Alumnos Extranjeros que han cursado un Programa de

Posgrado en la SEPI UPIICSA. ............................................................................................................ 93

Ilustración 4.55 Tabla con Programas de Posgrado con Mayor Demanda. ...................................... 94

Ilustración 4.56 Gráfica con Demanda de Programa de Posgrado del Año 2010. ............................ 94

Ilustración 4.57 Gráfica con Demanda de Programa de Posgrado del Año 2011. ............................ 94

Ilustración 4.58 Gráfica con Demanda de Programa de Posgrado del Año 2012. ............................ 95

Ilustración 4.59 Gráfica con Demanda de Programa de Posgrado del Año 2013. ............................ 95

Ilustración 4.60 Gráfica con Demanda de Programa de Posgrado del Año 2014. ............................ 95

Ilustración 4.61 Tabla con Cantidad de Alumnos Activos por Año. .................................................. 96

Ilustración 4.62 Gráfica con Cantidad de Alumnos Activos por Año................................................. 96

Ilustración 4.63 Tabla con Cantidad de Aspirantes Rechazados por Año. ........................................ 96

Ilustración 4.64 Gráfica con Cantidad de Aspirantes Rechazados por Año. ..................................... 96

Ilustración 4.65 Tabla con Cantidad de Alumnos con Baja por abandono de estudios por Año. ..... 97

Ilustración 4.66 Gráfica con Cantidad de Alumnos con Baja por abandono de estudios por Año. .. 97

Ilustración 4.67 Tabla con Cantidad de Alumnos con Baja por otras razones por Año. ................... 97

Ilustración 4.68 Gráfica con Cantidad de Alumnos con Baja por otras razones por Año. ................ 97

Ilustración 4.69 Tabla con Cantidad de Alumnos Graduados dentro del plazo reglamentario por

Año. ................................................................................................................................................... 98

Ilustración 4.70 Gráfica con Cantidad de Alumnos Graduados dentro del plazo reglamentario por

Año. ................................................................................................................................................... 98

Ilustración 4.71 Tabla con Cantidad de Alumnos Graduados fuera del plazo reglamentario por Año.

........................................................................................................................................................... 98

Ilustración 4.72 Gráfica con Cantidad de Alumnos Graduados fuera del plazo reglamentario por

Año. ................................................................................................................................................... 98

Ilustración 4.73 Tabla con Cantidad de Alumnos Graduados dentro del plazo reglamentario por

Sexo de la Maestría en Ciencias en Administración. ......................................................................... 99

Ilustración 4.74 Gráfica con Cantidad de Alumnos Graduados dentro del plazo reglamentario por

Sexo de la Maestría en Ciencias en Administración. ......................................................................... 99

Ilustración 4.75 Tabla con Cantidad de Alumnos Graduados dentro del plazo reglamentario por

Sexo de la Maestría en Ciencias en Estudios Interdisciplinarios para PyMES. .................................. 99

Ilustración 4.76 Gráfica con Cantidad de Alumnos Graduados dentro del plazo reglamentario por

Sexo de la Maestría en Ciencias en Estudios Interdisciplinarios para PyMES. ................................ 100

Ilustración 4.77 Tabla con Cantidad de Alumnos Graduados dentro del plazo reglamentario por

Sexo de la Maestría en Ciencias en Informática. ............................................................................ 100

Page 13: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 12

Ilustración 4.78 Gráfica con Cantidad de Alumnos Graduados dentro del plazo reglamentario por

Sexo de la Maestría en Ciencias en Informática. ............................................................................ 100

Ilustración 4.79 Tabla con Cantidad de Alumnos Graduados dentro del plazo reglamentario por

Sexo de la Maestría en Ciencias en Ingeniería Industrial. ............................................................... 100

Ilustración 4.80 Gráfica con Cantidad de Alumnos Graduados dentro del plazo reglamentario por

Sexo de la Maestría en Ciencias en Ingeniería Industrial. ............................................................... 101

Ilustración 4.81 Tabla con Cantidad de Alumnos Graduados dentro del plazo reglamentario por

Sexo del Doctorado en gestión y Políticas de Innovación. .............................................................. 101

Ilustración 4.82 Gráfica con Cantidad de Alumnos Graduados dentro del plazo reglamentario por

Sexo del Doctorado en gestión y Políticas de Innovación. .............................................................. 101

Ilustración 4.83 Dashboard que muestra el indicador 1: Atención a la Demanda de Formación

Académica con Calidad. .................................................................................................................. 102

Ilustración 4.84 Dashboard que muestra el indicador 2: Tasa de Graduación por Cohorte

Generacional. .................................................................................................................................. 103

Índice de Tablas

Tabla 2.1 Diferencia entre OLTP y OLAP. .......................................................................................... 26

Tabla 4.1 Estructura de campos del Excel con información de los alumnos. ................................... 72

Tabla 4.2 Estructura de campos del Excel con nacionalidad de los alumnos. .................................. 72

Tabla 4.3 Estructura de campos del Excel con situación escolar de los alumnos. ............................ 73

Tabla 4.4 Estructura de campos del Excel con estado civil de los alumnos. ..................................... 73

Tabla 4.5 Estructura de campos del Excel con información de titulación de los alumnos. .............. 74

Tabla 4.6 Estructura de campos del Excel con los programas de posgrado. .................................... 74

Tabla 4.7 Estructura de campos del Excel con tipo de alumnos. ...................................................... 75

Tabla 4.8 Estructura de campos del Excel de las universidades de procedencia de nivel superior. 75

Tabla 4.9 Estructura de campos del Excel con el sexo de los alumnos. ............................................ 76

Page 14: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 13

CAPÍTULO 1

INTRODUCCIÓN

En este capítulo se describe la propuesta de este trabajo de tesis y algunas otras

consideraciones tales como: la problemática inicial, los objetivos generales y específicos, así

como también los alcances y limitaciones que se toman en cuenta.

Page 15: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 14

1.1 Introducción

La Inteligencia de Negocios se ha convertido en una herramienta esencial para

garantizar la gestión de la información, la medición de resultados y la toma de decisiones

en cualquier tipo de organización. Por lo que el sector educativo no es la excepción, ya que

se puede obtener y conocer información relacionada con los alumnos, el personal docente

y administrativo, los planes de estudio, el presupuesto asignado y otros datos afines que

resulten de interés, todo esto encaminado para tener un mejor aprovechamiento de los

recursos.

En la actualidad existen diversas instituciones educativas que ya cuentan con

implementaciones de aplicaciones de Inteligencia de Negocios que les permiten monitorear

el rendimiento de la institución desde distintas perspectivas, además de que ayudan a los

directivos en tomar decisiones para obtener mejores resultados y encaminar los esfuerzos

hacia una educación de mayor calidad.

1.2 Planteamiento del Problema

Actualmente, la Sección de Estudios de Posgrado e Investigación (SEPI) de la Unidad

Profesional Interdisciplinaria de Ingeniería y Ciencias Sociales y Administrativas (UPIICSA)

del Instituto Politécnico Nacional (IPN) carece de una aplicación de inteligencia de negocios

que ayude al Colegio de Profesores, Jefes y Coordinadores de las maestrías y el doctorado

impartidos en dicha sección a conocer de manera rápida, sencilla, gráfica y resumida el

desempeño y características que a través de los años han tenido los alumnos que han

aspirado a cursar, que han cursado o que actualmente están dentro de un programa de

posgrado impartido por la unidad.

Resulta necesario contar con un conjunto de indicadores que muestren el

desempeño de los programas de posgrado y de la sección en general, ya que servirán como

marco de referencia para conocer la situación que se ha presentado a lo largo de los años e

identificar factores que permitan o perjudiquen el logro de los objetivos y a su vez el poder

tomar acciones que ayuden a lograr un mejor rendimiento en los programas de posgrado

ofertados por la SEPI UPIICSA.

Cabe señal que existen diversos aspectos que se podrían conocer a partir de la

información con la que cuenta la SEPI, por ejemplo: se pueden conocer indicadores

relacionados con el personal docente, con la plantilla de alumnos, con los planes de estudio

o cualquier otra información que los directivos consideren importante.

Page 16: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 15

1.3 Solución Propuesta

En este trabajo de tesis se propone crear un Datamart para realizar el seguimiento

del desempeño de la SEPI UPIICSA a través de la definición de indicadores relacionados con

los alumnos que han cursado algún programa de posgrado en esta sección. Dos de estos

indicadores se basan en el Marco de Referencia del Programa Nacional de Posgrados de

Calidad que el Consejo Nacional de Ciencia y Tecnología (CONACyT) y la Subsecretaría de

Educación Superior de la Secretaría de Educación Pública (SEP) han impulsado.

Estos dos indicadores de desempeño relacionados con la información que se tiene

de los alumnos fueron tomados de una propuesta que realizo en ese entonces el

Coordinador de la Maestría en Ciencias en Informática, él Dr. Eric Manuel Rosales Peña

Alfaro en enero de 2016 (Anexo A), los cuales son los siguientes:

1. Atención a la demanda de formación académica con calidad.

2. Tasa de graduación por cohorte generacional.

1.4 Solución Técnica

Por otro lado en cuanto a la solución técnica propuesta se tienen los siguientes

pasos:

1. Identificar los Repositorios y/o Fuentes de Datos con los que cuenta la SEPI de la

UPIICSA.

2. Crear los procesos de Extracción, Transformación y Carga (ETL) en los que se

definan que campos se van a utilizar, es decir, que información es la que

integrará el Data Mart de toda la que se tiene disponible de las distintas fuentes

de datos.

3. Construcción del Data Mart, que representa el repositorio de datos corporativo.

En este repositorio se encontrará la información resultante, ya unificada,

depurada y consolidada.

4. La creación de la interfaz gráfica que permita hacer el seguimiento de los

indicadores, además de la exploración y muestra de la información del Data Mart

de una forma agradable y entendible para el usuario.

La figura siguiente ilustra los pasos para el desarrollo de la solución propuesta.

Page 17: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 16

Ilustración 1.1 Solución Técnica Propuesta

1.5 Objetivo General

El objetivo general es desarrollar un Data Mart que ayude a los directivos de la SEPI

UPIICSA en el seguimiento de características e indicadores relacionados con los alumnos,

así como en la toma de decisiones basándose en la información que se tiene almacenada.

1.6 Objetivo Específicos

Identificar información que se almacena en la base de datos de la SEPI UPIICSA

que resulte de interés y útil para la construcción de indicadores de desempeño

de la Sección.

Mostrar información de interés de manera gráfica y resumida relacionada con

los alumnos que han cursado algún programa de posgrado dentro de la SEPI

UPIICSA.

Diseñar y construir el Data Mart para los guardar la información que permitirá

dar seguimiento a los indicadores de desempeño propuestos.

Sistema

CESC5W

E

T

L

Data Mart de

Alumnos de la

SEPI UPIICSA

Reportes

Page 18: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 17

1.7 Justificación

El desarrollo de este Data Mart resulta útil e importante para la SEPI de la UPIICSA

debido a que puede llegar a convertirse en un repositorio central en donde el Colegio de

Profesores, Jefes, Coordinadores de los distintos programas impartidos o incluso el personal

docente y administrativo involucrado en la área de posgrado puedan consultar información

de manera rápida, sencilla y confiable con respecto a los alumnos que han cursado algún

programa de posgrado a lo largo de los años.

Esta aplicación puede convertirse en una herramienta que ayude a conocer el

comportamiento de temas relacionados con los alumnos en el área de posgrado, además

de que también puede servir como un posible sistema de soporte para la toma de

decisiones que se pudieran llegar a tener en base a los datos históricos con los que cuenta

la SEPI.

1.8 Alcance del proyecto

La aplicación a desarrollar consiste en la creación de un Data Mart de la SEPI UPIICSA

que almacene información relacionada con los alumnos que han cursado algún programa

de estudio de posgrado que se imparte en esta Sección.

A partir de este Data Mart se crearan indicadores que ayudaran a monitorear el

desempeño de los programas de posgrado que tenga relación con la información que se

tiene de los alumnos. Estos indicadores servirán al Colegio de Profesores, Jefes y

Coordinadores a conocer las características de los alumnos que han estado en la unidad y

también podría ayudar en tomar de decisiones que ayuden a mejorar la calidad de los

programas de posgrado impartidos en la sección desde una perspectiva en particular.

1.9 Limitaciones

Aunque existen muchos más indicadores que ayudan a monitorear el desempeño de

los programas de posgrado para mejorar su calidad, en la aplicación que se desarrolla en

este trabajo solo se van a considerar los indicadores de desempeño que se obtengan a partir

de la información que se tiene de los alumnos.

Como trabajo futuro se pueden desarrollar e implementar más indicadores con otra

información importante como por ejemplo con el personal docente o administrativo, los

planes de estudio, el presupuesto asignado, entre otros y que además ayuden a monitorear

Page 19: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 18

el desempeño de la SEPI UPIICSA para poder ofertar una educación de mejor calidad y tener

un mayor reconocimiento como institución formadora de alumnos de posgrado.

Page 20: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 19

CAPÍTULO 2

ANTECEDENTES

Se presenta un marco teórico donde se abordan conceptos generales de Inteligencia

de Negocios, así como la descripción de metodologías y arquitecturas de construcción de

Data Warehouse más importantes que se emplean en los proyectos.

Page 21: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 20

2.1 Inteligencia de Negocios

Hoy en día la mayoría de las organizaciones cuentan con un volumen grande de

datos, por ejemplo de empleados, clientes, departamentos, ventas, compras, promociones,

finanzas, entre muchos otros más. Si bien es cierto que estos datos provienen de diferentes

orígenes, la mayoría de ellos son el resultado de las operaciones que se realizan a diario, es

decir de los sistemas transaccionales con los que cuenta la organización. Sin embargo en

muchas ocasiones estos datos solamente se mantienen almacenados sin hacer un uso

adecuado de ellos y peor aún sin sacar una ventaja competitiva.

A diferencia de años atrás y gracias al uso del Internet y de las Tecnologías de la

Información y Comunicaciones con las que cuentan las organizaciones actualmente, los

directivos ahora pueden acceder a mucha más información de manera rápida, sencilla y

mejor entendible.

Las organizaciones de ahora buscan transformar los datos que tienen almacenados

en información, y esta información a su vez en conocimiento, de forma que se pueda

optimizar el proceso de toma de decisiones.

Ilustración 2.1 La Inteligencia de Negocios.

La Inteligencia de Negocios es un concepto que en los últimos años ha tomado gran

importancia entre las organizaciones y desde luego dentro del área de la Informática,

también es conocida como Business Intelligence por su término anglosajón y fue acuñado

por un consultor de Gartner llamado Howard Dresner, el cual la definió como un proceso

interactivo para explorar y analizar información estructurada sobre un área normalmente

Conocimiento

Información

Datos

Page 22: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 21

almacenada en un Data Warehouse, para descubrir tendencias o patrones, a partir de los

cuales se pueden derivar ideas y extraer conclusiones (Cano, 2007).

The Data Warehouse Institute también propone una definición más amplia sobre

Inteligencia de Negocios como un término que abarca los procesos, las herramientas y las tecnologías para convertir datos en información, la información en conocimiento y planes para conducir de forma eficaz las actividades de los negocios. Abarca las tecnologías de Datawarehousing los procesos en el “back end”, consultas, informes, análisis y las herramientas para mostrar información y los procesos en el “front end” (Oracle, 2016).

Otra definición más pragmática de Inteligencia de Negocios que se tiene es el

conjunto de metodologías, aplicaciones y tecnologías que permiten reunir, depurar y

transformar datos de los sistemas transaccionales e información desestructurada en

información estructurada, para su explotación directa o para su análisis y conversión en

conocimiento, dando así soporte a la toma de decisiones sobre el negocio (Sinnexus, s.f.).

Actualmente la Inteligencia de Negocios es un factor estratégico para cualquier tipo

de organización, ya que permite tener una ventaja competitiva proporcionando

información privilegiada para responder a los problemas de negocio. Dependiendo de las

necesidades y características de cada organización se pueden implementar alguno de los

tres productos principales que la Inteligencia de Negocios ofrece, los cuales son: los cuadro

de mando integrales, los sistemas de soporte a las decisiones y los sistemas de información

ejecutiva.

2.2 Cuadro de Mando Integral El Cuadro de Mando Integral (CMI), también conocido como “Balanced Scorecard”

o “Dashboard” es una herramienta de control empresarial que permite establecer y monitorear los objetivos de una organización y de sus diferentes áreas. Originalmente fue desarrollado para la medición de procesos financieros, pero se ha convertido en un sistema integral de administración de la eficiencia o desempeño. El objetivo del CMI es dar a las organizaciones elementos para medir su éxito (IEDGE, 2017).

Mediante indicadores permite monitorear el cumplimiento de la estrategia

desarrollada por la dirección a la vez que permite tomar decisiones rápidas y acertadas para alcanzar los objetivos. Es un método para alinear el rendimiento del negocio con la estrategia organizacional. Facilita la implantación de la estrategia de la empresa de una forma eficiente, proporciona el marco, la estructura y el lenguaje adecuado para comunicar o traducir la misión y la estrategia en objetivos e indicadores organizados en cuatro perspectivas: finanzas, clientes, procesos internos, formación y crecimiento.

Page 23: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 22

Perspectiva financiera incorpora la visión de los accionistas y mide la creación de valor de la organización. Esta perspectiva valora uno de los objetivos más relevantes de organizaciones con ánimo de lucro que es crear valor para la sociedad.

Perspectiva del cliente analiza cómo es el mercado que tiene la organización, cuáles son los segmentos en los que se enfocará, cuál será la proposición de valor según las preferencias de estos segmentos, y en qué se debe cambiar respecto de la actual.

Perspectiva interna recoge indicadores de procesos internos que son críticos para el

posicionamiento en el mercado y para llevar la estrategia a buen puerto. Perspectiva de aprendizaje y crecimiento. Para cualquier estrategia, los recursos

materiales y las personas son la clave del éxito. Pero sin un modelo de negocio apropiado, muchas veces es difícil apreciar la importancia de invertir, y en épocas de crisis las primeras inversiones que se recortan son en la mejora y el desarrollo de los recursos.

Ilustración 2.2 Cuadro de Mando Integral.

El CMI se diferencia de los Sistemas de Soporte a la Decisión y los Sistemas de Información Ejecutiva en que está orientado al seguimiento de indicadores más que al análisis minucioso de la información. Normalmente es utilizado por la dirección general ya que es la que crea la estrategia y el modelo de negocio de la organización.

Page 24: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 23

Aunque el CMI originalmente consta de cuatro perspectivas principales, estas no son obligatorias, ya que dependiendo de la actividad y de las necesidades propias de la organización se pueden agregar o quitar algunas de ellas. Lo importante es definir claramente tanto los objetivos que se quieren alcanzar como los indicadores que se utilizaran para su seguimiento. Un punto importante a tomar en cuenta es que el número de indicadores por perspectiva no sea mayor a siete y si son menos mucho mejor, la razón principal es que el tener demasiados indicadores difuminan el mensaje que comunica el CMI, además que los esfuerzos se dispersan intentando perseguir demasiados objetivos al mismo tiempo.

2.3 Sistema de Soporte a la Decisión

Un Sistema de Soporte a la Decisión (Decision Support System, DSS), es un sistema informático que utiliza información y modelos matemáticos para ayudar a tomar decisiones empresariales adecuadas según las condiciones del mercado y la situación interna de la organización (Businessintelligence, 2013).

Los DDS son sistemas de apoyo enfocados en el análisis de los datos de la organización y sirven para ayudar a los directivos a tomar decisiones que a menudo son cambiantes y se deben tomar rápidamente (Mos, 2015).

Continuamente dentro de las organizaciones se toman decisiones de distinto tipo y de manera diferente, hay decisiones que se toman de manera informal casi por instinto que no afectan a la organización, sin embargo existen otras decisiones que se deben tomar de manera racional y absolutamente informada ya que pueden a llegar a comprometer el funcionamiento y éxito de la organización, por lo que el uso de un DSS ayuda a que se tengan resultados más eficientes y efectivos.

Los DSS tienen como principal objetivo explotar al máximo la información que se

tiene almacenada dentro de una base de datos corporativa, ya sea un Data Warehouse o un Datamart, apoyándose de informes dinámicos y navegables a través de una interfaz gráfica, amigable y sencilla. Otra característica importante de los DSS es que pueden ser utilizados por usuarios de cualquier nivel gerencial dentro de una organización no solo por la alta dirección, tanto para situaciones estructuradas como no estructuradas.

2.4 Sistema de Información Ejecutiva Un Sistema de Información Ejecutiva (EIS) es una herramienta de software, basada

en un DSS que provee a los gerentes un acceso sencillo a la información interna y externa de la compañía y que es relevante para los factores claves del éxito (Cohen, 1996).

Page 25: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 24

Habitualmente estas herramientas se crean para que el usuario o ejecutivo que las maneje pueda conseguir los datos ágilmente y los comprenda en el menor tiempo posible para localizar los errores que se pueden presentar. Además de facilitarle la recuperación y análisis de la información a través de distintas métricas que auxilien a saber el desempeño de la empresa (Tolentino, 2016).

La finalidad principal de un EIS es que el ejecutivo tenga a su disposición un

panorama completo del estado de los indicadores de negocio le afectan al instante, manteniendo la posibilidad de analizar con detalle aquellos que no estén cumpliendo con las expectativas establecidas, para determinar el plan de acción adecuado.

Por lo general un buen EIS presenta la información en forma de gráficas, informes y listados, además de que debe cumplir con ciertas características para que tenga éxito entre los usuarios de la organización y estas son: que sea intuitivo, que responda rápido, que tenga una interfaz agradable y que la información este siempre disponible y actualizada.

2.5 Sistemas OLTP y OLAP Un sistema OLTP (OnLine Transaction Processing) se puede definir como una

herramienta tecnológica capaz de soportar el procesamiento, administración y mantenimiento diario de transacciones generadas por los negocios de una organización, para ofrecer altos niveles de disponibilidad, seguridad y confiabilidad. El proceso transaccional es típico de las bases de datos operacionales.

Una transacción genera un proceso atómico que debe ser validado con un commit,

o invalidado con un rollback, y que puede involucrar operaciones de inserción, modificación y borrado de datos. En las base de datos OLTP se encuentra la información actual y detallada del negocio, esta bases de datos por lo regular se implementan siguiendo el modelo relacional llevado a la 3FN. (Businessintelligence, 2013)

Un sistema OLAP (OnLine Analytical Processing) es una solución utilizada en el

campo de la Inteligencia de Negocios cuyo objetivo es agilizar la consulta de grandes cantidades de datos. Para ello utiliza estructuras multidimensionales o cubos OLAP que contienen datos resumidos de grandes bases de datos o sistemas transaccionales (OLTP). Se usa en informes de negocios de ventas, marketing, informes de dirección, minería de datos y áreas similares. (Businessintelligence, 2013)

En las bases de datos OLAP se encuentra información agregada e histórica que se

almacena en esquemas multidimensionales como son el esquema estrella o copo de nieve. Se caracterizan por un volumen relativamente bajo de transacciones y las consultas frecuentemente son muy complejas e incluyen funciones de agregación. (Datawarehouse4u, 2009)

Page 26: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 25

Existen una serie de acciones básicas que se pueden realizar con la información que se encuentra en un sistema OLAP, las cuales son:

Segmentar.

Filtrar.

Profundizar (Drill down).

Sintetizar (Drill up).

Rotar (Drill anywhere). A continuación se listan las principales diferencias que existen entre los sistemas

OLTP y OLAP (Wiki.scn.sap.com, 2010).

Sistema OLTP Sistema OLAP

Fuente de Datos Información operacional; Son la fuente original de datos.

Información consolidada; Los datos en OLAP vienen de varias Bases de Datos OLTP.

Propósito de la Información

Controlar y ejecutar tareas fundamentales del negocio.

Ayudar con la planeación, la resolución de problemas y el soporte a la toma de decisiones.

Velocidad de Procesamiento

Típicamente muy rápidas. Depende de la cantidad de datos involucrados. Actualización de lote de datos y consultas complejas pueden tomar muchas horas. La velocidad de las consultas puede mejorar creando índices.

Diseño de Base de Datos Altamente normalizadas con muchas tablas.

Típicamente desnormalizado con pocas tablas. Uso de los esquemas estrella y copo de nieve.

Copia de Seguridad y Recuperación

Los datos operacionales son críticos para ejecutar el negocio, la pérdida de datos es probable que conlleve a una pérdida monetaria significativa y se tengan responsabilidades legales.

En lugar de copias de seguridad periódicas, algunos entornos pueden considerar simplemente recargar los datos OLTP como un método de recuperación.

Edad de los Datos Actuales. Históricos.

Consultas Relativamente estandarizadas y sencillas. Regresan relativamente pocos registros.

Frecuentemente complejas involucrando agregaciones.

Page 27: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 26

Operaciones en Base de Datos

Insertar, Modificar, Eliminar, Lectura.

Lectura.

Inserts y Updates

Inserciones y actualizaciones cortas y rápidas iniciadas por los usuarios finales.

Jobs periódicos de lotes que actualizan los datos.

Que revelan los datos Una toma instantánea de los procesos de negocio en curso.

Vistas multidimensionales de diversos tipos de actividades empresariales.

Requisitos de espacio Puede ser relativamente pequeño si se archivan datos históricos.

Más grande debido a la existencia de estructuras de agregación y datos históricos; Requiere más índices que OLTP.

Conjunto de Datos 6 – 18 meses. 2 – 7 años. Tabla 2.1 Diferencia entre OLTP y OLAP.

2.6 Data Warehouse

Un Data Warehouse es un almacén electrónico donde generalmente una empresa u

organización mantiene una gran cantidad de información. Los datos de un Data Warehouse

deben almacenarse de forma segura, fiable, fácil de recuperar y de administrar.

El concepto de Data Warehouse se originó en 1988 con el trabajo de los

investigadores de IBM, Barry Devlin y Paul Murphy aunque el término Data Warehouse fue

acuñado por William H. Inmon, el cual es conocido como el padre de Data Warehousing.

Inmon describió un Data Warehouse como una colección de datos orientada a un tema

específico, integrado, variante en el tiempo y no volátil, que soporta el proceso de toma de

decisiones.

Data Warehouse es una arquitectura de almacenamiento de datos que permite a los

ejecutivos de negocios organizar, comprender y utilizar sus datos para tomar decisiones

estratégicas (Grupo PowerData, 2017).

Proporciona una visión global, común e integrada de los datos de la organización,

independiente de cómo se vayan a utilizar posteriormente por los consumidores o usuarios.

Normalmente en el Data Warehouse habrá que guardar información histórica que cubra un

amplio período de tiempo (El Rincon del BI, 2010).

Un Data Warehouse es un contenedor en el que se almacenan los datos procedentes

de las distintas fuentes que puedan existir en una organización, quedando éstos integrados,

depurados y ordenados en una única base de datos centralizada. En este almacén se

Page 28: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 27

guardarán los datos durante el período de tiempo requerido para cumplir con las

necesidades de consulta de cada organización.

Con este sistema, las compañías consiguen tener integrados en un único contenedor

todos los datos de sus diferentes procesos de negocio, listos para ser analizados mediante

las herramientas de explotación y reporting (BI Geek, 2016).

2.7 Data Mart

Un Data Mart es una base de datos departamental, especializada en el

almacenamiento de los datos de un área de negocio específica. Se caracteriza por disponer

la estructura óptima de datos para analizar la información al detalle desde todas las

perspectivas que afecten a los procesos de dicho departamento. Un Data Mart puede ser

alimentado desde los datos de un Data Warehouse, o integrar por sí mismo un compendio

de distintas fuentes de información (Sinnexus, s.f.).

Se ocupa de almacenar información de un departamento o grupo de trabajo

específico. Funciona como una aplicación del Data Warehouse o una alternativa para

empresas medianas que no pueden afrontar los costos de implementar un sistema tan

amplio de almacenamiento de data. Las Data Marts pueden ser dependientes o

independientes del Data Warehouse. Sin embargo, cabe mencionar que contar con

sistemas independientes que no se encuentren integrados entre sí puede dificultar las

tareas de administración y mantenimiento (Business, 2015).

El Data Mart, cuya definición es bastante similar a la del Data Warehouse, siendo su

alcance la principal diferencia entre estos dos tipos de bases de datos. Así, mientras un Data

Warehouse contiene todos los datos de una organización, un Data Mart solamente recoge

un subconjunto de éstos, centrándose en un área específica dentro del negocio. Su objetivo

es cubrir las necesidades de un determinado departamento dentro de la organización, por

lo que podría definirse como un almacén de datos departamental.

El Data Mart es un sistema orientado a la consulta, cuya distribución interna de los

datos es clara y no hay dudas al respecto, estando éstos estructurados en modelos

dimensionales de estrella o copo de nieve (BI Geek, 2016).

Page 29: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 28

2.8 Arquitectura BI

Conocer qué son un Data Warehouse y un Data Mart y, sobretodo, entender su

finalidad y la creciente necesidad de las organizaciones de implantarlos es realmente

importante para llegar a comprender, desde un punto de vista global, qué es Business

Intelligence y poder emprender un proyecto de sus características.

Existen distintos enfoques en cuanto a la estructura interna y construcción del Data

Warehouse, siendo los más importantes los de Bill Inmon y Ralph Kimball.

2.8.1 Arquitectura BI. El enfoque de William H. Inmon

Para William H. Inmon, un Data Warehouse ha de entenderse como un almacén de

datos único y global para toda la empresa. Un repositorio que centralice los datos de los

diferentes sistemas operacionales de las organizaciones para que éstos queden validados e

integrados en una única base de datos.

En este modelo, la premisa es que la información se almacene al máximo nivel de

detalle garantizando la futura exploración de los datos, permaneciendo invariable y no

volátil, de manera que los cambios que sufran los datos a lo largo del tiempo queden

registrados sin que puedan modificarse o eliminarse.

Estas son las claves fundamentales de la arquitectura defendida por Inmon,

conocida como Corporate Information Factory (CIF), donde el Data Warehouse centraliza

todos los datos de la compañía para alimentar, a continuación, pequeños Data Marts

temáticos, que serán los puntos de acceso para las herramientas de reporting. En este

sentido, cada departamento tendrá su propio Data Mart, abastecido con la información del

Data Warehouse, listo para su análisis y explotación.

Este enfoque de Inmon suele denominarse como una metodología de trabajo “Top-

Down”, ya que se centra primero en una visión global de la compañía, para ir

desmembrándola en pequeños sets de datos departamentales. Así, con esta arquitectura,

todos los Data Marts de la organización están conectados al Data Warehouse, evitándose

la aparición de incongruencias y anomalías al comparar los datos entre distintos

departamentos.

Page 30: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 29

Ilustración 2.3 Arquitectura BI. Enfoque de William H. Inmon.

En cuanto a la estructura interna del Data Warehouse, para Inmon la prioridad es

que el modelo de datos esté construido en tercera forma normal. Por dar una breve

explicación de lo que esto significa, el proceso de normalización consiste en aplicar una serie

de reglas o normas a la hora de establecer las relaciones entre los diferentes objetos dentro

de la base de datos. Con este proceso de normalización se consiguen muchos beneficios,

como evitar la redundancia de los datos, mantener su integridad referencial, facilitar el

mantenimiento de las tablas y disminuir el tamaño de la base de datos. Sin embargo, a

diferencia de los Data Warehouse desnormalizados, las consultas exigen el empleo de

queries mucho más complejas, lo que dificulta el análisis directo de la información y el uso

de las herramientas de reporting.

Ilustración 2.4 Estructura interna DW. Enfoque de William H. Inmon.

Page 31: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 30

2.8.2 Arquitectura BI. El enfoque de Ralph Kimball

Al contrario que Inmon, Kimball defiende una metodología de trabajo “Bottom-up”.

Con esto quiere decir que el procedimiento a seguir para construir un Data Warehouse es

empezar en un principio por pequeños componentes para ir evolucionando a estructuras y

modelos superiores. Y esto es así porque para Kimball un Data Warehouse no es más que

la unión de los diferentes Data Marts de una organización.

Su filosofía se centra en que, en la mayoría de las organizaciones, la construcción de

un Data Warehouse se origina por el interés y esfuerzo de un departamento. Es por esto

por lo que en su primera versión este Data Warehouse no es más que un Data Mart

departamental.

A medida que otros departamentos necesiten sus propios Data Marts, éstos se irán

combinando con el primero manteniendo una metodología de estandarización mediante lo

que Kimball denomina “dimensiones conformadas”, que serán las dimensiones comunes

entre los diferentes departamentos. La clave radica en que estas dimensiones han de ser

compartidas por los distintos Data Marts que existan en la organización, garantizándose así

la integridad de los mismos y dando lugar al conglomerado de estructuras que para Kimball

conforman el Data Warehouse.

Para lograr este resultado es importante que estas dimensiones conformadas

tengan un diseño consistente y apto para todos los Data Marts, de forma que al crearse uno

nuevo reutilice las dimensiones ya definidas, pudiendo incluir o no otras dimensiones

nuevas.

La principal ventaja de este enfoque de almacén de datos es que, al estar formado

por pequeños Data Marts estructurados en modelos de datos dimensionales (esquemas de

estrella o copo de nieve), especialmente diseñados para la consulta y generación de

informes, el Data Warehouse al completo puede ser explotado directamente por las

herramientas de reporting y análisis de datos sin la necesidad de estructuras intermedias.

En cuanto a las cuestiones sobre la granularidad, a pesar de que este tipo de Data

Warehouse suele presentar los datos agregados en base a las consultas e informes que haya

que generar, Kimball insiste en la necesidad de que estas agregaciones estén

complementadas con datos a mayor nivel de detalle. El argumento es que las preguntas de

negocio que puedan llegar a hacer los usuarios son impredecibles, de manera que el Data

Warehouse tiene que estar preparado para dar respuesta a todas ellas, garantizando la

exploración de los datos y la navegación a través de jerarquías desde datos agregados hasta

información desagregada.

Page 32: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 31

Ilustración 2.5 Arquitectura BI. Enfoque de Ralph Kimball.

A este tipo de arquitectura Kimball lo denomina como “Data Warehouse Bus

Architecture” y los cuatro pasos fundamentales que se han de seguir para construir este

tipo de base de datos son, en primer lugar, la identificación del proceso de negocio que se

pretenda estudiar, la definición de la granularidad de los datos, la selección de las

dimensiones y atributos y, por último, la identificación de los hechos o métricas. (Dertiano,

Arquitectura BI (Parte III): El enfoque de Ralph Kimball - Mirai Advisory Blog, 2015).

Ilustración 2.6 Estructura interna DW. Enfoque de Ralph Kimball.

Page 33: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 32

2.9 Metodología

El tema de la metodología es considerada parte medular de la formación

profesional. Muchos profesionales y proyectos se guían por metodologías basadas en las

corrientes de Kimball y/o Inmon, así como muchos otros diseñan sus propias metodologías

basadas en alguna de estas corrientes mencionadas o que sean afines a la tecnología

seleccionada.

La metodología que se emplean en los proyectos de inteligencia de negocios nos da

mayor grado de certidumbre de que se cumplirán los objetivos trazados en el tiempo

convenido desde el punto de vista de tecnología de información, pero cabe aclarar que los

proyectos de inteligencia de negocios tienen dos perspectivas, la de negocios y la de

tecnología.

El uso de la metodología nos puede orientar a definir correctamente los objetivos

de negocio y definir las metas del proyecto, pero no garantiza un proyecto exitoso debido

a los factores directos e indirectos que influyen en este tema, como lo son las herramientas

seleccionadas, la cultura organizacional, perfiles técnicos y de negocio de los consultores,

presupuesto del proyecto, entre otros (Metodología para Business Intelligence, 2008).

En la actualidad existe una gran variedad de modelos y metodologías que tratan de

dar solución a la gestión de proyectos informáticos, todos ellos y ellas con características

propias y con puntos fuertes y débiles dependiendo de la naturaleza del proyecto a realizar

y aunque cada proyecto de inteligencia de negocios es único y responde a unas

particularidades técnicas y procesos de ejecución distintos, es posible definir unas etapas o

fases, así como una serie de características que son comunes a casi todos.

Los proyectos de inteligencia de negocios responden siempre al mismo objetivo

básico que es dotar a la organización de los medios necesarios para que pueda tomar las

decisiones estratégicas y operacionales más adecuadas tomando como base el análisis de

datos. La principal pretensión de todo proyecto de inteligencia de negocios es que cualquier

persona con responsabilidad o poder de decisión en una organización disponga de

información adecuada, precisa, relevante y en definitiva, convertida en un instrumento

válido y útil como base, refuerzo o argumento en la toma de decisiones importantes para

la organización.

A continuación se describe la metodología de Kimball que es una de las más

importantes y utilizada en inteligencia de negocios que existen actualmente y sobre la cual

se basan una gran variedad de proyectos. También se describe la metodología CRISP-DM

que es utilizada principalmente en proyectos de Minería de Datos.

Page 34: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 33

2.9.1 Metodología de Kimball

Ralph Kimball (1944) es considerado el inventor del Modelo Dimensional y pionero

en Data Warehouse y la Inteligencia de Negocios. Define un almacén de datos como: "una

copia de las transacciones de datos específicamente estructurada para la consulta y el

análisis". También fue Kimball quien determinó que un Data Warehouse no era más que:

"la unión de todos los Data Marts de una entidad". Defiende por tanto una metodología

ascendente (buttom-up) a la hora de diseñar un almacén de datos (Brito, 2014).

La metodología se basa en lo que Kimball denomina Ciclo de Vida Dimensional del

Negocio (Business Dimensional Lifecycle). Este ciclo de vida del proyecto de DW, está

basado en cuatro principios básicos:

Centrarse en el negocio: Hay que concentrarse en la identificación de los

requerimientos del negocio y su valor asociado, y usar estos esfuerzos para

desarrollar relaciones sólidas con el negocio, agudizando el análisis del mismo y

la competencia consultiva de los implementadores.

Construir una infraestructura de información adecuada: Diseñar una base de

información única, integrada, fácil de usar, de alto rendimiento donde se

reflejará la amplia gama de requerimientos de negocio identificados en la

empresa.

Realizar entregas en incrementos significativos: Crear el almacén de datos (DW)

en incrementos entregables en plazos de 6 a 12 meses. Hay que usar el valor de

negocio de cada elemento identificado para determinar el orden de aplicación

de los incrementos. En esto la metodología se parece a las metodologías ágiles

de construcción de software.

Ofrecer la solución completa: Proporcionar todos los elementos necesarios para

entregar valor a los usuarios de negocios. Para comenzar, esto significa tener un

almacén de datos sólido, bien diseñado, con calidad probada, y accesible.

También se deberá entregar herramientas de consulta ad hoc, aplicaciones

para informes y análisis avanzado, capacitación, soporte, sitio web

y documentación.

La construcción de una solución de DW/BI (Data Warehouse/Business Intelligence)

es sumamente compleja, y Kimball nos propone una metodología que nos ayuda a

simplificar esa complejidad. Las tareas de esta metodología se describen a continuación:

Page 35: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 34

Ilustración 2.7 Tareas de Ciclo de Vida Dimensional.

Como se puede apreciar en la figura, los requerimientos del negocio son el soporte

inicial de las tareas subsiguientes. También tiene influencia en el plan de proyecto.

Podemos también ver tres rutas o caminos que se enfocan en tres diferentes áreas:

Tecnología (Camino Superior): Implica tareas relacionadas con software

específico, por ejemplo, Microsoft SQL Analysis Services, Pentaho, Oracle, entre

otros.

Datos (Camino del medio): En la misma diseñaremos e implementaremos el

modelo dimensional, y desarrollaremos el subsistema de Extracción,

Transformación y Carga (Extract, Transformation, and Load - ETL) para cargar el

DW.

Aplicaciones de Inteligencia de Negocios (Camino Inferior): En esta ruta se

encuentran tareas en las que diseñamos y desarrollamos las aplicaciones de

negocios para los usuarios finales.

Estas rutas se combinan cuando se instala finalmente el sistema. En la parte de

debajo de la figura se muestra la actividad general de administración del proyecto. A

continuación describiremos cada una de las tareas:

Page 36: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 35

Planificación del Proyecto

En este proceso se determina el propósito del proyecto de DW/BI, sus objetivos

específicos y el alcance del mismo, los principales riesgos y una aproximación inicial a las

necesidades de información.

En la visión de programas y proyectos de Kimball, proyecto se refiere a una iteración

simple del Ciclo de Vida de Kimball, desde el lanzamiento hasta el despliegue.

Esta tarea incluye las siguientes acciones típicas de un plan de proyecto:

Definir el alcance (entender los requerimientos del negocio).

Identificar las tareas.

Programar las tareas.

Planificar el uso de los recursos.

Asignar la carga de trabajo a los recursos.

Elaboración de un documento final que representa un plan del proyecto.

Además en esta parte definimos cómo realizar la administración o gestión de esta

subfase que es todo un proyecto en sí mismo, con las siguientes actividades:

Monitoreo del estado de los procesos y actividades.

Rastreo de problemas.

Desarrollo de un plan de comunicación comprensiva que direccione la empresa

y las áreas de TI.

Definición de Requerimientos del Negocio

La definición de los requerimientos es en gran medida un proceso de entrevistar al

personal de negocio y técnico, pero siempre conviene tener un poco de preparación previa.

Se debe aprender tanto como se pueda sobre el negocio, los competidores, la industria y

los clientes del mismo. Hay que leer todos los informes posibles de la organización; rastrear

los documentos de estrategia interna; entrevistar a los empleados, analizar lo que se dice

en la prensa acerca de la organización, la competencia y la industria. Se deben conocer los

términos y la terminología del negocio.

Se sugiere entrevistar al personal que se encuentra en los cuatro grupos que se

mencionan a continuación:

Page 37: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 36

El directivo responsable de tomar las decisiones estratégicas.

Los administradores intermedios y de negocio responsables de explorar

alternativas estratégicas y aplicar decisiones.

El personal de sistemas, si existe (estas son las personas que realmente saben

qué tipos de problemas informáticos y de datos existen en la organización).

El personal que se entrevista por razones políticas.

Entre las tareas antes descritas, existe una flecha bidireccional, esto indica que los

requerimientos del negocio son el soporte inicial de las tareas subsiguientes, también tiene

influencia en el plan de proyecto.

Si avanzamos por el camino central del diagraman, encontramos las tareas asociadas

al área de Datos, en esta, diseñaremos e implementaremos el modelo dimensional, y

desarrollaremos el subsistema de Extracción, Transformación y Carga (ETL) para cargar el

DW. Las tareas pertenecientes al área, se describen a continuación:

Modelado Dimensional

Es un proceso dinámico y altamente iterativo. Comienza con un modelo dimensional

de alto nivel obtenido a partir de los procesos priorizados y descritos en la tarea anterior, y

consiste en cuatro pasos:

Elegir el proceso de negocio: que consiste en, elegir el área a modelizar. Esta es

una decisión de la dirección, y depende fundamentalmente del análisis de

requerimientos y de los temas analíticos anotados en la etapa anterior.

Establecer el nivel de granularidad: La granularidad significa especificar el nivel

de detalle. La elección de la granularidad depende de los requerimientos del

negocio y lo que es posible a partir de los datos actuales. La sugerencia general

es comenzar a diseñar el DW al mayor nivel de detalle posible, ya que se podrían

realizar agrupamientos posteriores, al nivel deseado.

Elegir las dimensiones: Las dimensiones surgen naturalmente de las discusiones

del equipo, y facilitadas por la elección del nivel de granularidad y de la matriz

de procesos/dimensiones. Las tablas de dimensiones tienen un conjunto de

atributos (generalmente textuales) que brindan una perspectiva o forma de

análisis sobre una medida en una tabla hechos. Una forma de identificar las

tablas de dimensiones es que sus atributos son posibles candidatos para ser

encabezado en los informes, tablas pivote, cubos, o cualquier forma de

visualización, unidimensional o multidimensional.

Page 38: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 37

Identificar medidas y las tablas de hechos: Este paso, consiste en identificar las

medidas que surgen de los procesos de negocios. Una medida es un atributo de

una tabla que se desea analizar, sumando o agrupando sus datos y usando los

criterios de corte conocidos como dimensiones. Las medidas habitualmente se

vinculan con el nivel de granularidad, y se encuentran en tablas que

denominamos tablas de hechos. Cada tabla de hechos tiene como atributos una

o más medidas de un proceso organizacional, de acuerdo a los requerimientos.

Un registro contiene una medida expresada en números, como puede ser

cantidad, tiempo, dinero, entre otros, sobre la cual se desea realizar una

operación de agregación (promedio, conteo, suma) en función de una o más

dimensiones. La granularidad, en este punto, es el nivel de detalle que posee

cada registro de una tabla de hechos.

Diseño Físico

En esta parte, intentamos contestar las siguientes preguntas:

¿Cómo puede determinar cuán grande será el sistema de DW/BI?

¿Cuáles son los factores de uso que llevarán a una configuración más grande y

más compleja?

¿Cómo se debe configurar el sistema?

¿Cuánta memoria y servidores se necesitan?

¿Qué tipo de almacenamiento y procesadores?

¿Cómo instalar el software en los servidores de desarrollo, prueba y

producción?

¿Qué necesitan instalar los diferentes miembros del equipo de DW/BI en sus

estaciones de trabajo?

¿Cómo convertir el modelo de datos lógico en un modelo de datos físicos en la

base de datos relacional?

¿Cómo conseguir un plan de indexación inicial?

¿Debe usarse la partición en las tablas relacionales?

Diseño del Sistema de Extracción, Transformación y Carga (ETL)

Es la base sobre la cual se alimenta el Data Warehouse. Si el sistema ETL se diseña

adecuadamente, puede extraer los datos de los sistemas de origen de datos, aplicar

diferentes reglas para aumentar la calidad y consistencia de los mismos, consolidar la

Page 39: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 38

información proveniente de distintos sistemas, y finalmente cargar la información en el

DW en un formato acorde para la utilización por parte de las herramientas de análisis.

Implementación

La implementación representa la convergencia de la tecnología, los datos y las

aplicaciones de usuarios finales accesible desde el escritorio del usuario del negocio. Existen

varios factores extras que aseguran el correcto funcionamiento de todas estas piezas, entre

ellos se encuentran la capacitación, el soporte técnico, la comunicación y las estrategias de

feedback.

Mantenimiento y Crecimiento del Data Warehouse

Para administrar el entorno del Data Warehouse existente es importante enfocarse

en los usuarios de negocio, los cuales son el motivo de su existencia, además de gestionar

adecuadamente las operaciones del Data Warehouse, medir y proyectar su éxito y

comunicarse constantemente con los usuarios para establecer un flujo de

retroalimentación, En esto consiste el Mantenimiento. Finalmente, es importante sentar las

bases para el crecimiento y evolución del Data Warehouse en donde el aspecto clave es

manejar el crecimiento y evolución de forma iterativa utilizando el Ciclo de Vida propuesto,

y establecer las oportunidades de crecimiento y evolución en orden por nivel prioridad.

Si avanzamos por el camino inferior del diagraman, encontramos las tareas

asociadas al área Aplicaciones de Inteligencia de Negocios, en esta ruta se encuentran

tareas en las que diseñamos y desarrollamos las aplicaciones de negocios para los usuarios

finales. Las tareas pertenecientes al área, se describen a continuación:

Especificación de aplicaciones de BI

En esta tarea se proporciona, a una gran comunidad de usuarios una forma más

estructurada y por lo tanto, más fácil, de acceder al almacén de datos. Se proporciona este

acceso estructurado a través de lo que llamamos, aplicaciones de inteligencia de

negocios. Las aplicaciones de BI son la cara visible de la inteligencia de negocios: los

informes y aplicaciones de análisis proporcionan información útil a los usuarios. Las

aplicaciones de BI incluyen un amplio espectro de tipos de informes y herramientas de

análisis, que van desde informes simples de formato fijo, a sofisticadas aplicaciones

Page 40: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 39

analíticas que usan complejos algoritmos e información del dominio. Kimball divide a estas

aplicaciones en dos categorías basadas en el nivel de sofisticación, y les llama:

Informes estándar: son informes relativamente simples, de formato

predefinido, y parámetros de consulta fijos, proporcionan a los usuarios un

conjunto básico de información acerca de lo que está sucediendo en un área

determinada de la empresa y se utilizan día a día.

Aplicaciones analíticas: Son más complejas que los informes estándar. Estas

aplicaciones pueden incluir algoritmos y modelos de minería de datos, que

ayudan a identificar oportunidades o cuestiones subyacentes en los datos, y el

usuario puede pedir cambios en los sistemas transaccionales basándose en los

conocimientos obtenidos del uso de la aplicación de BI. Algunas aplicaciones

analíticas comunes incluyen:

Análisis de la eficacia de las promociones.

Análisis de rutas de acceso en un sitio Web.

Análisis de afinidad de programas.

Planificación del espacio en espacios comerciales.

Detección de fraudes.

Administración y manejo de categorías de productos.

Por último, en el camino superior, encontramos las tareas asociadas al área de

Tecnología en esta ruta, se encuentran las tareas relacionadas con software específico.

Diseño de la Arquitectura Técnica

El área de arquitectura técnica cubre los procesos y herramientas que se aplican a

los datos. En el área técnica existen dos conjuntos que tienen distintos requerimientos,

brindan sus propios servicios y componentes de almacenaje de datos, por lo que se

consideran cada uno aparte: El back-end y el front-end. El back-end es el responsable de la

obtención y preparación de los datos, por lo que también se conoce como adquisición de

datos y el front-end es responsable de entregar los datos a la comunidad de usuario y

también se le conoce como acceso de datos.

Page 41: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 40

2.9.2 CRISP-DM (Cross Industry Standard Process for Data Mining)

CRISP–DM [CRISP-DM, 2000], es la guía de referencia más utilizada en el desarrollo

de proyectos de Minería de Datos. Los orígenes de CRISP-DM, se remontan hacia el año

1999 cuando un importante consorcio de empresas europeas tales como NCR (Dinamarca),

AG(Alemania), SPSS (Inglaterra), OHRA (Holanda), Teradata, SPSS, y Daimer-Chrysler,

proponen a partir de diferentes versiones de KDD (Knowledge Discovery in Databases)

[Reinartz, 1995], [Adraans, 1996], [Brachman, 1996], [Fayyad, 1996], el desarrollo de una

guía de referencia de libre distribución denominada CRISP-DM (Cross Industry Standard

Process for Data Mining).

CRISP-DM, está dividida en 4 niveles de abstracción organizados de forma jerárquica

(Figura 2.8) en tareas que van desde el nivel más general, hasta los casos más específicos y

organiza el desarrollo de un proyecto de Minería de Datos, en una serie de seis fases (Figura

2.9).

Ilustración 2.8 Esquema de los 4 niveles de CRISP-DM.

La sucesión de fases no es necesariamente rígida. Cada fase es estructurada en

varias tareas generales de segundo nivel. Las tareas generales se proyectan a tareas

específicas, donde finalmente se describen las acciones que deben ser desarrolladas para

situaciones específicas, pero en ningún momento se propone como realizarlas.

Page 42: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 41

Ilustración 2.9 Modelo de procesos CRISP–DM.

Fase de comprensión del negocio o problema

La primera fase denominada fase de comprensión del negocio o problema (Figura

2.10), es probablemente la más importante y engloba tareas de comprensión de los

objetivos y requisitos del proyecto desde una perspectiva empresarial o institucional, con

el fin de convertirlos en objetivos técnicos y en un plan de proyecto.

Para obtener el mejor provecho de Minería de Datos, es necesario entender de la

manera más completa el problema que se desea resolver, esto permitirá recolectar los

datos correctos e interpretar correctamente los resultados. En esta fase, es muy importante

la capacidad de poder convertir el conocimiento adquirido del negocio, en un problema de

Minería de Datos y en un plan preliminar cuya meta sea el alcanzar los objetivos del negocio.

Una descripción de cada una de las principales tareas que componen esta fase es la

siguiente:

Page 43: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 42

Ilustración 2.10 Fase de comprensión del negocio o problema.

Determinar los objetivos del negocio. Esta es la primera tarea a desarrollar y

tiene como metas, determinar cuál es el problema que se desea resol ver, por

qué la necesidad de utilizar Minería de Datos y definir los criterios de éxito. En

cuanto a los criterios de éxito, estos pueden ser de tipo cualitativo o cuantitativo,

en cuyo caso un experto en el área de dominio, califica el resultado del proceso

de Minería de Datos.

Evaluación de la situación. En esta tarea se debe calificar el estado de la

situación antes de iniciar el proceso de Minería de Datos, considerando aspectos

tales como: ¿cuál es el conocimiento previo disponible acerca del problema?,

¿se cuenta con la cantidad de datos requerida para resolver el problema?, ¿cuál

es la relación costo beneficio de la aplicación de Minería de Datos?, entre otras.

En esta fase se definen los requisitos del problema, tanto en términos de negocio

como en términos de Minería de Datos.

Determinación de los objetivos de Minería de Datos. Esta tarea tiene como

objetivo representar los objetivos del negocio en términos de las metas del

proyecto de Minería de Datos.

Page 44: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 43

Producción de un plan del proyecto. Finalmente esta última tarea de la primera

fase de CRISP-DM, tiene como meta desarrollar un plan para el proyecto, que

describa los pasos a seguir y las técnicas a emplear en cada paso.

Fase de comprensión de los datos

La segunda fase es la de comprensión de los datos (Figura 2.11), comprende la

recolección inicial de datos, con el objetivo de establecer un primer contacto con el

problema, familiarizándose con ellos, identificando su calidad y estableciendo las relaciones

más evidentes que permitan definir las primeras hipótesis. Esta fase junto a las próximas

dos fases, son las que demandan el mayor esfuerzo y tiempo en un proyecto de Minería de

Datos.

Ilustración 2.11 Fase de comprensión de los datos.

Recolección de datos iniciales. La primera tarea en esta segunda fase del

proceso de CRISP-DM, es la recolección de los datos iniciales y su adecuación

para el futuro procesamiento. Esta tarea tiene como objetivo, elaborar informes

con una lista de los datos adquiridos, su localización, las técnicas utilizadas en su

recolección y los problemas y soluciones inherentes a este proceso.

Page 45: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 44

Descripción de los datos. Después de adquiridos los datos iniciales, estos deben

ser descritos. Este proceso involucra establecer volúmenes de datos (número de

registros y campos por registro), su identificación, el significado de cada campo

y la descripción del formato inicial.

Exploración de datos. A continuación, se procede a su exploración, cuyo fin es

encontrar una estructura general para los datos. Esto involucra la aplicación de

pruebas estadísticas básicas, que revelen propiedades en los datos recién

adquiridos, se crean tablas de frecuencia y se construyen gráficos de

distribución. La salida de esta tarea es un informe de exploración de los datos.

Verificación de la calidad de los datos. En esta tarea, se efectúan verificaciones

sobre los datos, para determinar la consistencia de los valores individuales de

los campos, la cantidad y distribución de los valores nulos, y para encontrar

valores fuera de rango, los cuales pueden constituirse en ruido para el proceso.

La idea en este punto, es asegurar la completitud y corrección de los datos.

Fase de preparación de los datos

En esta fase (Figura 2.12) una vez efectuada la recolección inicial de datos, se

procede a su preparación para adaptarlos a las técnicas de Minería de Datos que se utilicen

posteriormente. La preparación de datos incluye las tareas generales de selección de datos

a los que se va a aplicar una determinada técnica de modelado, limpieza de datos,

generación de variables adicionales, integración de diferentes orígenes de datos y cambios

de formato.

Selección de datos. En esta etapa, se selecciona un subconjunto de los datos

adquiridos en la fase anterior, apoyándose en criterios previamente establecidos

en las fases anteriores: calidad de los datos en cuanto a completitud y corrección

de los datos y limitaciones en el volumen o en los tipos de datos que están

relacionadas con las técnicas de Minería de Datos seleccionadas.

Page 46: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 45

Ilustración 2.12 Fase de preparación de los datos.

Limpieza de los datos. Esta tarea complementa a la anterior, y es una de las que

más tiempo y esfuerzo consume, debido a la diversidad de técnicas que pueden

aplicarse para optimizar la calidad de los datos a objeto de prepararlos para la

fase de modelación. Algunas de las técnicas a utilizar para este propósito son:

normalización de los datos, discretización de campos numéricos, tratamiento de

valores ausentes, reducción del volumen de datos.

Estructuración de los datos. Esta tarea incluye las operaciones de preparación

de los datos tales como la generación de nuevos atributos a partir de atributos

ya existentes, integración de nuevos registros o transformación de valores para

atributos existentes.

Integración de los datos. La integración de los datos, involucra la creación de

nuevas estructuras, a partir de los datos seleccionados, por ejemplo, generación

de nuevos campos a partir de otros existentes, creación de nuevos registros,

fusión de tablas campos o nuevas tablas donde se resumen características de

múltiples registros o de otros campos en nuevas tablas de resumen.

Page 47: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 46

Formateo de los datos. Esta tarea consiste principalmente, en la realización de

transformaciones sintácticas de los datos sin modificar su significado, esto, con

la idea de permitir o facilitar el empleo de alguna técnica de Minería de Datos en

particular, como por ejemplo la reordenación de los campos y/o registros de la

tabla o el ajuste de los valores de los campos a las limitaciones de las

herramientas de modelación (eliminar comas, tabuladores, caracteres

especiales, máximos y mínimos para las cadenas de caracteres, entre otras).

Fase de modelado

En esta fase (Figura 2.13), se seleccionan las técnicas de modelado más apropiadas

para el proyecto de Minería de Datos específico. Las técnicas a utilizar en esta fase se eligen

en función de los siguientes criterios:

Ser apropiada al problema.

Disponer de datos adecuados.

Cumplir los requisitos del problema.

Tiempo adecuado para obtener un modelo.

Conocimiento de la técnica.

Ilustración 2.13 Fase de modelado.

Page 48: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 47

Selección de la técnica de modelado. Consiste en la selección de la técnica de

Minería de Datos más apropiada al tipo de problema a resolver. Se debe

considerar el objetivo principal del proyecto y la relación con las herramientas

de Minería de Datos existentes.

Generación del plan de prueba. Una vez construido un modelo, se debe generar

un procedimiento destinado a probar la calidad y validez del mismo.

Construcción del Modelo. Después de seleccionada la técnica, se ejecuta sobre

los datos previamente preparados para generar uno o más modelos. Todas las

técnicas de modelado tienen un conjunto de parámetros que determinan las

características del modelo a generar. La selección de los mejores parámetros es

un proceso iterativo y se basa exclusivamente en los resultados generados. Estos

deben ser interpretados y su rendimiento justificado.

Evaluación del modelo. En esta tarea, los ingenieros de Minería de Datos

interpretan los modelos de acuerdo al conocimiento preexistente del dominio y

los criterios de éxito preestablecidos. Expertos en el dominio del problema

juzgan los modelos dentro del contexto del dominio y expertos en Minería de

Datos aplican sus propios criterios.

Fase de evaluación

En esta fase (Figura 2.14) se evalúa el modelo, teniendo en cuenta el cumplimiento

de los criterios de éxito del problema. Debe considerarse además, que la fiabilidad calculada

para el modelo se aplica solamente para los datos sobre los que se realizó el análisis.

Page 49: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 48

Ilustración 2.14 Fase de evaluación.

Evaluación de los resultados. En los pasos de evaluación anteriores, se trataron

factores tales como la exactitud y generalidad del modelo generado. Esta tarea

involucra la evaluación del modelo en relación a los objetivos del negocio y busca

determinar si hay alguna razón de negocio para la cual, el modelo sea deficiente,

o si es aconsejable probar el modelo, en un problema real si el tiempo y

restricciones lo permiten.

Proceso de revisión. El proceso de revisión, se refiere a calificar al proceso entero

de Minería de Datos a objeto de identificar elementos que pudieran ser

mejorados.

Determinación de futuras fases. Si se ha determinado que las fases hasta este

momento han generado resultados satisfactorios, podría pasarse a la fase

siguiente, en caso contrario podría decidirse por otra iteración desde la fase de

preparación de datos o de modelación con otros parámetros. Podría ser incluso

que en esta fase se decida partir desde cero con un nuevo proyecto de Minería

de Datos.

Fase de implementación

En esta fase (Figura 2.15) una vez que el modelo ha sido construido y validado, se

transforma el conocimiento obtenido en acciones dentro del proceso de negocio, ya sea

Page 50: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 49

que el analista recomiende acciones basadas en la observación del modelo y sus resultados,

ya sea aplicando el modelo a diferentes conjuntos de datos o como parte del proceso.

Generalmente un proyecto de Minería de Datos no concluye en la implantación del modelo,

pues se deben documentar y presentar los resultados de manera comprensible para el

usuario, con el objetivo de lograr un incremento del conocimiento. Por otra parte, en la fase

de explotación se debe asegurar el mantenimiento de la aplicación y la posible difusión de

los resultados.

Ilustración 2.15 Fase de implementación.

Plan de implementación. Para implementar el resultado de Minería de Datos en

la organización, esta tarea toma los resultados de la evaluación y concluye una

estrategia para su implementación. Si un procedimiento general se ha

identificado para crear el modelo, este procedimiento debe ser documentado

para su posterior implementación.

Monitorización y Mantenimiento. Si los modelos resultantes del proceso de

Minería de Datos son implementados en el dominio del problema como parte

de la rutina diaria, es aconsejable preparar estrategias de monitorización y

mantenimiento para ser aplicadas sobre los modelos. La retroalimentación

Page 51: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 50

generada por la monitorización y mantenimiento pueden indicar si el modelo

está siendo utilizado apropiadamente.

Informe Final. Es la conclusión del proyecto de Minería de Datos realizado.

Dependiendo del plan de implementación, este informe puede ser sólo un

resumen de los puntos importantes del proyecto y la experiencia lograda, o

puede ser una presentación final que incluya y explique los resultados logrados

con el proyecto.

Revisión del proyecto. En este punto se evalúa qué fue lo correcto y qué lo

incorrecto, qué es lo que se hizo bien y qué es lo que se requiere mejorar.

Page 52: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 51

CAPÍTULO 3

TECNOLOGÍA DE BI

En esta sección del documento se hace un estudio y descripción sobre las

herramientas tecnológicas que se emplean en la elaboración de este trabajo de tesis.

Page 53: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 52

3.1 Herramientas de Inteligencia de Negocios

Resulta útil y necesario realizar un análisis de las herramientas de Inteligencia de

Negocios que se va a utilizar para desarrollar un proyecto de esta naturaleza, ya que en

muchas ocasiones elegir el software o solución adecuada puede resultar confuso y

abrumador, esto principalmente por la gran variedad de herramientas disponibles que

existen en el mercado, sin embargo algo muy importante que se debe considerar es el

alcance que tendrá el proyecto y el presupuesto que se tiene destinado para su realización.

Hoy en día la mayoría de las herramientas de Inteligencia de Negocios realizan

prácticamente las mismas funcionalidades, salvo algunas características que las distinguen

unas de otras, pero no hay que olvidar que son utilizadas principalmente para acceder a los

datos de las empresas y proporcionar análisis, visualizaciones y reportes a los usuarios, esto

con la finalidad de servir como apoyo en el proceso de la toma de decisiones.

Existen en el mercado una gran variedad de estas herramientas, muchas de ellas son

de software comercial y algunas más de software libre, cada una con sus ventajas y

desventajas correspondientes. Muchas empresas utilizan herramientas de Business

Intelligence de renombre como Microsoft, Oracle, IBM y SAS. También, aplicaciones de BI

especializadas como Qlik y Tableau Software. Pero existen herramientas de código abierto

más económicas y que ofrecen grandes soluciones.

Si se considera una solución de código abierto debemos saber que este tipo de

software en otros casos ha demostrado ser una alternativa económica, productiva y ética.

Estos programas están distribuidos bajo una licencia que nos permite acceder a su código

fuente, con la posibilidad de estudiarlo, modificarlo y mejorarlo, adaptándolo a nuestro

contexto empresarial. Además, siempre y cuando respetemos los términos y condiciones

de la licencia, podemos redistribuirlo sin problemas.

A continuación se describe la suite de Pentaho que es la herramienta de Inteligencia

de Negocios que se eligió para la realización de este trabajo de tesis.

3.2 Pentaho

Pentaho es una aplicación de software para la gestión de la inteligencia empresarial

(Business Intelligence y Big Data). Está desarrollada con la filosofía “opensource” por lo que

no tiene coste de licencias. Como plataforma cubre y satisface todos los requisitos de BI en

términos de análisis y de gestión de datos, administración y seguridad. Ofrece soluciones

para informes, análisis multidimensional (OLAP), minería de datos (Data Mining), tableros

Page 54: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 53

de mando (Dashboard) y consultas ad-hoc. Cuenta con herramientas para la extracción de

datos, transformación y carga (ETL) (Itop.es, 2017).

Pentaho, perteneciente a la empresa Hitachi Data Systems, es una empresa líder en

integración de datos y análisis de negocio con una plataforma de clase empresarial, basado

en open source. La misión de Pentaho es ayudar a las organizaciones de diferentes sectores

a aprovechar el valor de todos sus datos, incluyendo Big Data e Internet of

Things. Pentaho cuenta con más de 15.000 implementaciones de productos y 1.500 clientes

comerciales actuales incluyendo EMC, Moody, o NASDAQ.

La plataforma ha sido desarrollada bajo el lenguaje de programación Java y tiene un

ambiente de implementación también basado en Java, haciendo así que Pentaho sea una

solución muy flexible al cubrir una alta gama de necesidades empresariales.

Ilustración 3.1 Logo de Pentaho.

3.2.1 Funcionalidades

Pentaho es una suite muy completa que cubre multitud de áreas analíticas

y motores para el procesamiento de información y la generación de conocimiento. Estas

herramientas están soportadas e integradas sobre un servidor web y dispone de un entorno

de configuración y desarrollo.

La suite Pentaho está compuesta por múltiples aplicaciones independientes entre

sí, que trabajan juntas para crear y distribuir soluciones BI. Los principales proyectos que

componen la suite son:

Pentaho Business Analytics (Pentaho BA): es la plataforma web a la que se

accede para ejecutar los recursos (informes, cuadros de mandos, etc.).

Page 55: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 54

Pentaho Report Designer (PRD): herramienta para crear reportes avanzados de

alta calidad, interactivos y dinámicos.

Pentaho Data Integration (PDI): herramienta de Integración de Datos.

Pentaho Analysis (Mondrian OLAP server): motor multidimensional utilizado

para responder a las consultas de los OLAP.

Pentaho Data Mining (Weka): herramienta de Data Mining.

CTools: conjunto de herramientas para crear y gestionar Dashboards.

Saiku: atractivo visor OLAP con una UI muy amena.

La suite Pentaho también cuenta con una serie de herramientas indispensables que

la complementan:

Pentaho Metadata Editor (PME): herramienta que se utiliza para describir y

publicar Business Models.

Pentaho Schema Workbench (PSW): herramienta que se utiliza para describir y

publicar modelos multidimensionales (Schemas y Cubos).

Pentaho Aggregate Designer (PAD): herramienta que se utiliza para mejorar la

performance de las consultas multidimensionales.

3.2.2 Ventajas

Solución gratuita. Es una solución opensource. También dispone de una versión

empresarial comercial.

Completa. Incorpora todas aquellas herramientas necesarias para el BI,

incluyendo Big Data e Internet of Things.

Escalable. Plataforma robusta y con tecnología escalable.

Flexible. Es posible elegir entre varias opciones dentro de cada área analítica.

Page 56: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 55

Comunidad. Amplia red de colaboradores.

Internacional. Disponible en diversos idiomas.

3.2.3 ¿Por qué elegir Pentaho?

Líder mundial en software de BI opensource.

La única que aparece habitualmente en el Cuadrante Mágico de Gartner.

Ha sido adquirida por el grupo Hitachi.

Gran comunidad de seguidores.

Más de 7 delegaciones por el mundo.

Ilustración 3.2 Funcionalidades de Pentaho.

Page 57: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 56

3.3 Características de Pentaho

3.3.1 Pentaho Reporting

La solución proporcionada por la plataforma de Pentaho e integrada en su suite para

el desarrollo de informes se llama “Pentaho Reporting”.

Ilustración 3.3 Logo de Pentaho Reporting.

Pentaho Reporting es un potente generador de informes ya que permite la

distribución de los resultados del análisis en múltiples formatos, además de que existen tres

productos con diferentes enfoques y dirigidos a diferentes tipos de usuarios.

3.3.2 Pentaho Report Designer

Editor basado en eclipse con prestaciones profesionales y de calidad y con capacidad

de personalización de informes a las necesidades de negocio destinado a desarrolladores.

Incluye asistentes para facilitar la configuración de propiedades.

Está estructurado de forma que los desarrolladores pueden acceder a sus

prestaciones de forma rápida.

Incluye un editor de consultas para facilitar la confección de los datos que serán

utilizados en un informe.

Page 58: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 57

3.3.3 Pentaho Report Design Wizard

Herramienta de diseño de informes, que facilita el trabajo y permite a los usuarios

obtener resultados de forma inmediata. Está destinada a usuarios con menos

conocimientos técnicos.

A través de pasos sencillos permite:

Conectarse a todo tipo de bases relacionales.

Integrar el resultado dentro del portal Pentaho.

Posibilidad de montar codificación semafórica.

3.3.4 Web ad-hoc reporting

Es el similar a la herramienta anterior pero vía web. Extiende la capacidad de los

usuarios finales para la creación de informes a partir de plantillas preconfiguradas y

siguiendo un asistente de creación.

Ilustración 3.4 Ejemplos de informes en Pentaho.

Page 59: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 58

3.3.5 Características generales Pentaho Reporting

Proporciona funcionalidad crítica para usuarios finales como:

Acceso vía web.

Informes parametrizados.

Scheduling.

Suscripciones.

Distribución (bursting).

Proporciona claras ventajas a especialistas en informes:

Acceso a fuentes de datos heterogéneos: relacional (vía JDBC), OLAP, XML,

transformaciones de Pentaho Data Integration.

Capacidad de integración en aplicaciones o portales: JSP, Portlet, Web

Services.

Definición modular de informes (distinción entre presentación y consulta).

Diseño de informes flexible:

Entorno de diseño gráfico.

Capacidad de uso de Templates.

Acceso a datos relacionales, OLAP y XML.

Desarrollado para:

Ser embebible.

Ser fácil de extender.

No consumir muchos recursos.

100% Java: portabilidad, escalabilidad e integración.

Multiplataforma (tanto a nivel de cliente como servidor):

Mac.

Linux/Unix.

Windows.

Page 60: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 59

3.3.6 Pentaho Analysis

Ayuda a operar con máxima efectividad para ganar perspicacia y entender lo

necesario para tomar optimas decisiones.

Las características generales son:

Vista dimensional de datos (por ventas, por periodo).

Navegar y explorar.

Análisis Ad Hoc.

Drill-down.

Seleccionar un específico miembro para el análisis.

Interactuar con alto rendimiento.

Tecnología optimizada para rápida respuesta interactiva.

3.3.7 Pentaho Dashboards

Provee inmediata perspicacia en un rendimiento individual, departamental o

empresarial. Para deliberar Key Metrics en una atractiva e intuitiva interfaz visual.

Identificación de Métricas Clave (KPI’s, Key Performance Indicators).

Monitoreo/Métricas.

Investiga detalles subyacentes.

Drill a reportes de soporte.

Seguimiento de excepciones.

Alertas basadas en reglas del negocio.

3.3.8 Pentaho Data Integration

Muchas organizaciones tienen información disponible en aplicaciones y base de

datos separados. Pentaho Data Integration abre, limpia e integra esta valiosa información y

la pone en manos del usuario. Provee una consistencia, una sola versión de todos los

recursos de información, que es uno de los más grandes desafíos para las organizaciones TI

hoy en día. Pentaho Data Integration permite una poderosa ETL (Extracción,

Transformación y Carga).

Page 61: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 60

El uso de Kettle permite evitar grandes cargas de trabajo manual frecuentemente

difícil de mantener y de desplegar.

Ilustración 3.5 Pentaho Kettle.

La arquitectura de Pentaho Data Integration viene representada por el siguiente

esquema:

Ilustración 3.6 Arquitectura de Pentaho Data Integration.

Page 62: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 61

A parte de ser open source y sin costes de licencia, las características básicas de esta

herramienta son:

Entorno gráfico de desarrollo.

Uso de tecnologías estándar: Java, XML, JavaScript.

Fácil de instalar y configurar.

Multiplataforma: Windows, MAC, Linux.

Basado en dos tipos de objetos: Transformaciones (colección de pasos en un

proceso ETL) y trabajos (colección de transformaciones).

Incluye cuatro herramientas:

1. Spoon: para diseñar transformaciones ETTL usando el entorno gráfico.

2. PAN: para ejecutar transformaciones diseñadas con spoon.

3. CHEF: para crear trabajos.

4. Kitchen: para ejecutar trabajos.

3.3.9 Data Mining

Es el proceso de correr datos en algoritmos completamente sofisticados, relevando

significantes patrones y correlaciones que pueden estar escondidos. Esto puede ser usado

para ayudar a entender lo mejor para el negocio y explotar el rendimiento de este en un

futuro prediciendo completamente en el análisis.

Se caracteriza por:

Descubrir patrones ocultos y correlacionales en los datos.

Prevenir eventos futuros basados en patrones históricos.

Contar con la tecnología de:

o Poderoso motor de Data Mining.

o Herramientas de diseño gráfico.

o Seguridad y conformidad.

o Servicios Web, Repositorios y definiciones basadas en XML.

o Rendimiento y escalabilidad.

Page 63: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 62

3.3.10 Pentaho BI Plataform

La plataforma de Pentaho BI provee de servicios críticos incluyendo programación,

seguridad, integración automatización y flujo de trabajo. Proporcionando habilidades a los

usuarios finales de Pentaho y provenido un lugar central para administrar y mantener el

despliegue de la empresa BI (Pentaho, 2017).

Integración con procesos de negocio.

Administra y programa reportes.

Administra seguridad de usuarios.

Componentes:

Plataforma 100% J2EE, asegurando la escalabilidad, integración y portabilidad.

Servidor: puede correr en servidores compatibles con J2EE como JBOSS AS,

WebSphere, Tomcat, WebLogic y Oracle AS.

Base de datos: vía JDBC, IBM DB2, Microsft SQL Server, MySQL, Oracle,

PostgreSQL, NCR Teradata, Firebird.

Sistema operativo: no hay dependencia. Lenguaje interpretado.

Lenguaje de programación: Java, Javascript, JSP, XSL (XSLT/XPath/XSL-FO).

Interfaz de desarrollo: Java SWT, Eclipse, Web-based.

Repositorio de datos basado en XML.

Todos los componentes están expuestos vía Web Services para facilitar la

integración con Arquitecturas Orientadas a Servicios (SOA).

El siguiente esquema nos muestra la arquitectura estructurada de las diferentes

componentes que forman parte de Pentaho.

Reporting.

Análisis.

Page 64: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 63

Dashboards.

Workflow.

Data Mining.

ETL.

Single Sign-On.

Ldap.

Auditoría de uso y rendimiento.

Planificador.

Notificador.

Seguridad.

Perfiles.

Ilustración 3.7 Arquitectura de Componentes de Suite Pentaho.

Page 65: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 64

CAPÍTULO 4

DESARROLLO

El presente capítulo describe cómo se lleva acabo el desarrollo de este trabajo, el

cual se basó en la Arquitectura de Ralph Kimball para la construcción del Data Mart, y en la

Metodología CRISP-DM descritos en el capítulo II.

Page 66: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 65

4.1 Desarrollo de la solución

Este trabajo se realizó tratando de seguir la metodología CRISP-DM la cual se

describió en el capítulo II. A pesar de que esta metodología ha sido desarrollada y es

ampliamente utilizada específicamente para proyectos de Minería de Datos, se puede

adaptar en general a cualquier área de la Inteligencia de Negocios por las fases y tareas que

la componen. A continuación se desarrollan las fases de esta metodología implementadas

en el caso de estudio propuesto para esta Tesis.

4.2 Comprensión del Negocio

4.2.1 Objetivo del Negocio

El objetivo principal es desarrollar un Data Mart que ayude a los directivos de la SEPI

UPIICSA a conocer información relacionada con los alumnos que han cursado un programa

de posgrado, además de servir como apoyo en la toma de decisiones que se realizan dentro

de esta Unidad Académica.

4.2.2 Objetivos Específicos

Identificar y analizar la información que se almacena en la base de datos de la

SEPI UPIICSA que resulte de interés y útil para la construcción de indicadores de

desempeño de la Sección.

Proponer indicadores que permitan dar seguimiento al desempeño que ha

tenido la SEPI UPIICSA a lo largo de los años, esto con los datos que se tienen de

los alumnos que han cursado algún programa de posgrado dentro de esta

Unidad Académica.

Diseñar y construir el modelo de Data Mart para guardar la información que

permitirá dar seguimiento a los indicadores de desempeño propuestos.

Mostrar la información de interés que se tiene de los alumnos de manera gráfica

y resumida.

Page 67: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 66

4.3 Evaluación de la Situación

4.3.1 Definición de Requerimientos de Negocio

El Data Mart que se desarrolla para la SEPI de la UPIICSA debe ser un repositorio

central que contenga información histórica de los alumnos, que a lo largo del tiempo han

cursado o han aspirado a cursar un programa de posgrado en esta unidad académica.

Para la definición de los requerimientos de negocio se realizaron algunas actividades

que ayudaron a clarificar y determinar lo que se requiere que se almacene en este Data

Mart, las cuales se mencionan a continuación:

Se realizaron reuniones con el Dr. Fernando Vázquez Torres y el Dr. Eric Manuel

Rosales Peña Alfaro donde se analizó la información que podría ser de interés y

ayuda para el conocimiento de la SEPI de la UPIICSA con relación a los alumnos,

y que además podría servir con las decisiones que el Colegio de Profesores, Jefes

y Coordinadores de las maestrías y el doctorado pudieran llegar a tomar.

Se propusieron dos indicadores para conocer y dar seguimiento al desempeño

de la SEPI UPIICSA con la información que se tiene almacenada y que está

relacionada con los alumnos.

Se realizaron entrevistas con el Jefe de la SEPI de la UPIICSA, el Dr. Eduardo

Gutiérrez González, donde se pudo observar y analizar los reportes que

actualmente se puede consultar desde el sistema CESC5W.

En base a las actividades anteriores se obtuvieron los siguientes requerimientos de

negocio:

1. Poder conocer la cantidad de alumnos que han sido de tiempo completo y de

tiempo parcial en los programa de posgrado que se imparten dentro de la SEPI

UPIICSA.

2. Saber de qué escuelas o instituciones de nivel superior provienen los alumnos

de posgrado por programa académico.

3. Tener conocimiento de cuál es el estado civil de los alumnos cuando entran a

cursar un posgrado en la SEPI UPIICSA y si es que están titulados del nivel

superior.

Page 68: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 67

4. Conocer la cantidad de alumnos de tiempo completo de sexo masculino y

femenino que se titularon a tiempo.

5. Saber la cantidad de alumnos extranjeros que han cursado un programa de

posgrado en la SEPI UPIICSA.

6. Identificar que programas de posgrado son los que han tenido mayor demanda

en la SEPI UPIICSA en los últimos años.

7. Poder conocer la situación de los alumnos de posgrado por generación, es decir

¿Cuántos alumnos se titularon?, ¿Cuántos están dados de baja?, ¿Cuántos no

fueron aceptados a cursar un programa de posgrado en esta unidad?

8. Saber que genero de alumnos (masculino o femenino) es el que se titula más

dentro del plazo reglamentario por programa académico.

Adicional a estos requerimientos, se incluyen dos indicadores que permiten realizar

el análisis y seguimiento del desempeño de la SEPI UPIICSA, los cuales ayudan a tener un

contexto y una visión más clara a los directivos de la Sección con respecto a la información

que se tiene de los alumnos, además de servir como posible apoyo para la toma de

decisiones que beneficien al desarrollo de los programas de posgrado impartidos en esta

Unidad.

4.3.2 Determinación de los Indicadores de Desempeño

Indicador 1. Atención a la demanda de formación académica con calidad.

Descripción General: Mide el porcentaje de alumnos aceptados en un programa de

posgrado, mediante un proceso de selección de acuerdo con el reglamento de

posgrado del IPN.

Periodicidad: Anual.

Fórmula del método de cálculo del indicador:

Alumnos aceptados anualmente en el posgrado x 100

Total de alumnos aspirantes al posgrado en el año correspondiente

Page 69: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 68

Indicador 2. Tasa de graduación por cohorte generacional.

Descripción General: Mide el número de alumnos que obtienen el grado académico

en una misma generación, dentro de la duración manifestada por el programa en la

Dirección General de Profesiones.

Periodicidad: Anual.

Fórmula del método de cálculo del indicador:

Alumnos que obtuvieron grado académico de una generación

(dentro de la duración manifestado por el programa)

Alumnos inscritos en la generación considerada

4.4 Comprensión de los Datos

4.4.1 Recopilación inicial de los datos

En esta fase se solicitó al administrador del sistema CESC5W un diagrama de la Base

de Datos, esto con la finalidad de comprender la estructura y la información que se

almacena, a partir del cual se realizó un análisis inicial.

4.4.2 Descripción de los datos

A continuación se muestra parte de la Base de Datos del sistema CESC5W que se

obtuvo y que se analizó para la construcción del Data Mart de alumnos de la SEPI UPIICSA.

Page 70: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 69

Ilustración 4.1 Base de Datos parcial de la SEPI UPIICSA.

De acuerdo al análisis y exploración que se realizó de las tablas donde se almacena

la información de la SEPI UPIICSA, se seleccionaron algunas que tienen relación con los

alumnos.

CAT_DedicaTiempo

Ilustración 4.2 Tabla de la SEPI UPIICSA, dedicación de tiempo.

Page 71: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 70

CAT_EDOCIVIL

CAT_ESCUELAS

CAT_PAIS

CAT_PROGRAMAS

Ilustración 4.3 Tabla de la SEPI UPIICSA, estado civil.

Ilustración 4.4 Tabla de la SEPI UPIICSA, catálogo de escuelas origen.

Ilustración 4.5 Tabla de la SEPI UPIICSA, catálogo de países.

Ilustración 4.6 Tabla de la SEPI UPIICSA, catálogo de programas de posgrado.

Page 72: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 71

Alumnos

4.4.3 Exploración de los Datos

A partir de las tablas de la Base de Datos de la SEPI UPIICSA el administrador genera

un archivo en Excel con la información de los alumnos necesaria para alimentar de datos el

Data Mart propuesto en este trabajo de tesis. Se obtuvo un archivo con información de los

alumnos de la SEPI UPIICSA del año 2010 al 2014 con un total de 910 registros.

Columna Campo Tipo Dato

A Boleta Alfanumérico

B Apellido Paterno Texto

C Apellido Materno Texto

D Nombre(s) Texto

E Sexo Texto

F Fecha Nacimiento Fecha (dd/mm/yyyy)

Ilustración 4.7 Tabla de la SEPI UPIICSA, información de alumnos.

Page 73: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 72

G Estado Civil Texto

H Programa Posgrado Texto

I Nacionalidad Texto

J Titulado Texto

K Fecha Inicio Posgrado Fecha (dd/mm/yyyy)

L Situación Alumno Texto

M Universidad Procedencia Texto

N Tipo Alumno Texto

O Fecha Limite Posgrado Fecha (dd/mm/yyyy) Tabla 4.1 Estructura de campos del Excel con información de los alumnos.

La figura siguiente ilustra un ejemplo de la información que contiene el archivo Excel

relacionada con los alumnos.

El archivo Excel también contiene la información de la Nacionalidad de los alumnos

de la SEPI UPIICSA.

Columna Campo Tipo Dato

A id Numérico

B descripción Texto Tabla 4.2 Estructura de campos del Excel con nacionalidad de los alumnos.

Ilustración 4.8 Datos en Excel con información de alumnos.

Page 74: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 73

Ilustración 4.9 Datos en Excel con nacionalidad de alumnos.

Información de la situación escolar de los alumnos de la SEPI UPIICSA.

Columna Campo Tipo Dato

A clave Texto

B descripción Texto Tabla 4.3 Estructura de campos del Excel con situación escolar de los alumnos.

Ilustración 4.10 Datos en Excel con situación escolar de alumnos.

Estado civil de los alumnos de la SEPI UPIICSA.

Columna Campo Tipo Dato

A id Texto

B descripción Texto Tabla 4.4 Estructura de campos del Excel con estado civil de los alumnos.

Page 75: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 74

Ilustración 4.11 Datos en Excel con estado civil de alumnos.

Si están titulados los alumnos de la SEPI UPIICSA del nivel superior.

Columna Campo Tipo Dato

A id Texto

B descripción Texto Tabla 4.5 Estructura de campos del Excel con información de titulación de los alumnos.

Ilustración 4.12 Datos en Excel con información de titulación de alumnos.

Programas de Posgrado de la SEPI UPIICSA.

Columna Campo Tipo Dato

A id Numérico

B descripción Texto

C nivel Texto

D descripcionNivel Texto Tabla 4.6 Estructura de campos del Excel con los programas de posgrado.

Page 76: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 75

Ilustración 4.13 Datos en Excel con los programas de posgrado.

Tipo de alumnos de la SEPI UPIICSA.

Columna Campo Tipo Dato

A Id Texto

B Descripción Texto Tabla 4.7 Estructura de campos del Excel con tipo de alumnos.

Ilustración 4.14 Datos en Excel con los tipos de alumnos.

Universidades de procedencia del nivel superior de los alumnos de la SEPI UPIICSA.

Columna Campo Tipo Dato

A id Numérico

B clave Texto

C descripción Texto Tabla 4.8 Estructura de campos del Excel de las universidades de procedencia de nivel superior.

Page 77: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 76

Ilustración 4.15 Datos en Excel con las universidades de procedencia de nivel superior.

Sexo de alumnos de la SEPI UPIICSA.

Columna Campo Tipo Dato

A clave Texto

B descripción Texto Tabla 4.9 Estructura de campos del Excel con el sexo de los alumnos.

Ilustración 4.16 Datos en Excel con el sexo de los alumnos.

Cabe aclarar que la información con la que se trabaja y se muestra son datos de

prueba generados aleatoriamente para simular lo que se espera obtener por parte de la

SEPI UPIICSA en un ambiente real, esto debido a la protección de datos ya que se trata de

información personal y sensible de las personas que tienen o tuvieron alguna relación con

la SEPI UPIICSA, ya sea como alumno, personal docente, administrativo o algún otro rol.

Page 78: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 77

4.5 Preparación de los Datos

4.5.1 Proceso ETL

A partir del archivo generado y de las tablas en Excel descritas, se realiza el proceso

de ETL (Extract,Transformation, Load) para llenar de datos las tablas de Dimensiones y la

tabla de hechos del Data Mart propuesto.

El proceso de ETL se realizó con ayuda de la herramienta Pentaho Data Integration

mejor conocido como Kettle, y se encuentra en un Job general divido a su vez en 3 Jobs

principales, los cuales son:

Validar la Estructura de la Base de Datos.

Cargar las Tablas de Dimensiones.

Cargar la tabla de Hechos.

En caso de que en alguno de estos 3 Jobs se presente un error, se aborta el flujo del

Job general, mostrando en consola y en un log la causa y el punto en donde se presentó el

problema.

En la figura 4.17 se puede apreciar la estructura que tiene el Job general que

representa el proceso ETL de la SEPI UPIICSA.

Ilustración 4.17 Job general de proceso ETL de la SEPI UPIICSA

El siguiente Job ilustra la Validación de la estructura de la Base de Datos donde se

encuentran las tablas de Dimensiones y la tabla de Hechos.

Como primer lugar revisa que haya una conexión con la Base de Datos, en caso

contrario aborta el Job.

Page 79: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 78

Después se valida de que existan las 10 tablas de dimensiones y la tabla de Hechos

del Data Mart, en caso de que no exista alguna de ellas en la Base de Datos, se ejecuta el

Script para la creación de las tabla faltante.

Ilustración 4.18 Job de la validación de la estructura de la Base de Datos.

El segundo Job es el encargado de poblar de datos las tablas de Dimensiones del

Data Mart, de igual forma en caso de que se presente algún error con la carga de los datos

se aborta el Job.

Ilustración 4.19 Job de carga de tablas de Dimensiones.

Este Job de la carga de información en las tablas de Dimensiones se divide a su vez

en 10 Transformaciones que corresponden a las 10 Dimensiones que se tienen en el modelo

del Data Mart.

Page 80: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 79

Ilustración 4.20 Transformación de carga de datos en DimAlumno.

En la Dimensión de Alumno en caso de que no se tenga una boleta porque el alumno

haya sido rechazado para cursar un programa de posgrado en la SEPI UPIICSA, se le asigna

un valor de “S/B” (Sin Boleta).

Para la Dimensión de Escuela de Origen de nivel superior los datos pasan de forma

directa por lo que no se necesita realizar ninguna transformación.

Ilustración 4.21 Transformación de carga de datos en DimEscuelaOrigen.

Para la Dimensión de Estado Civil se transforma el Estado “S” de Soltero por el Id 1,

y el estado “C” de Casado por el Id 2.

Ilustración 4.22 Transformación de carga de datos en DimEstadoCivil.

Page 81: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 80

Para la Dimensión de Nacionalidad los datos pasan de forma directa por lo que no

se necesita realizar ninguna transformación.

Ilustración 4.23 Transformación de carga de datos en DimNacionalidad.

Para la Dimensión de Programa de Posgrado se cambia el nivel “M” de Maestría por

el valor 1 y el nivel “D” de Doctorado por el valor de 2.

Ilustración 4.24 Transformación de carga de datos en DimProgramaPosgrado.

Para la Dimensión de Sexo los datos pasan de forma directa por lo que no se necesita

realizar ninguna transformación.

Ilustración 4.25 Transformación de carga de datos en DimSexo.

Para la Dimensión de Situación de Alumnos los datos pasan de forma directa por lo

que no se necesita realizar ninguna transformación.

Ilustración 4.26 Transformación de carga de datos en DimSituacionAlumno.

Page 82: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 81

Para la Dimensión de Tipo de Alumno los datos pasan de forma directa por lo que

no se necesita realizar ninguna transformación.

Ilustración 4.27 Transformación de carga de datos en DimTipoAlumno.

Para la Dimensión de Titulado de nivel Superior se cambia el valor “SI” por el Id 1 y

el valor “NO” por el Id 2.

Ilustración 4.28 Transformación de carga de datos en DimTituladoSuperior.

Para la Dimensión Tiempo, se ejecuta un Script de SQL al cual se le pasan como

parámetros la fecha inicial y la fecha final para poblar la tabla con el año y el semestre de

cada inicio de ciclo escolar.

Ilustración 4.29 Transformación de carga de datos en DimTiempo.

Por último el tercer Job manda llamar una Transformación, la cual es la encargada

de poblar de datos la tabla de Hechos del Data Mart, en caso de que se presente algún error

con la carga de los datos se aborta el Job.

Ilustración 4.30 Job de carga de tabla de Hechos.

Page 83: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 82

Ilustración 4.31 Transformación de carga de datos en FactAlumno.

Page 84: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 83

4.6 Modelado

4.6.1 Selección de la técnica de modelado

Para la construcción del modelo de Data Mart se siguió la arquitectura de Kimball ya

que se basa en un enfoque “bottom-up” el cual sugiere que para realizar un Data

Warehouse dentro de una organización se debe de partir de un Data Mart y posteriormente

se pueden ir añadiendo otros más. El diagrama dimensional es un modelo estrella, con diez

Dimensiones y una tabla de Hechos.

4.6.2 Construcción del modelo

Ilustración 4.32 Modelo Estrella de Data Mart de Alumnos.

Page 85: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 84

Ilustración 4.33 Cubo Olap de Alumnos.

4.7 Evaluación

4.7.1 Evaluar los resultados

En la fase de Evaluación, se comprueba el diseño del modelo y se da respuesta a los

requerimientos de negocio establecidos.

Para esta fase de la metodología se utiliza la Consola de Usuario de Pentaho la cual

es una aplicación web que nos permite explotar, visualizar y graficas los resultados

obtenidos.

Se utiliza la aplicación de Pivot4J View para visualizar el cubo que se desarrolló y CDE

Dashboard para la creación de un Dashboard que contienen los dos indicadores propuestos.

Page 86: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 85

Ilustración 4.34 Pantalla de Login de Consola de Usuario Pentaho.

R1. Poder conocer la cantidad de alumnos que han sido de tiempo completo y de

tiempo parcial en los programa de posgrado que se imparten dentro de la SEPI

UPIICSA.

Dimensiones Involucradas

DimProgramaPosgrado

DimTipoAlumno

Medida

Cantidad

Page 87: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 86

Ilustración 4.35 Tabla con Cantidad de Alumnos de Tiempo Completo y Parcial por Programa de Posgrado.

Ilustración 4.36 Gráfica con Cantidad de Alumnos de Tiempo Completo y Parcial por Programa de Posgrado.

R2. Saber de qué escuelas o instituciones de nivel superior provienen los alumnos

de posgrado por programa académico.

Dimensiones Involucradas

DimProgramaPosgrado

DimEscuelaOrigen

Medida

Cantidad

Page 88: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 87

Ilustración 4.37 Tabla con Cantidad de Alumnos de las Escuelas que han provenido en la Maestría en Ciencias en

Administración.

Ilustración 4.38 Gráfica con Cantidad de Alumnos de las Escuelas que han provenido en la Maestría en Ciencias en

Administración.

Ilustración 4.39 Tabla con Cantidad de Alumnos de las Escuelas que han provenido de la Maestría en Ciencias en Estudios

Interdisciplinarios para Pequeñas y Medianas Empresas.

Page 89: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 88

Ilustración 4.40 Gráfica con Cantidad de Alumnos de las Escuelas que han provenido de la Maestría en Ciencias en

Estudios Interdisciplinarios para Pequeñas y Medianas Empresas.

Ilustración 4.41 Tabla con Cantidad de Alumnos de las Escuelas que han provenido de la Maestría en Ciencias en

Informática.

Ilustración 4.42 Gráfica con Cantidad de Alumnos de las Escuelas que han provenido de la Maestría en Ciencias en

Informática.

Page 90: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 89

Ilustración 4.43 Tabla con Cantidad de Alumnos de las Escuelas que han provenido de la Maestría en Ciencias en

Ingeniería Industrial.

Ilustración 4.44 Gráfica con Cantidad de Alumnos de las Escuelas que han provenido de la Maestría en Ciencias en

Ingeniería Industrial.

Ilustración 4.45 Tabla con Cantidad de Alumnos de las Escuelas que han provenido del Doctorado en Gestión y Políticas

de Innovación.

Page 91: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 90

Ilustración 4.46 Gráfica con Cantidad de Alumnos de las Escuelas que han provenido del Doctorado en Gestión y Políticas

de Innovación.

R3. Tener conocimiento de cuál es el estado civil de los alumnos cuando entran a

cursar un posgrado en la SEPI UPIICSA y si es que están titulados del nivel superior.

Dimensiones Involucradas

DimEstadoCivil

DimTituladoSuperior

DimTiempo

Medida

Cantidad

Ilustración 4.47 Tabla con Cantidad de Alumnos por Estado Civil y si están Titulados de Nivel Superior.

Page 92: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 91

Ilustración 4.48 Gráfica con Cantidad de Alumnos por Estado Civil y que Si están Titulados de Nivel Superior.

Ilustración 4.49 Gráfica con Cantidad de Alumnos por Estado Civil y que No están Titulados de Nivel Superior.

R4. Conocer la cantidad de alumnos de tiempo completo de sexo masculino y

femenino que se titularon a tiempo.

Dimensiones Involucradas

DimTipoAlumno

DimSexo

DimSituacionAlumno

DimTiempo

Medida

Cantidad

Page 93: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 92

Ilustración 4.50 Tabla con Cantidad de Alumnos de Tiempo Completo por Sexo que se titularon a tiempo agrupados por

Año.

Ilustración 4.51 Gráfica con Cantidad de Alumnos de Tiempo Completo de Sexo Femenino que se titularon a tiempo

agrupados por Año.

Ilustración 4.52 Gráfica con Cantidad de Alumnos de Tiempo Completo de Sexo Masculino que se titularon a tiempo

agrupados por Año.

Page 94: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 93

R5. Saber la cantidad de alumnos extranjeros que han cursado un programa de

posgrado en la SEPI UPIICSA.

Dimensiones Involucradas

DimNacionalidad

DimTiempo

Medida

Cantidad

Ilustración 4.53 Tabla con Cantidad de Alumnos Extranjeros que han cursado un Programa de Posgrado en la SEPI

UPIICSA.

Ilustración 4.54 Gráfica con Cantidad de Alumnos Extranjeros que han cursado un Programa de Posgrado en la SEPI

UPIICSA.

Page 95: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 94

R6. Identificar que programas de posgrado son los que han tenido mayor demanda

en la SEPI UPIICSA en los últimos años.

Dimensiones Involucradas

DimProgramaPosgrado

DimTiempo

Medida

Cantidad

Ilustración 4.55 Tabla con Programas de Posgrado con Mayor Demanda.

Ilustración 4.56 Gráfica con Demanda de Programa de Posgrado del Año 2010.

Ilustración 4.57 Gráfica con Demanda de Programa de Posgrado del Año 2011.

Page 96: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 95

Ilustración 4.58 Gráfica con Demanda de Programa de Posgrado del Año 2012.

Ilustración 4.59 Gráfica con Demanda de Programa de Posgrado del Año 2013.

Ilustración 4.60 Gráfica con Demanda de Programa de Posgrado del Año 2014.

R7. Poder conocer la situación de los alumnos de posgrado por generación, es decir

¿Cuántos alumnos se titularon?, ¿Cuántos están dados de baja?, ¿Cuántos no fueron

aceptados a cursar un programa de posgrado en esta unidad?

Dimensiones Involucradas

DimProgramaPosgrado

DimTiempo

Medida

Cantidad

Page 97: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 96

Ilustración 4.61 Tabla con Cantidad de Alumnos Activos por Año.

Ilustración 4.62 Gráfica con Cantidad de Alumnos Activos por Año.

Ilustración 4.63 Tabla con Cantidad de Aspirantes Rechazados por Año.

Ilustración 4.64 Gráfica con Cantidad de Aspirantes Rechazados por Año.

Page 98: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 97

Ilustración 4.65 Tabla con Cantidad de Alumnos con Baja por abandono de estudios por Año.

Ilustración 4.66 Gráfica con Cantidad de Alumnos con Baja por abandono de estudios por Año.

Ilustración 4.67 Tabla con Cantidad de Alumnos con Baja por otras razones por Año.

Ilustración 4.68 Gráfica con Cantidad de Alumnos con Baja por otras razones por Año.

Page 99: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 98

Ilustración 4.69 Tabla con Cantidad de Alumnos Graduados dentro del plazo reglamentario por Año.

Ilustración 4.70 Gráfica con Cantidad de Alumnos Graduados dentro del plazo reglamentario por Año.

Ilustración 4.71 Tabla con Cantidad de Alumnos Graduados fuera del plazo reglamentario por Año.

Ilustración 4.72 Gráfica con Cantidad de Alumnos Graduados fuera del plazo reglamentario por Año.

Page 100: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 99

R8. Saber que genero de alumnos (masculino o femenino) es el que se titula más dentro

del plazo reglamentario por programa académico.

Dimensiones Involucradas

DimProgramaPosgrado

DimSexo

DimSituacionAlumno

Medida

Cantidad

Ilustración 4.73 Tabla con Cantidad de Alumnos Graduados dentro del plazo reglamentario por Sexo de la Maestría en

Ciencias en Administración.

Ilustración 4.74 Gráfica con Cantidad de Alumnos Graduados dentro del plazo reglamentario por Sexo de la Maestría en

Ciencias en Administración.

Ilustración 4.75 Tabla con Cantidad de Alumnos Graduados dentro del plazo reglamentario por Sexo de la Maestría en

Ciencias en Estudios Interdisciplinarios para PyMES.

Page 101: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 100

Ilustración 4.76 Gráfica con Cantidad de Alumnos Graduados dentro del plazo reglamentario por Sexo de la Maestría en

Ciencias en Estudios Interdisciplinarios para PyMES.

Ilustración 4.77 Tabla con Cantidad de Alumnos Graduados dentro del plazo reglamentario por Sexo de la Maestría en

Ciencias en Informática.

Ilustración 4.78 Gráfica con Cantidad de Alumnos Graduados dentro del plazo reglamentario por Sexo de la Maestría en

Ciencias en Informática.

Ilustración 4.79 Tabla con Cantidad de Alumnos Graduados dentro del plazo reglamentario por Sexo de la Maestría en

Ciencias en Ingeniería Industrial.

Page 102: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 101

Ilustración 4.80 Gráfica con Cantidad de Alumnos Graduados dentro del plazo reglamentario por Sexo de la Maestría en

Ciencias en Ingeniería Industrial.

Ilustración 4.81 Tabla con Cantidad de Alumnos Graduados dentro del plazo reglamentario por Sexo del Doctorado en

gestión y Políticas de Innovación.

Ilustración 4.82 Gráfica con Cantidad de Alumnos Graduados dentro del plazo reglamentario por Sexo del Doctorado en

gestión y Políticas de Innovación.

Indicador 1. Atención a la demanda de formación académica con calidad.

Descripción General: Mide el porcentaje de alumnos aceptados en un programa de

posgrado, mediante un proceso de selección de acuerdo con el reglamento de

posgrado del IPN.

Periodicidad: Anual.

Page 103: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 102

Fórmula del método de cálculo del indicador:

Alumnos aceptados anualmente en el posgrado x 100

Total de alumnos aspirantes al posgrado en el año correspondiente

Indicador 2. Tasa de graduación por cohorte generacional.

Descripción General: Mide el número de alumnos que obtienen el grado académico

en una misma generación, dentro de la duración manifestada por el programa en la

Dirección General de Profesiones.

Periodicidad: Anual.

Fórmula del método de cálculo del indicador:

Alumnos que obtuvieron grado académico de una generación (dentro de la duración manifestado por el programa)

Alumnos inscritos en la generación considerada

Ilustración 4.83 Dashboard que muestra el indicador 1: Atención a la Demanda de Formación Académica con Calidad.

Page 104: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 103

4.8 Implementación

4.8.1 Informe Final

De acuerdo a los resultados obtenidos con el modelo propuesto se observa que

resulta viable el implementar una solución de Inteligencia de Negocios dentro de la SEPI

UPIICSA, ya que se cuenta con la información histórica de los alumnos en la Base de Datos

de Sistema CESC5W, y se posee la infraestructura necesaria.

El implementar el modelo de Data Mart propuesto traería algunos beneficios para

el Colegio de Profesores, Jefes y Coordinadores de las maestrías y el doctorado de la SEPI

UPIICSA, debido a que se podrían analizar las características y comportamiento que han

tenido los alumnos que han cursado un programa de posgrado en la unidad, además de

Ilustración 4.84 Dashboard que muestra el indicador 2: Tasa de Graduación por Cohorte Generacional.

Page 105: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 104

contar con indicadores que se puedan ocupar para dar seguimiento al desarrollo de la

sección desde esta perspectiva.

Estas características e indicadores podrían servir a los directivos para conocer más

sobre los alumnos que han estado en la SEPI UPIICSA y podrían permitir crear estrategias

que atraiga a más personas a cursar un posgrado en la unidad académica y desde luego a

terminarlo satisfactoriamente en tiempo y forma, igualmente se podrían tomar acciones

que ayudaran a mejorar la calidad de los programas de posgrado desde la perspectiva de

los alumnos.

El implementar una solución de Inteligencia de Negocios no representaría un costo

para la sección ya que se puede realizar en alguna plataforma “open source” como es el

caso de este trabajo de tesis, además de que los usuarios no necesitarían instalar algún

software adicional en sus equipos, ya que es una aplicación web.

Para la implementación de este modelo sería necesario contar con la aprobación y

el apoyo de los directivos de la SEPI UPIICSA, ya que se necesitaría tener una definición de

requerimientos más completa, en la cual se especifiquen de manera precisa y reales que

informes, gráficos o indicadores les son de mayor utilidad para ellos y que además les

pueden ayudar a tomar algunas decisiones.

Finalmente se puede decir que sería bastante bueno el contar con una herramienta

de este tipo que sea capaz de generar información de manera rápida, gráfica y entendible,

que ayude a los directivos de la SEPI a conocer la situación de los programas de posgrado

impartidos en la UPIICSA, no solo desde una perspectiva de los alumnos, sino de algunas

otras más.

Page 106: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 105

CAPÍTULO 5

CONCLUSIONES Y

RECOMENDACIONES

En esta sección del documento se realizan las conclusiones que se tuvieron en el

desarrollo de este trabajo, además de hacer algunas recomendaciones que podrían servir

para implementar una aplicación de Inteligencia de Negocios que ayude a los directivos de

la SEPI UPIICSA.

Page 107: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 106

5.1 Conclusiones

La implementación de un proceso de inteligencia de negocio en una organización,

permite que la información fluya de una forma natural y controlada desde donde se

producen las transacciones del día a día de la organización, hasta convertirlas en

información y conocimiento que permiten a los usuarios finales tomar mejores decisiones.

Este trabajo describió la creación de un Data Mart desde la perspectiva de los

alumnos, para su desarrollo se describieron algunos fundamentos teóricos necesarios como

son las metodologías existentes para llevar un proyecto de Inteligencia de Negocios, así

como los modelos de construcción de un Data Warehouse dentro de una organización.

La implementación tecnológica fue en la suite de Pentaho en la versión “Community

Edition” la cual es “open source” y ofrece herramientas que van desde el ETL hasta la

presentación de la información. Una de las fases más importantes de todo proyecto de

Inteligencia de Negocios es el proceso de ETL, ya que si tenemos los datos correctos

obtendremos información y conocimiento correcto.

Por último, tenemos que se pudo dar respuesta a las preguntas o requerimientos

que se definieron en este trabajo e implementar dos indicadores para el seguimiento de la

SEPI UPIICSA de manera gráfica y entendible.

5.2 Recomendaciones

Se podría desarrollar una solución de Inteligencia de Negocios adaptada a las

necesidades de la SEPI UPIICSA utilizando software “Open Source” como lo es la suite de

Pentaho, esto para que no represente un costo o inversión que pueda afectar las finanzas

de la sección.

De igual manera se podría pensar en utilizar la solución de Microsoft SQL Server BI

para desarrollar una solución de Inteligencia de Negocios, ya que actualmente el Instituto

Politécnico Nacional cuenta con SQL Server como manejador de Base de Datos, solo sería

necesario investigar si se cuenta con la licencia adecuada para utilizar la solución completa.

Finalmente y lo más importante en todo proyecto de Inteligencia de Negocios, la

alta dirección de la organización debe estar involucrada y convencida de implementar una

solución de este tipo, ya que sin su apoyo prácticamente el proyecto está condenado al

fracaso o a quedarse en eso, solo un proyecto.

Page 108: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 107

5.3 Trabajos Futuros

Este trabajo se basó en la metodología de Kimball, y por ahora solo se construyó un

Data Mart para manejar la información que se tiene almacenada de los alumnos de

posgrado de la SEPI UPIICSA. Sin embargo a este Data Mart se le podría añadir una

dimensión adicional que trate el tema de calificaciones, y también se podrían ampliar

algunas de ellas como la dimensión de Nacionalidad y la de Situación de los Alumnos.

Por otro lado aunque el alcance de este trabajo se limita a información relacionada

con los alumnos, se podría ampliar esta solución a más perspectivas como por ejemplo,

Data Marts relacionados con el personal docente, administrativo, becas o cualquier otro

tipo de información que resulte importante y de ayuda para los directivos de la sección.

Page 109: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 108

Bibliografía

BI Geek. (28 de Diciembre de 2016). BI Geek Web Site. Recuperado el 10 de Septiembre de 2017,

de BI Geek, consultoría especializada en tecnologías de Business Intelligence:

http://blog.bi-geek.com/arquitectura-data-warehouse-datamart/

Brito, D. M. (30 de Enero de 2014). inteligenciadenegociosdiegobrito.blogspot.mx. Recuperado el

14 de Septiembre de 2017, de

http://inteligenciadenegociosdiegobrito.blogspot.mx/2014/01/la-metodologia-de-

kimball.html

Business, E. (18 de Junio de 2015). ¿Cuál es la diferencia entre Data Warehouse y Data Mart?

Recuperado el 01 de Septiembre de 2017, de Esan.edu.pe:

https://www.esan.edu.pe/apuntes-empresariales/2015/06/diferencia-entre-data-

warehouse-data-mart/

Businessintelligence. (2013). Businessintelligence.info. Recuperado el 10 de Junio de 2017, de

¿Qué es un DSS?: https://www.businessintelligence.info/dss/dss-apoyo-decisiones.html

Businessintelligence. (2013). Businessintelligence.info. Recuperado el 10 de Agosto de 2017, de

https://www.businessintelligence.info/definiciones/que-es-olap.html

Cano, J. L. (2007). Business Intelligence: Competir con información. Madrid: Banesto, Fundación

Cultur. Recuperado el 17 de Mayo de 2017

Cohen, D. (1996). Sistemas de Información para la Toma de Decisiones. México: McGraw-

Hill/Interamericana de México.

Datawarehouse4u. (2009). Datawarehouse4u.info. Recuperado el 10 de Agosto de 2017, de

http://datawarehouse4u.info/OLTP-vs-OLAP.html

Dertiano, V. (06 de Abril de 2015). Mirai Advisory Blog. Recuperado el 21 de Septiembre de 2017,

de blog.mirai-advisory.com: http://blog.mirai-advisory.com/?p=545#prettyPhoto

Dertiano, V. (09 de Marzo de 2015). Mirai Advisory Blog. Recuperado el 21 de Septiembre de 2017,

de blog.mirai-advisory.com: http://blog.mirai-advisory.com/?p=532

El Rincon del BI. (19 de Abril de 2010). Recuperado el 26 de Agosto de 2017, de 15.2.Kimball vs

Inmon. Ampliación de conceptos del Modelado Dimensional.:

https://churriwifi.wordpress.com/2010/04/19/15-2-ampliacion-conceptos-del-modelado-

dimensional/

gravitar.biz. (30 de Septiembre de 2008). Recuperado el 19 de Septiembre de 2017, de Business

Intelligence, Data Warehouse, Monterrey, México : Gravitar:

http://gravitar.biz/bi/metodologia-business-intelligence/

Grupo PowerData. (3 de Enero de 2017). Powerdata.es. Recuperado el 14 de Agosto de 2017, de

http://www.powerdata.es/data-warehouse

Page 110: MODELO DE DATAMART PARA ANÁLISIS DE …148.204.210.201/tesis/1520618963831TesisJoseLuis.pdf · 2018-03-09 · instituto politÉcnico nacional unidad profesional interdisciplinaria

Aplicación de Inteligencia de Negocios para la SEPI de la UPIICSA

Página 109

IEDGE. (2017). Recuperado el 20 de Mayo de 2017, de IEDGE – ¿Qué es y en qué consiste el cuadro

de mando integral (CMI)?: http://www.iedge.eu/ines-lasanta-que-es-en-que-consiste-el-

cuadro-de-mando-integral-cmi

Itop.es. (31 de Mayo de 2017). Recuperado el 30 de Octubre de 2017, de Itop - Pentaho:

www.itop.es

Mos, S. F. (20 de Enero de 2015). Pertutatis.cat. Recuperado el 11 de Junio de 2017, de ¿Qué son

los Sistemas de Apoyo a la Toma de Decisiones (DDS)?: http://pertutatis.cat/que-son-los-

sistemas-de-apoyo-a-la-toma-de-decisiones-dds/

Oracle. (27 de Diciembre de 2016). ¿Qué es Inteligencia de Negocios? Recuperado el 25 de Abril de

2017, de Oracle:

http://www.oracle.com/ocom/groups/public/@otn/documents/webcontent/317529_esa.

pdf

Pentaho. (1 de Enero de 2017). Recuperado el 18 de Noviembre de 2017, de Business Intelligence,

Data Warehouse, Monterrey, México : Gravitar: https://gravitar.biz/pentaho/

Sinnexus. (s.f.). ¿Qué es Business Intelligence? Recuperado el 01 de Mayo de 2017, de

Sinnexus.com: http://www.sinnexus.com/business_intelligence/

Sinnexus. (s.f.). Datamart. Recuperado el 31 de Agosto de 2017, de Sinnexus.com:

http://www.sinnexus.com/business_intelligence/datamart.aspx

Tolentino, L. E. (2016). Sistema de Información Ejecutiva. Universidad de Itsmo, Oaxaca.

Wiki.scn.sap.com. (19 de Octubre de 2010). Recuperado el 11 de Agosto de 2017, de OLAP vs OLTP

- SAP NetWeaver Business Warehouse - SCN Wiki:

https://wiki.scn.sap.com/wiki/display/BI/OLAP+vs+OLTP