Upload
dangkiet
View
219
Download
6
Embed Size (px)
Citation preview
TESIS
Formulación de Minería de Datos para la Empresa Distribuidora de Productos Espinoza
Aguilar S.A.
Por
Álvaro Alejandro Alcántara Mori
Alumno de Ingeniería de Sistemas de la
Facultad de Ingeniería Industrial y Sistemas
Para optar el Título Profesional de
INGENIERO DE SISTEMAS
EN LA
UNIVERSIDAD TECNOLOGICA DEL PERU
MAYO 2012
Tesis Dirigida por: MBA Ing. Carlos Zorrilla Vargas
Facultad de Ing. De Sistemas
UTP Página 2
RESUMEN EJECUTIVO
El presente trabajo es un estudio de la viabilidad, adaptación y beneficios que puede
ofrecer la metodología de la minería de datos aplicado a la pequeña empresa, que no
cuenta con plan de proyección estructurado, de los análisis internos y externos, que van
cambiando durante el ciclo de vida de la empresa.
El alto costo que logístico que presentan las pymes, en la distribución, almacenaje,
retornos y stock; reducen el margen rentabilidad. Que llegan hasta un 30% de los costos
de producción y hasta 25% en las distribuidoras.
Esta tesis llegara a abarcar las etapas de análisis y diseño y se utilizara la metodología
RUP en combinación con UML, se diagramarán los casos de uso del negocio, los casos
de uso en la aplicación de la metodología, los diagramas de estado, diagramas de
secuencia, diagramas de clases y por último el prototipo de la aplicación resultante.
Al final de la investigación se llegará a determinar el beneficio cualitativo y cuantitativo
aproximado de la implementación del sistema, así como estructurar una guía de
implementación.
Facultad de Ing. De Sistemas
UTP Página 3
ÍNDICE
PAG.
1. Introducción 4
2. Justificación de la Investigación 5
a. Objetivos (generales y específicos) 5
b. Diferenciación con otros proyectos similares. 5
3. Situación Actual
a. Definición del Problema 6
b. Volúmenes de Información (del negocio, de los clientes, años anteriores,
mercado local, mercado global, si aplica, información estadística)
6
4. Marco teórico 8
5. Solución Propuesta
a. Alcance de la propuesta de Solución 17
b. Análisis de la solución propuesta 17
i. Benchmarking 17
ii. Análisis de estratégico 18
iii. Análisis funcional 19
iv. Etapas de la solución 21
c. EVS 21
d. Metodología 22
e. Sistema propuesto 22
6. Impacto esperado 31
7. Conclusiones 32
8. Bibliografía
9. Glosario
10. Anexos
Facultad de Ing. De Sistemas
UTP Página 4
CAPÍTULO I
INTRODUCCIÓN
La tesis a desarrollar está orientada a la exploración de los datos que una empresa posee
y que puede ser un material muy importante en la búsqueda de conocimiento sobre
cómo está evolucionando su negocio.
Como estudios anteriores han demostrado las pequeñas empresas tienen los más altos
costos logísticos en el mercado, bordeando en ocasiones hasta en un 25 % de los
ingresos netos de sus actividades. Esto debido al desconocimiento de las mejores
prácticas de marketing y preferencias que tiene con sus clientes; que por lo que para
satisfacer los requerimientos usar recursos en exceso. También considerando los
retornos de mercadería que presentan defectos por motivos de transporte y
manipulación
Con el apoyo de la metodología de la minería de datos, buscaremos estas tendencias que
dan una mejor rentabilidad para el negocio; reduciendo los costos logísticos usando la
información que se tiene almacenada históricamente del propio entorno del negocio.
Con ello estaremos calculando los beneficios de la implantación de ésta metodología y
podremos calcular el rendimiento; según indicadores publicados se puede llegar hasta
un 7% de gastos logísticos, por lo que planteamos llegar hasta un punto entre 10% y
15%. Para esto nuestro alcance de estudio llegará solo a la formulación del caso y la
solución propuesta ya que tiene limitantes de tiempo y finalidades de estudio.
Facultad de Ing. De Sistemas
UTP Página 5
CAPÍTULO II
JUSTIFICACIÓN DE LA INVESTIGACIÓN
2.1. Objetivos
2.1.1. Objetivo General
Conocer el impacto económico y en la alineación de los posesos al implantar
un sistema de Minería de Datos en la logística de la empresa.
2.1.2. Objetivos Específicos
Calcular la ganancia económica resultante después de la implantación.
Caracterizar los procesos no atendidos adecuadamente, conocer su
influencia.
2.2. Hipótesis
2.2.1. Hipótesis General
¿La implantación de un Sistema de Minería de Datos, en la empresa DIPESA,
logrará reducir a 10% los costos logísticos?.
2.2.2. Hipótesis Específicas
¿La implantación de Sistemas basados en análisis de Data Minig, implicara la
reingeniería de los procesos en la empresa?.
Tipo de Hipótesis:
Hipótesis de correlación – causalidad
2.3. Diferenciación con otras Investigaciones Similares
A diferencia de otros sistemas que implementan la minería de datos, la
propuesta que deseamos mostrar no requiere de un depósito de información
compleja y puede ser aplicada a las pequeñas empresas en sus sistemas actuales.
Con la adecuada manipulación de sus datos históricos que tenga disponible el
sistema a analizar.
También será de fácil interpretación de la información; al mostrar indicadores y
tablas simples, ya que son de los procesos simples del negocio, para su adecuado
uso en la toma de decisiones.
Facultad de Ing. De Sistemas
UTP Página 6
CAPÍTULO III
SITUACIÓN ACTUAL
3.1. Definición del Problema
La empresa DIPESA, dedicada a la comercialización de productos de primera
necesidad.
Tiene procesos básicos de comercialización y cuenta con un sistema de
almacenes que solo gestiona parte de sus procesos.
Se ha visto perdidas por el mal ingreso de los datos en algunas de las áreas de
sus procesos y gastos excesivos por el tema de almacenamiento.
También ligeras pérdidas de productos que exceden las fechas de vencimiento y
que aún no han sido distribuidos.
3.2. Alcance y Limites del Estudio
Alcance
La aplicación del sistema de minería de datos, abarcará el análisis de la
adquisición, distribución y transporte de la mercadería.
No será atendido los temas laborales, sociales o gubernamentales que
implique en la ejecución de las operaciones comerciales.
Limitaciones
Las limitaciones del estudio son dadas por la falta de cultura que tienen
las medianas empresas en la inversión de proyectos de análisis
estadísticos. Que impiden tener datos referenciales donde podamos tomar
una iniciativa de mejora.
Y en la nula información de las grandes compañías que usan éstas
herramientas, debido a la confidencialidad que éstos procesos conlleva
así como de seguridad y estrategias comerciales.
.
Facultad de Ing. De Sistemas
UTP Página 7
3.3. Identificación de las Variables
3.3.1. Variable Independiente
(X) = Sistema de minería de datos (SMD).
3.3.2. Variable Dependiente
(Y) = Costos logísticos (CL).
Ejm. Reducción de la merma: Esto debido a que en los procesos
logísticos se llega a mermar grandes volúmenes de mercadería, afectando
directamente la Rentabilidad del Negocio, por este motivo se pierde Millones de
soles al año.
Facultad de Ing. De Sistemas
UTP Página 8
CAPÍTULO IV
MARCO TEÓRICO
4.1. Antecedentes de los Datos Generales De La Empresa
4.1.1.- Historia
DISTRIBUIDORA DE PRODUCTOS ESPINOZA AGUILAR S.A.C
Constituido en el año 2003.
Empresa ubicada en la Ciudad de Huancayo , Región Junín dedicada a la
distribución y comercialización de productos alimenticios de consumo masivo.
Forma parte del grupo Empresarial Espinoza con mas de 10 años en el mercado.
4.1.2.- Misión
Somos una empresa dedicada a la distribución y comercialización de productos de
consumo masivo, con el fin de satisfacer las necesidades y exigencias de nuestros
clientes, donde día a día contribuimos al desarrollo de la Región.
4.1.3.- Visión
Ser la organización líder en la distribución y comercialización de
productos de consumo masivo a nivel regional y nacional, alcanzando el
máximo nivel de calidad de servicio basadas en la atención al cliente.
4.1.4.- Negocio
Empresa ubicada en la Ciudad de Tarma, Región Junín dedicada a la
distribución y comercialización de productos alimenticios de consumo masivo,
con amplia experiencia en el mercado.
Las zonas de operación son:
- En Junín: Provincias de Huancayo, Chupaca, Concepción, Jauja,
Yauli – La Oroya, Tarma, Chanchamayo y Satipo
- Huancavelica: Provincias de Huancavelica, Pampas, Tayacaja y
Lircay
Facultad de Ing. De Sistemas
UTP Página 9
a) Denominación:
Nombre Comercial: DIPESA
b) Dirección:
Domicilio Principal : Calle Mercator Nº 460 Dpto. F San Borja
Lima
Centro de Operaciones : Pje Los Ángeles Nº 331 – 340 Huancayo
c) Fecha de Constitución:
24 de enero de 2003.
d) Grupo Económico:
Forma parte del grupo Empresarial Espinoza con más de 10 años en el
mercado.
Grupo Empresarial Espinoza es una empresa dedicada a la distribucion y
comercialización de productos de consumo masivo. Tiene como única finalidad
la satisfacción de las necesidades exigentes de sus clientes, y el desarrollo de la
región. Tiene trayectoria joven en el mercado, pero cuenta con un excelente
vinculo con sus proveedores lo que les permite contar un respaldo de confianza y
garantía.
Facultad de Ing. De Sistemas
UTP Página 10
4.1.5.- Organigrama
Asistente de Gerencia Asesor Legal
ADMINISTRADOR
Secretaria Cajero
CONTADOR GENERAL
Auxiliar de contabilidad
JEFE DE SISTEMAS JEFE DE ALMACEN JEFE DE CREDITOS Y
COBRANZAS
Asistentes de Sistemas Auxiliar de Almacén Supervisor de Ventas
Vendedores
Facultad de Ing. De Sistemas
UTP Página 11
4.2.- Base de Datos
Las Bases de Datos se dice que son como almacenes en los cuales se pueden
guardar una gran cantidad de datos, todo esto se puede hacer de una forma
organizada para poder usarse y utilizar de una manera fácil y sobre todo sencilla.
El término de base de datos fue escuchado por primera vez en 1963, en un
simposio. Desde el punto de vista informático la Base de Datos es un sistema
formado por un conjunto de datos almacenados en discos que permiten el acceso
directo a ellos y un conjunto de programas que manipulen ese conjunto de datos.
Cada base de Datos está compuesta por una o más tablas que guardan un
conjunto de datos. Cada tabla tiene una o más columnas y filas, donde cada
columna guarda una parte de la información sobre lo que queremos almacenar y
cada fila de la tabla representa un registro. Las principales características de una
base de Datos son:
» Independencia lógica y física de los datos.
» Redundancia mínima.
» Acceso concurrente por parte de múltiples usuarios.
» Integridad de los datos.
» Consultas complejas optimizadas.
» Seguridad de acceso y auditoria.
» Respaldo y recuperación.
» Acceso a través de lenguajes de programación.
Figura 12: Esquema de Conexión a una Base de Datos (BD).
Facultad de Ing. De Sistemas
UTP Página 12
4.3. Almacenes de datos (Data Warehousing)
Un almacén de datos es una tecnología de gestión y análisis de los datos. Puede
definirse como una colección de datos clasificados por temas, integrada, variable en el
tiempo y no volátil que se utiliza como ayuda al proceso de toma de decisiones por
parte de quienes dirigen una organización.
Arquitectura de un almacén de datos
4.4. Minería de Datos (Data Mining )
Proceso de extraer información válida, previamente desconocida, comprensible y útil de
bases de datos de gran tamaño y utilizar dicha información para tomar decisiones de
negocios.
Técnicas de Minería de datos
Hay cuatro operaciones principales:
1. Modelado predictivo
Puede utilizarse para analizar una base de datos existente con el fin de determinar
ciertas características esenciales (modelo) acerca del conjunto de datos. Se utilizan
observaciones para formar un modelo de las características más importantes de algún
tipo de fenómeno. Es similar al proceso de aprendizaje humano.
Facultad de Ing. De Sistemas
UTP Página 13
2. Segmentación de la Base de Datos
Su objetivo es realizar la partición de la BD en un número desconocido de segmentos ó
clústeres de registros similares: compartiendo un conjunto de propiedades. Los
segmentos tienen una alta homogeneidad interna y alta heterogeneidad externa. Este
enfoque utiliza aprendizaje NO supervisado para descubrir subconjuntos homogéneos
dentro de una base de datos con el fin de mejorar la precisión de los perfiles. Se asocia
con las técnicas de agrupación neuronal ó demográfica.
3. Análisis de enlaces
Trata de establecer vínculos, denominados asociaciones, entre los registros individuales
ó entre los conjuntos de registros de una BD
4. Detección de desviaciones
Técnica novedosa que identifica las excepciones: que expresa la desviación con
respecto a una cierta expectativa ó a una norma previamente conocida.
4.5 Lenguaje Unificado de Modelado (UML)
Lenguaje Unificado de Modelado (LUM o UML, por sus siglas en inglés, Unified
Modeling Language) es el lenguaje de modelado de sistemas de software más conocido
y utilizado en la actualidad; está respaldado por el OMG (Object Management Group).
Es un lenguaje gráfico para visualizar, especificar, construir y documentar un sistema.
UML no puede compararse con la programación estructurada, pues UML significa
Lenguaje Unificado de Modelado, no es programación, solo se diagrama la realidad de
una utilización en un requerimiento.
UML cuenta con varios tipos de diagramas, los cuales muestran diferentes aspectos de
las entidades representadas, tales como:
a. Caso de Uso
Un Caso de Uso es una descripción de los pasos o las actividades que
deberán realizarse para llevar a cabo algún proceso. Los personajes o
entidades que participarán en un Caso de Uso se denominan actores.
Los diagramas de Casos de Uso sirven para especificar la comunicación y el
comportamiento de un sistema mediante su interacción con los usuarios y/u
otros sistemas.
Facultad de Ing. De Sistemas
UTP Página 14
b. Diagrama de Clases
Un Diagrama de Clases es un tipo de diagrama estático que describe la
estructura de un sistema mostrando sus clases, atributos y las relaciones entre
ellos. Los Diagramas de Clases son utilizados durante el proceso de análisis
y diseño de los sistemas, donde se crea el diseño conceptual de la
información que se manejará en el sistema, y los componentes que se
encargaran del funcionamiento y la relación entre uno y otro.
Un diagrama de clases esta compuesto por los siguientes elementos:
Clase: atributos, métodos y visibilidad.
Relaciones: Herencia, Composición, Agregación, Asociación y Uso.
c. Diagrama de Estado
Facultad de Ing. De Sistemas
UTP Página 15
En UML, un diagrama de estados es un diagrama utilizado para identificar cada una de
las rutas o caminos que puede tomar un flujo de información luego de ejecutarse cada
proceso.
Permite identificar bajo qué argumentos se ejecuta cada uno de los procesos y en qué
momento podrían tener una variación.
El diagrama de estados permite visualizar de una forma secuencial la ejecución de cada
uno de los procesos.
d. Diagrama de Secuencia
El diagrama de secuencia es un diagrama que muestra las interacciones entre
objetos organizados en una secuencia de tiempo.
Representa los objetos del sistema y los mensajes enviados entre objetos
organizados de una manera ordenada en el tiempo.
Los objetos que colaboran entre sí se organizan en la parte superior del
diagrama creando columnas. El tiempo se organiza desde la parte inferior del
mismo.
Bajo cada objeto existe una linea de puntos que indica la duración de la
actividad representada por el diagrama, por lo que la línea de vida debería
extenderse por toda la parte inferior del diagrama.
La barra de activación indica que el objeto se acopló a alguna actividad, algo
que ocurre usualmente cuando se envia un mensaje al objeto.
Facultad de Ing. De Sistemas
UTP Página 16
e. Diagrama de Colaboración
Los diagramas de colaboración son otro tipo de diagramas de interacción,
que contiene la misma información que los de secuencia, sólo que se centran
en las responsabilidades de cada objeto, en lugar de en el tiempo en que los
mensajes son enviados. Cada mensaje de un diagrama de colaboración tiene
un número de secuencia. El primer nivel de la secuencia es 1, y los mensajes
que son enviados durante la misma llamada a un método se numeran 1.1, 1.2
y así sucesivamente para tantos niveles como sea necesario.
Facultad de Ing. De Sistemas
UTP Página 17
CAPÍTULO V
SOLUCIÓN PROPUESTA
5.1. Análisis de la Solución Propuesta
5.1.1 Benchmarking
Data mining con SAS® Enterprise MinerTM
SAS® (statistical analysis system) Enterprise Miner simplifica el proceso de minería de
datos para crear modelos predictivos y descriptivos de gran precisión basados en el
análisis de grandes cantidades de datos provenientes de todas las áreas de la empresa.
Oracle Data Mining
Oracle brinda la primera plataforma que unifica aplicaciones de gestión de performance,
herramientas de Business Intelligence y de análisis y almacenamiento de datos.
Las soluciones de BI de Oracle están dirigidas a los ejecutivos de tecnología y negocios
de organizaciones que buscan optimizar e integrar los procesos de análisis y gestión.
5.1.2. Análisis Estratégico
Análisis de la funcionalidad de la empresa y su cultura organizacional
MISION
Somos una empresa dedicada a la distribución y comercialización de productos de
consumo masivo, con el fin de satisfacer las necesidades y exigencias de nuestros
clientes, donde día a día contribuimos al desarrollo de la Región.
VISION
Ser la organización líder en la distribución y comercialización de productos de consumo
masivo a nivel regional y nacional, alcanzando el máximo nivel de calidad de servicio
basadas en la atención al cliente.
Facultad de Ing. De Sistemas
UTP Página 18
VALORES
Creatividad
Movilización
Comunicación
Acción
Brindamos lealtad y confianza, impulsándonos a implementar soluciones realistas,
objetivas y eficientes para obtención rápida del retorno de su inversión.
Caracterizados por la disciplina, honradez, responsabilidad y compromiso total en cada
servicio brindado.
Ya que nuestro éxito es compartido en proporción directa al desempeño individual y
colectivo.
Análisis de las Fuerzas de Porter
• Amenaza de entrada de nuevos competidores
• El mercado laboral actual permite el ingreso de nuevos competidores.
• La restricción de los competidores es debido a la inversión inicial que
demandaría.
• La rivalidad entre los competidores
• Actualmente DIPESA cuenta con la aceptación y confianza de los
clientes.
• Poder de negociación de los proveedores
• Cuenta con buena relación entre los principales proveedores que surten
de manera eficiente los pedidos solicitados.
• Poder de negociación de los compradores
• Posee una flota de vehículos que realizan la distribución de los productos
en las regiones de Junín y Huancavelica.
• Amenaza de ingreso de productos sustitutos.
• Los productos que distribuye la empresa son de consumo masivo y de
reconocimiento por parte de la población. Pero los clientes siempre
toman como punto de decisión los precios de las competencias.
Facultad de Ing. De Sistemas
UTP Página 19
5.1.3. Análisis Funcional
SISTEMA ACTUAL
SISTEMA PROPUESTO
Facultad de Ing. De Sistemas
UTP Página 20
Diagrama de Casos de Uso del Sistema:
Ingreso al sistema
Análisis de la adquisición
Solicitud de ususario y clave
ClienteSolicitud de mercaderia
Ingreso al sistema
Vendedor
AlmaceneroProveedor
Verificar Productos CompradosDeterminar productos a comprar Seleccionar Proveedor
Evaluacion de Proveeedores
Administrador
Analisis de Compra
Facultad de Ing. De Sistemas
UTP Página 21
5.1.4. Etapas de la Solución
Plan de Proyecto
El proyecto de tesis se divide en los siguientes capítulos principales: marco
conceptual, análisis, diseño, construcción y pruebas, los cuales son tratados a
detalle en el documento de tesis.
En Marco Conceptual, se describe el problema encontrado y la solución
propuesta. Asimismo se examina brevemente el estado del arte relevante para el
tema de tesis.
En Análisis, se detalla paso a paso la metodología usada para el proyecto,
requerimientos y plan de pruebas.
En Diseño, se establece el modelo dimensional, arquitectura y procesos de
extracción y explotación.
Finalmente en Construcción, se desarrolla el proceso ETL y reportes. El
siguiente gráfico esquematiza los entregables a realizar en el proyecto, bajo la
ClienteCliente VendedorVendedor Base de DatosBase de Datos AlmacenAlmacen TransporteTransporte
Solicitar productos
Separar articulos
Verificar Stock/Precio
Solicitar Articulos
Enviar pedido
Entregar Productos
General guia de Transporte
Recepcion y Verificacion
Ingreso al Sistema
Facultad de Ing. De Sistemas
UTP Página 22
estructura de gestión de proyectos WBS (Work Breakdown Structure, Estructura
de Descomposición del Trabajo).
El tiempo de desarrollo del proyecto es de 10 meses a tiempo completo por cada
integrante del grupo de tesis.
5.2. Estudio de Viabilidad
Costos de Inversión: Los costos de inversión son aquellos que se dan al inicio
del proyecto para la construcción del software, estos costos se dividen en:
5.2.1.- Costo del Personal
Se detallaran los costos de los Recursos Humanos que utilizados para la
elaboración del proyecto; se determina al cantidad de días y horas de cada
recurso detallada en el cronograma de elaboración del proyecto. En el siguiente
cuadro se detallara al personal que participa en el desarrollo del sistema:
Facultad de Ing. De Sistemas
UTP Página 23
Costo de RRHH
Cargo Cant. Meses Pago por
Meses
Total
S/.
Jefe Proyecto 1 6 4500 27000
Analista Sénior 1 5 3500 17500
Analista de Base de Datos 1 3 3000 9000
Analista de Procesos 1 4 2500 10000
Programador Sénior 1 6 2200 13200
Programador Junior 1 6 1200 7200
Documentador 1 6 1000 6000
Diseñador 1 1 2100 2100
Soporte Técnico 1 6 700 4200
Total S/. 96200
5.2.2.- Costos de Hardware:
Se detallaran a continuación los costos de los equipos informáticos
utilizados por los integrantes del proyecto, para la ejecución de sus actividades
dentro del proyecto.
Costo de Hardware
Concepto Cant. Costo
Unit. S/. Total S/.
PC Intel Core I5 7 2700 18900
Impresora Epson TX720WD 2 900 1800
Cableado Mts UTP Cat 6 50 2.5 125
Switch 12 puertos 1 200 200
Canaletas y Otros 1 60 60
Total S/. 21085
Facultad de Ing. De Sistemas
UTP Página 24
5.2.3.- Costos de Software:
Se detalla los costos que incurren por la instalación de diferente software
a utilizar dentro en la ejecución del proyecto, teniendo en cuenta que la mayoría
de estos ya cuenta la empresa por lo que ahorraremos tanto en la adquisición
como en la capacitación del personal, esto al ser ya herramientas usadas por el
usuario final.
Costo de Software
Concepto N°
Licencias
Costo Unitario
(Inc. IGV)
Total
US$
Sql Data Base 2008 1 6000 6000
Office Professional 2007 7 125 875
licencia antivirus Nod Antivirus v5.0 6 19 114
Erwin Enterprise System Data
Modeler 3.5 1 1500 1500
Total en $: 8489
Total en S/.: 22920.3
5.2.4.- Costos de Suministros e Insumos
Costos que se incurren en la compra y uso de insumos que servirán para
el desarrollo del proyecto los cuales son:
Costo Logísticos
Concepto Cant Precio.Unit. S/. Costo Total S/.
Tinta de Impresoras + Recargas 20 30 600
Dispositivos de Almacenamiento
USB de 16 Gb. 4 45 180
Millares de Papel Bond 3 15 45
Cono 25 Cds. 1 25 25
Otros útiles de oficina. 1 250 250
Total en S/.: 1100
Facultad de Ing. De Sistemas
UTP Página 25
5.2.5.- Costos de Infraestructura y otros: Son los costos de mi local
pero como esta implementación es para una empresa organizada utilizaremos sus
instalaciones y solo costearemos el mantenimiento de los ambientes donde se
realice reuniones de avance, acuerdos y donde se encuentran las personas que
forman el equipo del proyecto.
Costos de Infraestructura
Concepto Cant.
Meses Precio U.
Precio Total
Limpieza y Mantenimiento
5 750 3750
Luz, Agua, internet, etc. 5 400 2000
Vigilancia 5 675 3375
Total en S/.:
9125
Otros
Concepto Prec. Unit.
Prec. Unit. S/.
Costo Total
S/.
Escritorios de Madera 6 150 900
Gabinete 1 270 270
Muebles de sala de Reuniones
1 2 000 2 000
Sillones de Escritorio 10 120 1 200
Total en S/.:
4 370
Facultad de Ing. De Sistemas
UTP Página 26
5.3. Metodología
A continuación se presenta una metodología que tiene como base el ciclo de vida de los
data warehouses y la Minería de datos, definido por Ralph Kimball.
Este enfoque de implementación se muestra en el siguiente diagrama:
Facultad de Ing. De Sistemas
UTP Página 27
El diagrama muestra una vista general de la ruta que sigue el proyecto en el cual cada
rectángulo indica una etapa del proyecto y el orden a seguir.
Cualquiera que haya pasado por algún proyecto de data ware housing sabe que la
magnitud de recursos y tiempo requerido no es igual para cada etapa.
Facultad de Ing. De Sistemas
UTP Página 28
5.3.1 Definición de los Requerimientos del proyecto
Decidir el alcance del proyecto es una de las tareas más difíciles en un sistema de soporte de
decisiones. El deseo de tener todo instantáneamente entusiasma a todos, pero los
requerimientos se deben definir de acuerdo a las posibilidades del cumplimiento en cada entregable. El
desarrollador debe esperar que estos requerimientos cambien a lo largo de proyecto
.
5.3.2 Análisis de los datos
El gran reto de un sistema BI es la calidad de los datos fuente, por lo que en esta etapa
se evalúan los estándares en los datos
.
5.3.3 Prototipo de aplicación
Esta etapa permite a los desarrolladores y a los involucrados ver el potencial y las
limitaciones de la tecnología, y también brinda la oportunidad de ajustar los requerimientos del
proyecto, y las expectativas del mismo
.
5.3.4 Análisis del repositorio de meta data
Toda la meta data del negocio debe ser guardada en un repositorio, y éstos pueden ser
comprados o construidos. En cualquier caso, los requerimientos para el tipo demetadata
deben ser documentados en un modelo lógico. En el presente proyecto de tesis sólo se ha
construido y guardado la meta data en un repositorio.
Diseño
Concibe un producto que soluciona el problema de la organización
.
5.3.5 Diseño de la base de datos
El diseño de la base de datos debe estar acorde con los requerimientos paraacceder a la
información de la organización
.
5.3.6 Diseño ETL (Extracción, Transformación y Carga)
Los datos fuente para la aplicación BI vendrán de varias plataformas. El propósito de
esta etapa es fusionar los datos de las plataformas en un formato para el Data
Warehouse.
.
Facultad de Ing. De Sistemas
UTP Página 29
5.3.7 Diseño del repositorio de Meta data
Si se compra el repositorio de meta data, éste debe cumplir los requerimientos del
modelo lógico de la meta data. Si se construye el repositorio, se debe tomar la decisión
si éste estará basado en entidad-relación u orientado a objetos. En cualquier caso, debe
de cumplir con los requerimientos del modelo lógico. Esta etapa no se ha considerado en el
presente trabajo de tesis.
5.4. Propuesta del Proyecto
Se utilizara la metodología de Ralph Kimball que es el autor considerado como el
"Gurú" del DWH junto con Bill Inmon. Su metodología se ha convertido en el estándar
de facto en el área de apoyo a las decisiones empresariales.
En el año 1998 dicha metodología se recoge como proceso a seguir en el
desarrollo de un DWH con el libro: “The Data Warehouse Lifecycle Toolkit”.
La siguiente figura muestra de forma esquemática las fases que componen la
metodología propuesta por Kimball y los siguientes apartados resumen el contenido de
cada una de las fases.
5.4.1.- Planificación Del Proyecto
La planificación busca identificar la definición y el alcance del proyecto
de Implementación de una metodología de minería de datos, incluyendo
justificaciones del negocio y evaluaciones de factibilidad. La planificación del
proyecto se focaliza sobre recursos, perfiles, tareas, duraciones y
secuencialidad. El plan de proyecto resultante identifica todas las tareas
asociadas con el BDL e identifica las partes involucradas. Esta etapa se
concentra sobre la definición del proyecto (Implementación de una
metodología de minería de datos).
Facultad de Ing. De Sistemas
UTP Página 30
5.4.2.- Definición De Los Requerimientos De Negocios
Un factor determinante en el éxito de una Implementación de una
Minería de datos es la interpretación correcta de los datos expresados por los
diferentes niveles de usuarios. La técnica utilizada para relevar los
requerimientos de los analistas del negocio difiere de los enfoques tradicionales
guiados por los datos. El diseño de la herramienta debe entender los factores
claves que reducen la merma para determinar efectivamente los requerimientos
y traducirlos en consideraciones de diseño apropiadas.
5.4.3.- Diseño De La Arquitectura Técnica
Se definen las dimensiones y los campos a tener en el desarrollo de las
tablas y del sistema.
Facultad de Ing. De Sistemas
UTP Página 31
CAPÍTULO V
IMPACTO ESPERADO
Ahorro anual
Columna1 Columna2 Columna3 Columna4
Meses
enero -154800.3 TIR
febrero 30000 15%
marzo 30000
abril 30000
mayo 30000 VAN
junio 30000
julio 30000
agosto 30000
septiembre 30000
octubre 30000
noviembre 30000
diciembre 30000
Meses
Movimiento
económico
mensual S/.
Costo
logistico
25%
Costo
logistico
15%
Ahorro
S/.
1 180000 45000 27000 18000
2 180000 45000 27000 18000
3 180000 45000 27000 18000
4 180000 45000 27000 18000
5 180000 45000 27000 18000
6 180000 45000 27000 18000
7 180000 45000 27000 18000
8 180000 45000 27000 18000
9 180000 45000 27000 18000
10 180000 45000 27000 18000
11 180000 45000 27000 18000
12 180000 45000 27000 18000
216000Ahorro anual
Facultad de Ing. De Sistemas
UTP Página 32
CAPÍTULO V
CONCLUSIONES
• Conociendo las tendencias cambiantes del mercado, las organizaciones podrán
realizar las acciones para aumentar la rentabilidad del negocio.
• La reducción de gastos logísticos como la merma y el costo de transporte
significará una madures en la sostenibilidad de la empresa en el mercado laboral.