Presentación de PowerPoint DB2, Oracle, Sap. ... realizar consultas. A menudo éstas se crean a...

Preview:

Citation preview

Caracas, Abril 2016

Dirección General de Estudios de Postgrado

Área de Ingeniería

Programa: Maestría Sistemas de Información

Integrantes:

Areiza, Elvis

Pérez, Dalila

Rivas, Juan

Puntos a tratar:

1.- Almacén de Datos (Data Warehouse)

2.- Preparación del almacén de datos

3.- Bases de datos multidimensionales (BDM).

4.- Procesamiento y análisis en línea (OLAP).

5.- Mercados de datos (Data Mart).

6.- Minería de datos (Data mining).

1. Almacén de Datos (Data Warehouse)

•Almacén:

•«Edificio o local donde se depositan géneros de cualquier especie, generalmente mercancías.»

•Datos: «Documento, testimonio, fundamento.»

•«Información dispuesta de una manera adecuada para su tratamiento por una computadora.»

Según la RAE

2. Preparación del Almacén de Datos

Sistema de Ayuda Toma de Decisión

A la hora de construir un Almacén de datos:

Perspectiva

SG. Colas

Distribución de Pedidos

Enfoque, Objetivo

SATD: • Ordenar • Preparar datos

Arquitectura de Inteligencia de Negocios

1

2 Analítico

Data Warehousing

¿ETL?

Vista Detalla Data warehousing

ETL: Extracción, Transformación y Carga.

Los Datos deben ser extraídos de diversas fuentes, Depurados, transformados y consolidados .

Fase de extracción:

Fuentes de extracción:

• Producción (SBD Transacciones):

IMS, DB2, Oracle, Sap.

• Archivos Planos: Texto o binario

• Internas o Externas.

Programas en C, Cobol, Pl/Sql Gateways .

Captura de Datos Análisis de entrada y/o salidas de Datos

Técnicas de Extracción

Fase de Transformación

• Involucra la división o la combinación de registros fuente • Verificación de corrección de errores • Importante al mezclar varias fuentes de datos

Los operadores o transformaciones

• Generador de Claves:

• Conversión:

• Filtrado:

• Unión:

Fase de Carga

Carga de los Datos en el Almacén

Pasos para el proceso de Carga:

• Requisitos del usuario (Tareas Procesos)

• Proceso de transporte: (técnicas)

• Ventana de Carga: (Tiempo)

Para la eficiencia de las operaciones de carga considerar:

• Movimiento de datos: Carga de esquemas semejantes al destino

• Verificación de integridad: Criterios de unicidad

• Construcción de índices: Eliminación de índices.

.

Caso Práctico: Análisis de Estadísticas Web

Conexión BD Entorno de

Trabajo

Ventana de Consulta

Parámetros

Base de datos multidimensional (MDB)

Una base de datos multidimensional (MDB) es un tipo de base de datos que almacena datos en varias dimensiones, guardan datos que adquieren valor diferente dependiendo de la dimensión que tengan con respecto a diversos atributos.

En las base de datos

multidimensionales la

información se representa

como cubos y matrices, cada

uno de los cuadros se les

llama matrices y es donde

están almacenadas la

información.

Versatilidad de las bases de datos multidimensionales

Las BDMD se caracterizan por una

mayor versatilidad que las bases

de datos relacionales a la hora de

realizar consultas. A menudo éstas

se crean a partir de entradas de las

bases de datos relacionales,

facilitando un tipo de análisis muy

útil para el negocio, que permite

extraer datos de forma selectiva y

realizar consultas de distinto tipo.

Son muy ventajosos en cuanto a

rapidez y procesamiento.

Para hacer comparaciones

entre distintas consultas y

cuestiones similares con el fin

de resumir operaciones o

descubrir tendencias de

negocios.

Es habitual su utilización para

conocer las ventas en un

determinado contexto.

Cada atributo de los datos

se considera por separado

y, a su vez, puede dividirse

en sub atributos.

Características:

Dimensiones Medidas

Simplifica consultas Datos ordenados por

jerarquía

Ventajas de las bases de datos

multidimensionales

• Accesos a grandes cantidades de información.

• Analiza relaciones entre muchos tipos de elementos.

• Presenta los datos en diferentes perspectivas.

• Involucra cálculos complejos entre elementos de datos.

• Aseguran un buen tiempo de respuesta a las necesidades del usuario.

Beneficios que trae a una organización la utilización de una BDMD

• Facilidad de acceso y Uso. • Flexibilidad. • Los datos organizados en

diferentes dimensiones. • Ahorro por productividad de

personas altamente profesionales.

• Permite encontrar con facilidad el historial de datos.

• Genera ventajas competitivas.

OLAP(Proceso analítico en línea)

Es una solución utilizada en el campo de la llamada

inteligencia empresarial cuyo objetivo es agilizar la

consulta de grandes cantidades de datos. Para ello utiliza

estructuras multidimensionales (o cubos OLAP) que

contienen datos resumidos de grandes bases de datos.

Acciones Básicas del

Proceso Analítico en Línea

Segmenta

Filtra

Profundiza Sintetiza

Rota

Características:

• Visión multidimensional.

• Arquitectura cliente / servidor.

• Multiusuario.

• Permite navegar fácilmente por la información

• Ofrece filtros adecuados, fáciles y dinámicos para el acceso a la información.

• Capacidad de análisis.

• Interfaces gráficas.

• Diferencia entre valor vacío y valor cero.

Ventajas de OLAP:

• Acceso a grandes cantidades de datos.

• Analizan las relaciones entre muchos tipos de elementos empresariales.

• Facilitan la toma de decisiones.

• Involucran datos agregados.

• Comparan datos agregados a través de periodos jerárquicos.

• Respuesta rápida a las consultas de usuarios.

• Presenta datos en diferentes dimensiones.

• Guarda histórico de datos.

Arquitecturas para los sistemas

OLAP

• MOLAP

• ROLAP

• HOLAP

• DOLAP

ROLAP ROLAP es una implementación

OLAP que almacena los datos en

un motor relacional. La

arquitectura está compuesta por

un servidor de banco de datos

relacional y el motor OLAP se

encuentra en un servidor

dedicado.

MOLAP La arquitectura MOLAP usa

unas bases de datos multidimensionales para proporcionar análisis, su principal premisa es que el OLAP está mejor implantado almacenando los datos multidimensionalmente.

HOLAP (Hybrid OLAP)

Almacena algunos datos en un motor relacional y otros en una base de datos multidimensional, es una combinación de varias técnicas de almacenamiento. Las agregaciones se realizan en cache, pero el drill-down a través de la base de datos relacional. Algunos fabricantes son: Microdsoft Analysis Servises, SAS OLAP, Oracle Hyperion Essbase

DOLAP (Desktop OLAP). Es un OLAP orientado a equipos de escritorio (Desktop

OLAP). Trae toda la información que necesita analizar

desde la base de datos relacional y la guarda en el

escritorio. Desde ese momento, todas las consultas y

análisis son hechas contra los datos guardados en el

escritorio.

5.- Mercado de Datos (Data Mart)

Data Mart

Departamentales

Línea de Negocio

¿Qué razones tengo para crea un Data Mart?

Acceso a la Información

• Vista • Potencial

TR

Costo

Beneficios

• Decisiones estratégicas. • Acelera consultas. • Estructura de datos. • El costo. • Perspectivas macros y micro

que ahorra Tiempo.

Desventajas

Diferencias entre un Data Mart y Data Warehouse.

Aspectos Datawarehouse Datamart

Alcance Corporativo Línea de Negocio

Temas Múltiples Un único tema

Tamaño 100 GB-TB+ Menor 100 GB

Tiempo de

Implementación

De meses a años Varios meses

Motivo de la Creación Satisfacer las necesidades de una

corporación

Satisfacer las necesidades

especificas de un departamento

Tipos de Datos Datos con un nivel de detalle amplio Datos agregados y resumidos

Rol de usuarios Exploradores Recolectores

Data Marts Dependientes Data Marts Independientes Data Mart Híbrida

Herramientas de Base de datos que permiten trabajar con Data Marts: Microsoft SQLServer PostgreSql Oracle MySql

Arquitectura Descentralizada Arquitectura Integrada

6. Minería de Datos (Data Mining)

6. Minería de Datos (Data Mining)

6. Minería de Datos (Data Mining)

6. Minería de Datos (Data Mining)

Recommended