BODEGAS DE DATOS «DATA WAREHOUSE»
JAIME ANDRES RIVERAJUAN CAMILO FRANCOJOSE LUIS GUEVARA
HECTOR FABIO OCAMPO
CONTENIDO
1. Introducción 2. Definición 3. Historia 4. Funciones de una bodega de datos 5. Modelo 6. Usos habituales 7. Aplicaciones existentes 8. Conclusiones 9. Bibliografía
INTRODUCCION
En la siguiente presentación se expondrán temas relacionados con la data warehouse; su historia, las funciones, su manejo, aplicaciones para el manejo de estas, modelos que se implementan y los usos habituales que se le dan a una data warehouse etc.
Diferencias
Base de Datos Operacional Data Warehouse
Datos Operacionales Datos del negocio para Información
Orientado a la aplicación Orientado al sujeto
Actual Actual + histórico
Detallada Detallada + más resumida
Cambia continuamente Estable
DEFINICIONES SOBRE CONCEPTOS DATA WAREHOUSE
Una bodega de datos es una herramienta utilizada por las organizaciones y empresas como una solución informática que consolida los datos de fuentes internas y externas de una entidad, institución o negocio, en un solo sitio, con el objetivo de facilitar las tareas de consulta y análisis de la información.[1]
DATA WAREHOUSE
“Es un conjunto de datos integrados o orientados a un objetivo específico, que varían con el tiempo (datos históricos) y que no son transitorios.
Soportan el proceso de toma de decisiones de la administración y está orientada al manejo de grandes volúmenes de datos provenientes de diversas fuentes o diversos tipos” [3]
Entendemos por Data Warehousing el proceso de extraer y filtrar datos de las operaciones comunes de la organización, procedentes de los distintos sistemas de información operacionales y/o sistemas externos, para transformarlos, integrarlos y almacenarlos en un depósito o almacén de datos (Data Warehouse, en inglés) con el fin de acceder a ellos para dar soporte en el proceso de toma de decisiones de una organización.[1]
DATA WAREHOUSING
DATAMART
Es un subconjunto de datos de una Data Warehouse para un área específica. En un Data Warehouse se tiene la información concentrada de una empresa y de todos los departamentos. Los Data Mart nos permiten hacer una separación de los datos para funciones específicas, usuarios específicos y áreas específicas.[2]
ETL
Sus siglas en inglés significan Extract Transform Load. Extract es el proceso de extraer la información que puede venir de diferentes fuentes de datos o bases de datos de distintos proveedores.[2]
HISTORIA
Con la evolución de los sistemas, las empresas se quedaban cortas al momento de realizar consultas del negocio, en ocasiones se consultaban registros del mes para no afectar su rendimiento de estos fallos nacieron las bodegas de datos.
Las Bodegas de datos hicieron su aparición en la década de los 80 en una pequeña empresa llamada TERADATA que fue la empresa pionera en el concepto de maquinas paralelas. [6]
Posteriormente varios fabricantes siguieron con este esquema de sistemas multiprocesadores, con diferentes arquitecturas, con precios cómodos. Se enfocaron en reducir los tiempos de respuesta en una solución de hardware y vieron que lo importante de un sistema es el SOFTWARE Después de rigurosas pruebas, a mediados de los noventa algunas empresas aplicaron Data Warehouse no siendo tan exitosos los resultados, debido a que la forma de programar en principio era enfocado a programación transaccional. [6]
La persona que cambio el concepto de Data Warehouse en el año de 1992, BILL INMON (considerado el padre del data warehousing) .En donde centro todo hacia el procedimiento del Diseño y formalizo las características que debería tener un sistema de este estilo.[6]
¿Cómo funcionaban?
EN LA PARTE DE HARDWARE :
Era un sistema dedicado, se basaba en la interconexión entre SERVIDORES y cada uno tenía su propia memoria RAM y DISCO DURO utilizando el bus (YNET). Tenía como particularidad que un nodo seria jerárquicamente mayor que otros, utilizando la interconexión en árbol binario.
EN LA PARTE DE SOFTWARE:
Cada servidor cumplía con una tarea en específico, ejemplo: un nodo se encargaba derealizar un SELECT, otro de un JOIN, otro de un COUNT hasta terminar una consulta y distribuyendo la carga en diferentes nodos.
FUNCIONES DE UNA DATA WAREHOUSE
Entrega de información validada, correcta y oportuna.
Dar respuestas a necesidades del usuario a través de las herramientas DSS, EIS, TCR. Usuario final no afecta las operaciones del sistema.[7]
MODELO DE DATOS DE UNA BODEGA DE DATOS
Una hoja de cálculo estándar constituye una matriz bidimensional.
Si añadimos una dimensión temporal tendríamos una matriz tridimensional.
Las herramientas de explotación OLAP de los almacenes de datos han adoptado un modelo multidimensional de datos.
Los modelos multidimensionales se prestan fácilmente a
representaciones jerárquicas en lo que se conoce como
exploración ascendente (roll-up ) y exploración descendente
(drill- down).
La exploración ascendente desplaza la jerarquía hacia
arriba, agrupándola en unidades mayores a través de una
dimensión. Por ejemplo: resumiendo los datos semanales en trimestrales o en anuales.
La exploración descendente ofrece la función contraria (de
grano más fino). Por ejemplo: disgregando las ventas
nacionales en ventas por regiones y después éstas en ventas
por subregiones.
El diseño multidimensional es un método de diseño de bases de datos basado en el modelo relacional.
Está compuesto por dos tipos de tablas:
-Varias tablas de dimensiones, cada una formada por tuplas de atributos de la dimensión.
-Una tabla de hechos, compuesta por tuplas, una por cada hecho registrado. Este hecho contiene alguna variable o variables medidas u observadas y las identifica con punteros a las tablas de dimensiones.
El esquema relacional esta compuesto por
1 tabla de hechos y M tablas de dimensiones :
Relación 1 : M.
La tabla de hechos contiene los datos, las dimensiones identifican cada tupla en esos datos.
Tres son los esquemas multidimensionales comunes:
Esquema en estrella: formado por una tabla de hechos con una única tabla para cada dimensión.
Esquema en copos: es una variante del esquema de estrella en el que las tablas dimensionales de este último se organizan
jerárquicamente mediante su normalización.
Constelación de hechos: es un conjunto de tablas de hechos que comparten algunas tablas de dimensiones.
USOS HABITUALES DE LAS BODEGAS DE DATOS
Uso deBase de Datos Operacionales
Uso deData Warehouse
Muchos usuarios concurrentes
Pocos usuarios concurrentes
Consultas predefinidas y actualizables
Consultas complejas, frecuentementeno anticipadas.
Cantidades pequeñas de datos detallados
Cantidades grandes de datos detallados
Requerimientos de respuesta inmediata
Requerimientos de respuesta no críticos
Sólo pocos usuarios acceden a los datos concurrentemente
En contraste a la producción de sistemas que pueden manejar cientos o miles de usuarios concurrentes, al data warehouse accesa un limitado conjunto de usuarios en cualquier tiempo determinado.
Los usuarios generan un procesamiento no predecible complejo
Los usuarios del data warehouse generan consultas complejas. A veces la respuesta a una consulta conduce a la formulación de otras preguntas más detalladas, en un proceso llamado drilling down.
Las consultas de los usuarios accesan a cantidades grandes de datos
Debido a la necesidad de investigar tendencias y evaluar las relaciones entre muchas clases de datos, las consultas al data warehouse permiten accesar a volúmenes muy grandes tanto de data detallada como resumida.
Las consultas de los usuarios no tienen tiempos de respuesta críticos
Las transacciones operacionales necesitan una respuesta inmediata porque un cliente puede estar esperando una respuesta.[8]
APLICACIONES PARA UNA DATA WAREHOUSE
La información estratégica sobre clientes importantes o un exitoso lanzamiento de producto, se almacena en gigabytes de datos de marketing o índice de transacciones de venta. Esa información debe ser extraída de alguna forma para la toma de decisiones.En este caso se necesita software especializado que permita capturar los datos relevantes en forma rápida y pueda verse a través de diferentes dimensiones de los datos. El software no debería limitarse únicamente al acceso a los datos, si no también, al análisis significativo de los datos. En efecto, transformar los datos de la información cruda o no procesada, en información útil para la empresa.[8]
HERRAMIENTAS DE CONSULTA Y REPORTE
Crystal Reports de Seagate, Impromptu de Cognos, Reportsmith de Borland, Intelligent Query de IQ Software, Esperant de Software AG y GQL de Andyne, ofrecen interfases gráficas para seleccionar, arrastrar y pegar.
HERRAMIENTAS DE BASE DE DATOS MULTIDIMENSIONALES / OLAP
(OnLine Analytical Processing). Permiten obtener información generando consultas multidimensionales, con columnas y filas móviles y diversos grados de agrupamiento para diferentes parámetros.
Tipos de servidores OLAP
[9]
MOLAP: Multimensionales OLAP.
ROLAP: Relational OLAP. HOLAP: Híbrido OLAP.
Arreglos multidimensionales.No escalan a grandes volúmenes.No hay estándar.Muy eficiente.Realmente guarda el cubo de decisión.Interfaz estilo hoja de cálculo.Principalmente operaciones de agregación de medidas diferentes.Niveles jerárquicos de las dimensiones.Subir o bajar en los niveles de agregación (Rollup,DrillDown).Otras operaciones comunes: Filtrar y rotar. Slice and Dice.
Relaciones.Consultas SQLEscalan bien a grandes volúmenesSon menos eficientes.
Datos agregados. MOLAPDatos detallados. ROLAP
HERRAMIENTAS DATA MINING
Data mining es una categoría de herramientas de análisis open-end. En lugar de hacer preguntas, se toma estas herramientas y se pregunta algo "interesante", una tendencia o una agrupación peculiar, por ejemplo. El proceso de data mining extrae los conocimientos guardados o información predictiva desde el data warehouse sin requerir pedidos o preguntas específicas.
SISTEMAS DE GESTION DE BASES DE DATOS
DB2 IBM
Fast-Count DBMS MegaPlex Software
HOPS HOPS International
Microsoft SQL Server Microsoft
Model 204 Computer Corporation of America
NonStop SQL Tandem
Nucleus Server Sand Technology Systems
OnLine Dynamic Server,Extended Parallel Server Informix
OpenIngres Computer Associates
Oracle Server Oracle
Rdb Oracle
Red Brick Warehouse Red Brick Systems
SAS System SAS
Sybase IQ Sybase
Sybase SQL Server, SQL Server MPP Sybase
SymfoWARE Fujitsu
Teradata DBS NCR
THOR Hitachi
Time Machine Data Management Technologies, Inc.
Titanium Micro Data Base Systems, Inc.
Unidata Unidata, Inc.
UniVerse VMARK
Vision Innovative Systems Techniques, Inc.
WX9000 White Cross Systems Inc.
XDB Server XDB Systems, Inc. [8]
CONCLUSIONES
Como conclusión podemos decir lo siguiente la importancia que tienen las bodega de
datos y el manejo frente a una empresa, El desarrollo que tiene BD, se deben
implementar siguiendo determinados pasos y normas.
Una BD es eficiente o confiable si sus aspectos de seguridad cumplen con todo los requerimiento.
Bibliografía
[1]http://informationmanagement.wordpress.com/2007/10/07/data-warehousing-data-warehouse-y-datamart/
[2]http://www.ibm.com/developerworks/ssa/data/library/tipos_bases_de_datos/index.html
[3]Introduccion B_I Elizabeth Leon Guzman .UNAL
[4]http://www.scielo.org.co/scielo.php?pid=S0120-56092007000100008&script=sci_arttext
[5]trabajofinal4.tripod.com/historia.html
[6]https://prezi.com/qg-ty8ueevar/data-warehouse/
[7]http://haroldrhp.wordpress.com/23-2/
[9] http://www.monografias.com/trabajos24/bodega-de-datos/bodega-de-datos.shtml#uso#ixzz3Jz51vWce
[8 ]http://www.ongei.gob.pe/publica/metodologias/Lib5084/132.HTM
http://www.oracle.com/us/products/database/datawarehousing/overview/index.html
http://es.wikipedia.org/wiki/Data_mart
https://docs.oracle.com/html/E10312_01/dm_concepts.htm
http://es.wikipedia.org/wiki/OLAP
http://es.wikipedia.org/wiki/Base_de_datos_multidimensional
[9]http://www.ibm.com/developerworks/ssa/data/library/tipos_bases_de_datos/index.html
http://www.disi.unal.edu.co/profesores/eleonguz/cursos/tabd/presentaciones/Sesion2-Introdu
ccionBI.pdf
http://www.sinnexus.com/business_intelligence/olap_avanzado.aspx
http://es.wikipedia.org/wiki/Almac%C3%A9n_de_datos
http://www.sispro.gov.co/
http://es.wikipedia.org/wiki/Esquema_en_estrella