Upload
others
View
14
Download
0
Embed Size (px)
Citation preview
1
MODELADO DE DATOSDATA WAREHOUSEAna María Bisbé York | [email protected] , Servicios Profesionales [email protected] | www.danysoft.com 18.04.2013
Temario
Datawarehouse vs Transaccional
Modelado dimensional de datos– Hechos y Dimensionesy
Escenarios
2
DISEÑO RELACIONAL VS DIMENSIONAL
Punto de partida proyectos Inteligencia de negocio
Diferentes contenedores de datos para obtener informaciónEsq ema relacional normali adoEsquema relacional normalizado
– Varios cientos o miles de tablas– Convenciones de nombres incorrectas o dudosas
Problemas en la calidad de datos– Problema de desconocimiento de reglas de negocio– Problemas de documentación
Al i d hi ó iAlmacenamiento de históricos
3
Analizar contenedor de datos
Ventas por Internet – datos geográficos
– períodos de tiempo
Resultados análisis contenedor
Esquema relacional altamente normalizado– SQL Server
– 92 tablas
– Trabajo con esquemas
– Cada tabla, una entidad
– Integridad referencial
4
Subconjunto de tablas a tratar ¿Datos Producto?
¿Datos Tiempo?
Características Modelo Dimensional
Orientado al tema, no a un informe IntegradoCodificado
– Atributo– Medida de atributo– Convención de nombres– Fuentes múltiples
De tiempo variable– Horizonte largo de tiempo vs operacionalesHorizonte largo de tiempo vs operacionales– Estructura clave con elemento tiempo
No volátil
5
ObjetivosEncontrar las tablas y columnas adecuadas
– Reducir cantidad de tablas (join)
– Encontrar procesos de actualización e IR (triggers)• SQL Profiler• SQL Profiler
Diferenciar nombres de objetos para IT vs usuario final
– Autodocumentado
Obtener grandes cantidades de datos:limpios transformados con cierta latencia– limpios, transformados con cierta latencia
Planificar consultas que requieren diseño físico adecuado
Crear tabla de búsqueda de tiempos
Esquema Estrella
Simplificado, narrativo
Denormalizado
Única tabla de hechos (: M)( )
Dimensiones (1: )
Claves foráneas FK
Segmentación de datos
HechoHecho
El cliente A ha comprado el producto B
en la fecha C con cantidad D por un precio de E
6
Esquema Copo de nieve
Esquema Híbrido
7
Data Warehouse
Muchas estrellas = Modelo dimensional DW
Dimensiones compartidas
MODELADO DE DATOSDIMENSIONES, HECHOS
8
Dimensiones
Tipos de columnas– Claves – keys – identificar entidades
– Nombres – nombrar “humanamente” entidades • SSAS ofrece traducciones
– Atributos: discretos o discretizados (10 valores o menos) – Edad
– Propiedades de miembro – etiquetas descriptivas -dirección
Dimensiones
Base del modelo
Columnas homogéneas, identificar miembros
Único estado activo en cada momentoÚnico estado activo en cada momento
Relaciones entre atributos con dependencias funcionales
Atributos sin hechos vs hechos sin atributos
Denormalización
P d d l di iPoder de las dimensiones– Etiquetas de filas y columnas
– Filtros
9
Dimensión Tiempo
Tendencias y comparativas en períodos
Clave surrogada inteligente
Dimensiones lentamente cambiantes (SCD)
Tipo 1IdClienteSK
IdClienteBK
Nombre Distancia Género Propietario
1552 31421 Juan Pérez 6 km M No
Fecha IdClienteSK IdProductoSK
Cantidad Importe
07/01/2011 1552 95 1 1798.00
02/03/2011 1552 37 1 27.95
07/05/2012 1552 87 2 320.26
21/08/2012 1552 33 2 129.99
21/02/2013 1552 42 1 19.95
IdCli t S IdCli t B N b Di t i Gé P i t iIdClienteSK
IdClienteBK
Nombre Distancia Género Propietario
1552 31421 Juan Pérez 31 km M Yes
10
Dimensiones lentamente cambiantes (SCD)
Tipo 2IdClienteSK
IdClienteBK
Nombre Distancia Género Propietario
1552 31421 Juan Pérez
6 km M NoPérez
IdClienteSK IdClienteBK Nombre Distancia Género Propietario FechaInicio FechaFin
1552 31421 Juan Pérez 6 km M No 07/01/2011 01/01/2013
2387 31421 Juan Pérez 31 km M Si 02/01/2013 31/12/9999
Fecha IdClienteSK IdProductoS Cantidad ImporteK
07/01/2011 1552 95 1 1798.00
02/03/2011 1552 37 1 27.95
07/05/2012 1552 87 2 320.26
21/08/2012 1552 33 2 129.99
21/02/2013 2387 42 1 19.95
Modelo Dimensional
Claves surrogadas– Protegen DW de cambios en el origen
– Permiten integrar datos de múltiples orígenes
– Permiten añadir filas a las dimensiones que no existen en el sistema origen.
– Permiten analizar los cambios de atributos en el tiempo (SCD)
– Claves eficientes que unen las BBDD relacionales y de SSASde SSAS
11
Hechos
Tipos de columnas– Claves (FK) lado “Muchos”
– Medidas
– Linaje y auditoría
Identificar hechos– Columnas derivadas
– Ubicación de los hechos
– Cabecera vs detalle
– Asignación vs prorrateo
– Dimensiones degeneradas
Hechos
Sólo hechos– Aditivos, semiaditivos y no aditivos
No todos son hechos
Hechos derivados– Modelado dimensional del Datawarehouse
– Vista de origen de datos
– Modelado de cubo multidimensional (MDX)
– Herramienta cliente final
Granularidad
Muy eficientes, altamente normalizadas
sin redundancias
12
MODELADO DE DATOSANALIZAR DATOS
Prospección y exploración de datos
Problemas en calidad de datos:– Campos sustituidos
– Campos sobrecargados
– Definición variable de los campos
– Entrada libre
Herramientas– Experto en los datos de origen
– Usuarios de negocio o usuarios poderosos
– Sistemas de informes existentes
13
Incidencias comunes en datos
Tiempo invertido
Recursos adicionales
Pérdida de oportunidades
Impacto de datos sucios
14
HerramientasMS SQL Server Management Studio (SSMS)MS Office Excel (2007 – 2010 – 2013)
– Filtros– Segmentadores– Minería de datosMinería de datos– MDM– PowerPivot– PowerView
BI SQL Server – SSIS, SSRS, SSAS OLAP - SSAS DM, MDS, DQS– Business Intelligence Development Studio (BIDS)– Data Tools
MS Sharepoint– Performance Point – PowerPivot, Power View
SSIS – Perfiles de datos
15
MS Office Excel 2010SQL Server 2012 Master Data Services
Combinar datos, tratamiento de errores
Master Data Services
16
SQL Server 2012 Data Quality ServicesInteractive Cleansing
Detección de anomalías –Códigos Postales después de transformación
17
SQL Server 2012 DQS - Integración con SSIS
Sincronizar conjuntos de datos (SCD)
18
Transformaciones de Flujo de datos
MODELADO DE DATOS
TRANSFORMAR Y CARGAR DATOSEscenario
19
Ver Modelo transaccional Productos
Ver Modelo dimensional DW - Productos
20
I.- Tablas normalizadasVista de Origen de datos - DSV
DSV de dimensión
I.- Tablas normalizadas
Relaciones de atributos
Jerarquías de usuarios y Relaciones de atributos
21
II.- Tablas denormalizadascon dependencia funcional correcta
Optimizar ajustando las Relaciones de atributos
III.- Tablas denormalizadascon dependencia funcional incorrecta
Jerarquías de usuarios y Relaciones de atributos
22
III.- Tablas denormalizadascon dependencia funcional incorrecta
Optimizar ajustando las Relaciones de atributos
Errores del motor de almacenamiento OLAP: Se ha encontrado una clave de atributo duplicada al procesar: Tabla: 'dbo_DimProduct', Columna: 'Color', Valor: 'Black'. El atributo es 'Color'.
III.- Tablas denormalizadascon dependencia funcional incorrecta
Solución.- Agregar otra columna para ColorTamaño
E l D t h– En el Datawarehouse
– En DSV
23
Ventas por países por períodos de tiempo
Valor añadido Danysoft
• Te ofrecemos la gama más completa de utilidades de terceros que complementan VSTS
• Te asesoramos en la adquisición, renovación y consolidación de licencias software.
• Editamos libros especialmente creados por y paradesarrolladores.
Utilidades Licencias Software Libros
• Formación a medida para equipos de desarrollo
• Consultorías para la puesta en marcha de tecnologías
• Presentaciones técnicas para ayudar a la toma de decisiones
Formación Consultoría
decisiones
Presentaciones
24
GraciasPara más información contacte con el 902 123146, o vía email con [email protected]
Ana María Bisbé York, Servicios [email protected] | www.danysoft.com