Servicios de Calidad de Datos Empresariales con Data Quality Service "Denali"

Preview:

Citation preview

Servicios de Calidad de Datos Empresariales con Data Quality Services

"Denali"

José RedondoChapter Leader – SQL PASS Venezuelawww.sqlpass.org.veCorreo: redondoj@gmail.comTwitter: @redondoj

AGENDA

• Introducción• Características• Arquitectura• Instalación y Configuración• Base de conocimiento ‘Knowledge Base’• Proyecto de Calidad de Datos ‘Data Quality

Project’• Demos• Preguntas

INTRODUCCIÓN

• ¿Qué es Calidad de Datos?– El grado en que los datos de una entidad están aptos para usos

comerciales.– Se pueden definir, medir y administrar a través de varias

Dimensiones y Métricas.• Precisión• Consistencia• Integridad• Duplicados• Puntualidad

– Personas + Tecnología + Procesos.

• ¿Porqué es importante la Calidad de Datos?– Es el fundamento de todo negocio.– La deficiencia tiene un impacto negativo y significativo

en las iniciativas empresariales mas estratégicas del negocio.

– Mala información = (Tiempo extra * (Perdida de credibilidad + Insatisfacción de los clientes)) / Problemas de incumplimiento + Malos ingresos.

INTRODUCCIÓN

¿Problemas comunes de Calidad de Datos?Calidad de

Datos Problemática Ejemplo

Estandarización Son elementos de datos coherentemente definidos y entendidos?

Tipo Sexo: • M, F, I en un sistema.• 0, 1, 2 en otro sistema.

Formateo Qué normativa estándar llevan los siguientes datos?

Número de teléfono pueden aparecer como:• 02129999999• (212)-9999999• +58 212 9999999

Consistentes Los valores representan el mismo significado?

Los montos se presentan en Bolívares Fuertes así como en Euros o en Dólares?

Afinamiento Es necesario mostrar todos los datos? • 20% de los apellidos de los clientes están en blanco.• 50% de los códigos postales son 999999.

Exactitud Los datos se muestran con exactitud real o proviene de una fuente verificable?

Un proveedor esta en el sistema como “Activo” pero dejo de estar operativo desde hacen 6 años.

Validación Qué significan los valores que se encuentran dentro de rangos aceptables?

Los montos salariales deben rondar entre BsF. 26,000 a BsF. 35,000.

Unicidad Los datos son repetidos? Tanto Alba Rivero como Alma Rivero aparecen en el sistema. ¿Son la misma persona?

INTRODUCCIÓN

Requerimientos de una solución de Calidad de Datos.

Limpieza

Coincidencia

Perfilamiento

Monitoreo

LimpiezaModificar, eliminar y enriquecer los datos incorrectos o incompletos. Esto incluye la corrección, la estandarización y enriquecimiento de los datos.

CoincidenciaIdentificando, enlazando y combinando las entradas relacionadas dentro o a través de los conjuntos de datos..

MonitoreoSeguimiento y monitoreo del estados de las actividades de Calidad de Datos.

PerfilamientoAnálisis de la fuente de datos para dar una idea del estado de los datos y ayudar a identificar problemas de Calidad de Datos..

INTRODUCCIÓN

• ¿Qué es Data Quality Services “DQS”?– Es una solución enfocada:• Conocimiento.• Data Quality Knowledge Base - "DQKB“.

– Limpieza de datos.– Coincidentes.

– El concepto principal:• Rápido.• Fácil de implementar.• Fácil de usar.

INTRODUCCIÓN

• ¿Qué es Data Quality Knowledge Base “DQKB”?– Es el núcleo de DQS.– Almacena todos los conocimientos.

• Tipo específico de orígenes.• Fuentes de datos.

– Componentes:• Orígenes de datos.• Dominios de datos.

– Almacena:• Términos identificados.• Errores de ortografía.• Reglas de validación y de negocios.• Datos de referencia.

INTRODUCCIÓN

CARACTERÍSTICAS

• Gestión del conocimiento.• Proyectos.• Administración.

• Gestión del conocimiento.– Descubrir el conocimiento.– Administración de dominios.– Políticas de combinación.– Servicios de referencias.

CARACTERÍSTICAS

• Proyectos de calidad de datos.– Limpieza y depuración.– Coincidencias y deduplicación.– Perfiles y notificaciones.

CARACTERÍSTICAS

• Administración de la calidad de los datos.– Administración.– Seguridad.

CARACTERÍSTICAS

Hacer accesible datos de calidad para todos.– Mejorar la calidad de los datos con DQS.• Limpiar los datos y mantenerlos limpios.• Fomentar la confianza en los datos de la empresa.• Compartir la responsabilidad de la calidad de los

datos.– Eliminar las barreras para la calidad de los datos.• Diseñado para su facilidad de uso.• Capacitar a los usuarios de negocio.• Ver los resultados en minutos en lugar de meses.

CARACTERÍSTICAS

Procesos de DQS

Crea

ción

Use

Proyecto de Calidad de Datos

Administración del conocimiento

Coincidencia y

DeduplicaciónLim

pieza &

Estandariz

ación

Administrar

conocimiento

Descubrir / Explorar datos / Conectar

Datos empresariales

Datos de referencia

Servicio de la nube

Perfi

lam

ient

o

NotificacionesProgresosEstatus

Base de Conocimiento

CARACTERÍSTICAS

DQS se conforma por los siguientes componentes:– Servidor DQS.– Cliente DQS.

Servicios externos:– Servicios de la nube de DQS.– Servicios de terceros.

ARQUITECTURA

COMPONENTES

ARQUITECTURA

Servidor DQS

ARQUITECTURA

Coincidencias

Datos Referenciados

Servidor DQ

Almacén de Proyectos DQ Almacén Común de Conocimiento Almacén de Base de Conocimiento

Motor DQ

Proyectos Activos DQDominios de

Datos MSDominio de

Datos Locales

Base de Conocimiento

Publicada

Descubriendo el Conocimiento

Perfilamiento de Datos &

Exploración

Limpieza

API de Referencia de Datos (Browse, Get, Update…)

API de Servicios RD(Browse, Set, Validate…)

Cliente DQS

ARQUITECTURA

Cliente DQ

Interfaz gráfica DQS

ComponenteDQ SSIS

Descubriendo y Administrando el

Conocimiento

Proyecto DQ Interactivo

Exploración de Datos

Clientes futuros: MS Office Excel,

MS SharePoint, etc.

SERVICIOS EXTERNOS

ARQUITECTURA

Servicios de la nube de DQS

ARQUITECTURA

Almacén de Dominios de MS DQ

MS Windows Azure Marketplace DataMarket

Referencias de Datos Categorizados

Servicio de Referencias de Datos Categorizados

Servicios de terceros

ARQUITECTURA

3rd Party

Reference Data Services

Reference Data Sets

INSTALACIÓN Y CONFIGURACIÓN

• Prerrequisitos.• Instalación.• Tareas Post Instalación.

• Prerrequisitos– Servidor DQS.– Cliente DQS.– Componente DQS para SSIS.

INSTALACIÓN Y CONFIGURACIÓN

• Prerrequisitos

INSTALACIÓN Y CONFIGURACIÓN

• Instalación– .NET 4.0– IE 6.0 SP1 o superior.

INSTALACIÓN Y CONFIGURACIÓN

• Instalación

INSTALACIÓN Y CONFIGURACIÓN

• Instalación

INSTALACIÓN Y CONFIGURACIÓN

• Instalación

INSTALACIÓN Y CONFIGURACIÓN

• Tareas Post Instalación– Habilitar el rol de usuario DQS.– Habilitar permisos en la base de datos

Origen / Destino.– Habilitar el protocolo TCP-IP para acceso

remoto.

INSTALACIÓN Y CONFIGURACIÓN

• Habilitar el rol de usuario DQS.

INSTALACIÓN Y CONFIGURACIÓN

• Habilitar el rol de usuario DQS.

INSTALACIÓN Y CONFIGURACIÓN

• Habilitar permisos en la base de datos Origen / Destino.

INSTALACIÓN Y CONFIGURACIÓN

• Habilitar permisos en la base de datos Origen / Destino.

INSTALACIÓN Y CONFIGURACIÓN

• Habilitar el protocolo TCP-IP para acceso remoto.

INSTALACIÓN Y CONFIGURACIÓN

INSTALACIÓN Y CONFIGURACIÓN

INSTALACIÓN Y CONFIGURACIÓN

INSTALACIÓN Y CONFIGURACIÓN

BASE DE CONOCIMIENTO

Representación de Dominios de

los tipos de datos

Valores

Reglas &

Relaciones

Datos de Referencias

de 3ras partes

Base de Conocimiento

Composición de Dominios

Políticas de Coincidencias

Dominios

PROYECTO DE CALIDAD DE DATOS

• Limpieza de datos.• Componente SSIS.• Coincidencia de datos.

DEMO

RESUMEN

• Enfocado a la referencialidad de los datos basados en la nube.

• Creado por usuarios de conocimiento.

• Integración con SSIS

Basado en el Conocimiento

Abierto & Extensible

Facil de usar

• Enfocado a la productividad y experiencia del usuario.

• Diseñado para usuarios empresariales.

• Externo a un criterio de conocimiento.

• Base de Conocimiento enriquecida.

• Continua mejoras y adquisición de conocimiento.

• Una vez creada, se incrementa su uso.

PREGUNTASY

RESPUESTAS

Recursos para Profesionales IT

http://microsoft.com/technet

SQL PASS Global

http://www.sqlpass.org

Recursos para Desarrolladores

SQL PASS Latam

http://www.sqlpass-latam.org

SQL PASS Venezuela

http://www.sqlpass.org.ve

http://microsoft.com/msdn

MUCHAS GRACIASJosé Redondohttp://redondoj.wordpress.com/redondoj@gmail.comTwitter: @redondoj

Recommended