View
11
Download
0
Category
Preview:
Citation preview
Completeness of Information Sources
María José Álvarez
Flavia Serra
Agenda
Introducción Modelo de información Unión de resultados Definición de los factores de calidad, Cobertura
y Densidad Definición de la dimensión de calidad
Completitud Conclusiones Puntos fuertes y débiles
Introducción
Se describe un framework para medir la calidad de la información proporcionada por una fuente de datos o por un conjunto de fuentes de datos.
Considera los valores de los factores de calidad cobertura y densidad.
Introducción
Funciones de combinación– Estiman el valor de la calidad de la información
cuando los datos de diferentes fuentes son integrados.
Completitud– Se combinan los valores de los factores cobertura
y densidad
Modelo de información
Esquema– Consiste en un identificador (ID) y la unión de
todos los atributos que proveen las fuentes
IDs consistentes– Cada objeto tiene un único identificador que esta
asociado a las fuentes
Modelo de información
Superposición– Disjunción
Las fuentes no proveen IDs comunes.
– Contención Los IDs de una fuente son un subconjunto de los IDs de
otra fuente. Aunque los objetos sean los mismos, los atributos
podrían diferir.
– Independencia Cuando no se sabe si existe contención o disjunción, se
asume que existe independencia.
Ejemplo
Se presenta un meta servicio de información de stock (MSIS)
Es un sistema que provee información de cotización de acciones
A diferencia de un sistema de información de stock (SIS) común, un MSIS combina información de varios sistemas
El MSIS envía una solicitud a un conjunto de SISs para luego unir los resultados y presentarlos al usuario
Ejemplo
Se consideran los siguientes SIS:
Ejemplo
Consulta para IBM en un típico SIS
ID
Nombre de la compañía
Provisto por todos los SIS
Proveen información adicional y estadísticaNo están disponibles en los 7 SIS
Unión de resultados
Un sistema de información distribuye una consulta de usuario a múltiples fuentes.
Cuando recibe los resultados individuales, los mismos deben unirse en una respuesta común para el usuario.
Unión de resultados
Unión de resultados de múltiples fuentes contiene objetos donde:– Algunos atributos no son provistos – Algunos atributos son provistos por una fuente– Algunos atributos son provistos por más de fuente
Función de resolución
Unión de resultados
Para presentar la unión de los resultados como una respuesta completa a una consulta y no como simples atributos se definen operadores relacionales.
join-merge union-merge
Porción del mundo real que es cubierto por la fuente para un dominio determinado.
Cobertura de una fuente:
Cobertura
cantidad de objetos de la fuente
cantidad de objetos del mundo real
Cobertura de un conjunto de fuentes
Fuente disjuntas
Fuentes contenidas
Fuentes independientes
Porción de valores no nulos que contiene la fuente.
Densidad de un atributo
Densidad de una fuente
Densidad
Densidad
Densidad de una fuente
– Vector de densidad
Densidad de un conjunto de fuentes– Considera la cobertura para cada fuente
Completitud de una fuente de información es la relación de su información y la cantidad total de información del mundo real.
Completitud de una fuente
Completitud de una fuente utilizando cobertura y densidad
Completitud
Completitud
Cantidad de atributos no nulos =12
|W| = 40000, |A| = 9
|W||A|=40000*9 = 360000 y 12/360000 = 1/30000
c(yahoo) = 2/4000 = 1/2000
D(yahoo) = (1,0,1,1,1,1,1,0,0)
C(yahoo) = c(yahoo).d(yahoo) = 1/2000*2/3 = 1/30000
Conclusiones
Cuando se intenta decidir que fuentes o conjuntos de fuentes consultar este modelo ofrece una buena guía de selección del mejor conjunto de fuentes basándose en la calidad de la información esperada.
La medida de la completitud es útil para seleccionar el mejor plan de ejecución de la consulta sobre varias fuentes.
Conclusiones
Valores de cobertura y densidad altos parecen ser buenos, pero muchas veces aparece el problema de information overflow causado por el enorme tamaño de la Web.
Se busca reducir las respuestas a las consultas a un número razonable de objetos, devolviéndole al usuario los objetos más útiles y relevantes.
Cumple objetivos planteados Autocontenido Fácil de comprender y tiene ejemplos claros Plantea una solución aplicable Las definiciones y conceptos son reiterados
a lo largo del documento, lo que permite finalizar la lectura con una buena asimilación de los mismos.
Puntos fuertes
Puntos débiles
Referencia una cantidad de lemas, corolarios y teoremas que lo hacen engorroso
En algunos casos los ejemplos consideran valores que son traídos de otras secciones sin indicar las secciones de referencia.
¿Preguntas?
Muchas gracias!
Recommended