30
LBD LOCAL: Un Sistema para la Recuperación de Documentos con Referencias Geográficas Laboratorio de Bases de Laboratorio de Bases de Datos Datos Universidade da Coruña Universidade da Coruña A Coruña, España A Coruña, España Miguel R. Luaces, José R. Paramá, Oscar Pedreira, Diego Seco

LBD LOCAL: Un Sistema para la Recuperación de Documentos con Referencias Geográficas Laboratorio de Bases de Datos Universidade da Coruña A Coruña, España

Embed Size (px)

Citation preview

Page 1: LBD LOCAL: Un Sistema para la Recuperación de Documentos con Referencias Geográficas Laboratorio de Bases de Datos Universidade da Coruña A Coruña, España

LBD LOCAL: Un Sistema para la Recuperación de Documentos con

Referencias Geográficas

Laboratorio de Bases de DatosLaboratorio de Bases de DatosUniversidade da CoruñaUniversidade da Coruña

A Coruña, EspañaA Coruña, España

Miguel R. Luaces, José R. Paramá, Oscar Pedreira, Diego Seco

Page 2: LBD LOCAL: Un Sistema para la Recuperación de Documentos con Referencias Geográficas Laboratorio de Bases de Datos Universidade da Coruña A Coruña, España

5 de Marzo de 2008 II Jornadas de SIG Libre - Girona 2/30

Organización

Introducción

Motivación

Trabajo relacionado

Arquitectura

Estructura de indexación

Tipos de consultas soportadas

Demo

Conclusiones y futuros desarrollos

Page 3: LBD LOCAL: Un Sistema para la Recuperación de Documentos con Referencias Geográficas Laboratorio de Bases de Datos Universidade da Coruña A Coruña, España

5 de Marzo de 2008 II Jornadas de SIG Libre - Girona 3/30

Organización

Introducción

Motivación

Trabajo relacionado

Arquitectura

Estructura de indexación

Tipos de consultas soportadas

Demo

Conclusiones y futuros desarrollos

Page 4: LBD LOCAL: Un Sistema para la Recuperación de Documentos con Referencias Geográficas Laboratorio de Bases de Datos Universidade da Coruña A Coruña, España

5 de Marzo de 2008 II Jornadas de SIG Libre - Girona 4/30

Introducción Dos campos de investigación muy activos:

— Geographic Information Systems (GIS) EIEL (http://www.dicoruna.es/webeiel)

— Information Retrieval (IR) Biblioteca Virtual Galega (http://bvg.udc.es)

GIS IR GIRRecuperar documentos relevantes temática y geográficamente

respondiendo a consultas de la forma <tema, localización>

Page 5: LBD LOCAL: Un Sistema para la Recuperación de Documentos con Referencias Geográficas Laboratorio de Bases de Datos Universidade da Coruña A Coruña, España

5 de Marzo de 2008 II Jornadas de SIG Libre - Girona 5/30

Organización

Introducción

Motivación

Trabajo relacionado

Arquitectura

Estructura de indexación

Tipos de consultas soportadas

Demo

Conclusiones y futuros desarrollos

Page 6: LBD LOCAL: Un Sistema para la Recuperación de Documentos con Referencias Geográficas Laboratorio de Bases de Datos Universidade da Coruña A Coruña, España

5 de Marzo de 2008 II Jornadas de SIG Libre - Girona 6/30

Motivación Muchos documentos almacenados en bibliotecas

digitales y bases de datos documentales incluyen referencias geográficas— Prensa, Web, IDEs, …— “…las Jornadas de SIG Libre celebradas en Girona en

marzo de 2007...” Pocas estructuras de indexación y algoritmos de

recuperación explotan las referencias geográficas Las propuestas recientes no tienen en cuenta algunas

particularidades específicas del espacio geográfico— Naturaleza jerárquica del espacio geográfico— Relaciones topológicas entre los objetos

Page 7: LBD LOCAL: Un Sistema para la Recuperación de Documentos con Referencias Geográficas Laboratorio de Bases de Datos Universidade da Coruña A Coruña, España

5 de Marzo de 2008 II Jornadas de SIG Libre - Girona 7/30

Organización

Introducción

Motivación

Trabajo relacionado

Arquitectura

Estructura de indexación

Tipos de consultas soportadas

Demo

Conclusiones y futuros desarrollos

Page 8: LBD LOCAL: Un Sistema para la Recuperación de Documentos con Referencias Geográficas Laboratorio de Bases de Datos Universidade da Coruña A Coruña, España

5 de Marzo de 2008 II Jornadas de SIG Libre - Girona 8/30

Trabajo relacionado Indexación de texto: Índice Invertido

— Ignoran completamente las referencias geográficas Indexación espacial: R-Tree

— No tienen en cuenta la jerarquía del espacio Propuestas para combinarlos (proyecto SPIRIT):

— Text-First (primero filtrado textual y luego espacial)— Geo-First (primero filtrado espacial y luego textual)— No tienen en cuenta las relaciones entre los objetos geográficos

que están indexando Descripción del espacio geográfico: Ontología

— Empleadas en GIR para realizar query expansion, elaboración de rankings de relevancia y anotación de recursos web

— Ningún intento de combinarlas con otros tipos de índices para obtener una estructura híbrida

Page 9: LBD LOCAL: Un Sistema para la Recuperación de Documentos con Referencias Geográficas Laboratorio de Bases de Datos Universidade da Coruña A Coruña, España

5 de Marzo de 2008 II Jornadas de SIG Libre - Girona 9/30

Organización

Introducción

Motivación

Trabajo relacionado

Arquitectura

Estructura de indexación

Tipos de consultas soportadas

Demo

Conclusiones y futuros desarrollos

Page 10: LBD LOCAL: Un Sistema para la Recuperación de Documentos con Referencias Geográficas Laboratorio de Bases de Datos Universidade da Coruña A Coruña, España

5 de Marzo de 2008 II Jornadas de SIG Libre - Girona 10/30

Arquitectura

Page 11: LBD LOCAL: Un Sistema para la Recuperación de Documentos con Referencias Geográficas Laboratorio de Bases de Datos Universidade da Coruña A Coruña, España

5 de Marzo de 2008 II Jornadas de SIG Libre - Girona 11/30

Arquitectura Abstracción de documentos

— Documentos diferentes: Diferentes formatos de archivo (texto plano, XML, etc.) Diferentes esquemas de contenido

— Representación abstracta de esos documentos: Documento representado como agregado de Campos Idea similar en el motor de búsqueda textual Lucene Posibilidad de indexación espacial

Page 12: LBD LOCAL: Un Sistema para la Recuperación de Documentos con Referencias Geográficas Laboratorio de Bases de Datos Universidade da Coruña A Coruña, España

5 de Marzo de 2008 II Jornadas de SIG Libre - Girona 12/30

Arquitectura

Page 13: LBD LOCAL: Un Sistema para la Recuperación de Documentos con Referencias Geográficas Laboratorio de Bases de Datos Universidade da Coruña A Coruña, España

5 de Marzo de 2008 II Jornadas de SIG Libre - Girona 13/30

Arquitectura Construcción de la estructura de indexación

— Indexación textual Lucene

— Indexación espacial Obtención de posibles topónimos

Análisis Lingüístico: Named-Entity Recognition Geo-referenciación de esos topónimos

Servicio de Ontología del Espacio-Geográfico

Page 14: LBD LOCAL: Un Sistema para la Recuperación de Documentos con Referencias Geográficas Laboratorio de Bases de Datos Universidade da Coruña A Coruña, España

5 de Marzo de 2008 II Jornadas de SIG Libre - Girona 14/30

Arquitectura

Page 15: LBD LOCAL: Un Sistema para la Recuperación de Documentos con Referencias Geográficas Laboratorio de Bases de Datos Universidade da Coruña A Coruña, España

5 de Marzo de 2008 II Jornadas de SIG Libre - Girona 15/30

Organización

Introducción

Motivación

Trabajo relacionado

Arquitectura

Estructura de indexación

Tipos de consultas soportadas

Demo

Conclusiones y futuros desarrollos

Page 16: LBD LOCAL: Un Sistema para la Recuperación de Documentos con Referencias Geográficas Laboratorio de Bases de Datos Universidade da Coruña A Coruña, España

5 de Marzo de 2008 II Jornadas de SIG Libre - Girona 16/30

Estructura de indexación

ESPAÑA ...ALEMANIA

...MADRIDGALICIA

Índice Invertido Tabla Hash de Nombres de Lugar

… …

hotel 1,3,7,8,12,…

mar 3,5,6,9,10,…

… …

… …

España

Alemania

… …

DocIds 2,3,…

Page 17: LBD LOCAL: Un Sistema para la Recuperación de Documentos con Referencias Geográficas Laboratorio de Bases de Datos Universidade da Coruña A Coruña, España

5 de Marzo de 2008 II Jornadas de SIG Libre - Girona 17/30

Estructura de indexación Toma como base una ontología Árbol compuesto por nodos que representan topónimos

interconectados por medio de relaciones de contenido— Si la lista de nodos hijo es muy larga se emplea un R-Tree

Estructuras auxiliares:— Tabla hash de nombre de lugar a posición en el árbol— Índice Invertido tradicional

Ventajas:— Procesado eficiente tanto de consultas textuales como

espaciales— Soporte para consultas combinadas— Actualizaciones y optimizaciones independientes en cada índice

Inconvenientes:— Árbol posiblemente desbalanceado— Estructura estática

Page 18: LBD LOCAL: Un Sistema para la Recuperación de Documentos con Referencias Geográficas Laboratorio de Bases de Datos Universidade da Coruña A Coruña, España

5 de Marzo de 2008 II Jornadas de SIG Libre - Girona 18/30

Organización

Introducción

Motivación

Trabajo relacionado

Arquitectura

Estructura de indexación

Tipos de consultas soportadas

Demo

Conclusiones y futuros desarrollos

Page 19: LBD LOCAL: Un Sistema para la Recuperación de Documentos con Referencias Geográficas Laboratorio de Bases de Datos Universidade da Coruña A Coruña, España

5 de Marzo de 2008 II Jornadas de SIG Libre - Girona 19/30

Tipos de consultas soportadas Consultas puramente textuales

— “recuperar todos los documentos donde aparezcan las palabras hotel y mar”

— ¿Cómo las resolvemos? Índice textual

Consultas puramente espaciales— “recuperar todos los documentos que se refieran a la

siguiente área geográfica”— ¿Cómo las resolvemos?

Descenso en la estructura + refinado del resultado El mismo algoritmo empleado con índices espaciales

Page 20: LBD LOCAL: Un Sistema para la Recuperación de Documentos con Referencias Geográficas Laboratorio de Bases de Datos Universidade da Coruña A Coruña, España

5 de Marzo de 2008 II Jornadas de SIG Libre - Girona 20/30

Tipos de consultas soportadas Consultas textuales con nombres de lugar

— “recuperar todos los documentos con la palabra hotel referidos a España”

— ¿Cómo las resolvemos? Ejemplo

— Ahorro de tiempo evitando parte del recorrido en el árbol

Page 21: LBD LOCAL: Un Sistema para la Recuperación de Documentos con Referencias Geográficas Laboratorio de Bases de Datos Universidade da Coruña A Coruña, España

5 de Marzo de 2008 II Jornadas de SIG Libre - Girona 21/30

Tipos de consultas soportadas

… …

hotel 1,3,7,8,12,…

sea 3,5,6,9,10,…

… …

Inverted Index

EuropeAsia …

SpainGermany

MadridGalicia

Index Structure

… …

Spain

Germany

… …

Place Name Hash Table

Text Result

Spatial Result

Query Result

DocIds 2,3,…DocIds 5,7,…DocIds 12,14,…

… …

hotel 1,3,7,8,12,…

sea 3,5,6,9,10,…

… …

Text Result 1,3,7,8,12,…

Spatial Result 2,3,5,7,12,14,…

Query Result 3,7,12,…

Text Result 1,3,7,8,12,…

Spatial Result 2,3,5,7,12,14,…

Query Result

Text Result 1,3,7,8,12,…

Spatial Result 2,3,5,7,…

Query Result

Text Result 1,3,7,8,12,…

Spatial Result

Query Result

Text Result 1,3,7,8,12,…

Spatial Result 2,3,…

Query Result

… …

Spain

Germany

… …

Spain

Galicia Madrid

Text Result 1,3,7,8,12,…

Spatial Result 2,3,5,7,12,14,…

Query Result 3,7,12,…

Page 22: LBD LOCAL: Un Sistema para la Recuperación de Documentos con Referencias Geográficas Laboratorio de Bases de Datos Universidade da Coruña A Coruña, España

5 de Marzo de 2008 II Jornadas de SIG Libre - Girona 22/30

Tipos de consultas soportadas Consultas textuales sobre un área geográfica

— “recuperar todos los documentos con la palabra hotel que se refieren a la siguiente área geográfica”

— ¿Cómo las resolvemos? Ejemplo

Page 23: LBD LOCAL: Un Sistema para la Recuperación de Documentos con Referencias Geográficas Laboratorio de Bases de Datos Universidade da Coruña A Coruña, España

5 de Marzo de 2008 II Jornadas de SIG Libre - Girona 23/30

Tipos de consultas soportadas

… …

hotel 1,3,7,8,12,…

sea 3,5,6,9,10,…

… …

Inverted Index

EuropeAsia …

SpainPortugal

MadridGalicia

Index Structure

Text Result

Spatial Result

Query Result

… …

hotel 1,3,7,8,12,…

sea 3,5,6,9,10,…

… …

Text Result 1,3,7,8,12,…

Spatial Result

Query Result

Text Result 1,3,7,8,12,…

Spatial Result 12,14,…

Query Result

Query Window

Europe

Portugal Spain

Galicia

Coruña …Coruña

DocIds 12,14,…

Text Result 1,3,7,8,12,…

Spatial Result 12,14,…

Query Result 12,…

Text Result 1,3,7,8,12,…

Spatial Result 12,14,…

Query Result 12,…

Page 24: LBD LOCAL: Un Sistema para la Recuperación de Documentos con Referencias Geográficas Laboratorio de Bases de Datos Universidade da Coruña A Coruña, España

5 de Marzo de 2008 II Jornadas de SIG Libre - Girona 24/30

Tipos de consultas soportadas Otra ventaja: EXPANSIÓN DE CONSULTAS

— “recuperar todos los documentos referidos a España”— ¿Cómo las resolvemos?

El Servicio de Evaluación de Consultas descubrirá que España es una referencia geográfica

La Tabla Hash de Nombres de Lugar localizará rápidamente el nodo interno que representa a España

Todos los documentos asociados con ese nodo forman parte del resultado

Todos los documentos asociados con el subárbol forman parte del resultado

— El resultado contiene, además de aquellos documentos que incluyen el término España, todos los documentos que contienen el nombre de una división administrativa incluida en España

Page 25: LBD LOCAL: Un Sistema para la Recuperación de Documentos con Referencias Geográficas Laboratorio de Bases de Datos Universidade da Coruña A Coruña, España

5 de Marzo de 2008 II Jornadas de SIG Libre - Girona 25/30

Organización

Introducción

Motivación

Trabajo relacionado

Arquitectura

Estructura de indexación

Tipos de consultas soportadas

Demo

Conclusiones y futuros desarrollos

Page 26: LBD LOCAL: Un Sistema para la Recuperación de Documentos con Referencias Geográficas Laboratorio de Bases de Datos Universidade da Coruña A Coruña, España

Demo

5 de Marzo de 2008 II Jornadas de SIG Libre - Girona 26/30

Page 27: LBD LOCAL: Un Sistema para la Recuperación de Documentos con Referencias Geográficas Laboratorio de Bases de Datos Universidade da Coruña A Coruña, España

5 de Marzo de 2008 II Jornadas de SIG Libre - Girona 27/30

Organización

Introducción

Motivación

Trabajo relacionado

Arquitectura

Estructura de indexación

Tipos de consultas soportadas

Demo

Conclusiones y futuros desarrollos

Page 28: LBD LOCAL: Un Sistema para la Recuperación de Documentos con Referencias Geográficas Laboratorio de Bases de Datos Universidade da Coruña A Coruña, España

5 de Marzo de 2008 II Jornadas de SIG Libre - Girona 28/30

Conclusiones y futuros desarrollos Conclusiones:

— Arquitectura de sistema para recuperación de información geográfica

— Estructura de indexación formada por un índice textual, un índice espacial y una ontología

— Resolución de nuevos tipos de consultas

Page 29: LBD LOCAL: Un Sistema para la Recuperación de Documentos con Referencias Geográficas Laboratorio de Bases de Datos Universidade da Coruña A Coruña, España

Conclusiones y futuros desarrollos Trabajo futuro:

— OpenLayers + WMS

— Evaluación del prototipo

— Desambiguación de topónimos

— Implementación de algoritmos de ranking

— Inclusión de otros tipos de relaciones (ej. Adyacencia)

— Liberar el código

5 de Marzo de 2008 II Jornadas de SIG Libre - Girona 29/30

Page 30: LBD LOCAL: Un Sistema para la Recuperación de Documentos con Referencias Geográficas Laboratorio de Bases de Datos Universidade da Coruña A Coruña, España

GRACIAS POR SU ATENCIÓN