27
Departamento de Proceso Técnico Dirección de Biblioteca Digital y Sistemas de Información Ana Manchado Mangas – Jefe de Servicio de Proyectos Bibliográficos Ricardo Santos Muñoz – Jefe de Sección de Autoridades Datos enlazados en la Biblioteca Nacional de España.

Datos enlazados en la Biblioteca Nacional de España. Ana Manchado Mangas, Ricardo Santos Muñoz

Embed Size (px)

DESCRIPTION

Presentada en "Cita en la BNE. Datos enlazados en la Biblioteca Nacional de España", que tuvo lugar en diciembre de 2011 en la Biblioteca Nacional de España (BNE).

Citation preview

Page 1: Datos enlazados en la Biblioteca Nacional de España. Ana Manchado Mangas, Ricardo Santos Muñoz

Departamento de Proceso TécnicoDirección de Biblioteca Digital y Sistemas de

Información

Ana Manchado Mangas – Jefe de Servicio de Proyectos BibliográficosRicardo Santos Muñoz – Jefe de Sección de Autoridades

Datos enlazados en la Biblioteca Nacional de España.

Page 2: Datos enlazados en la Biblioteca Nacional de España. Ana Manchado Mangas, Ricardo Santos Muñoz

BIBLIOTECA NACIONAL DE ESPAÑA

Índice

Origen del proyecto

Fases de especificación y modelado

Fase de generación

Fase de publicación

Presente y futuro del proyecto: explotación

Page 3: Datos enlazados en la Biblioteca Nacional de España. Ana Manchado Mangas, Ricardo Santos Muñoz

BIBLIOTECA NACIONAL DE ESPAÑA

Origen del proyecto:Fichero de autoridades compartido

Proyecto de cooperación de la BNE y las Bibliotecas Nacionales y Regionales de las Comunidades Autónomas

Objetivo: Creación de un Sistema Nacional de Autoridades (Fichero de Autoridades compartido – “tipo VIAF”)

Principal dificultad: Multilingüismo en los nombres de persona y entidad.

Primeras aproximaciones:– Desarrollo dentro de nuestro SIGB– Desarrollo por parte de una empresa privada

Page 4: Datos enlazados en la Biblioteca Nacional de España. Ana Manchado Mangas, Ricardo Santos Muñoz

BIBLIOTECA NACIONAL DE ESPAÑA

Origen del proyecto:Proyecto de colaboración con la UPM

A partir de los contactos que la Biblioteca Nacional de España llevó a cabo con la Universidad Politécnica de Madrid en septiembre de 2010 para investigar la posibilidad de colaboración en este proyecto, se acordó un convenio marco y un convenio específico para la realización del proyecto: “Generación de datos enlazados a partir del catálogo bibliográfico y de autoridades”

Primeras acciones: conocimiento del dominio: estándares y modelos de datos. Selección de los datos, selección de los vocabularios

Page 5: Datos enlazados en la Biblioteca Nacional de España. Ana Manchado Mangas, Ricardo Santos Muñoz

BIBLIOTECA NACIONAL DE ESPAÑA

Fase de especificación:Identificar la fuente de datos: FASE 1

Seleccionamos un subconjunto de nuestros ficheros de autoridad ybibliográficos en formato MARC21

Partiendo de los registros de autoridad que empiezan por Cervantes Saavedra, Miguel de (1547-1616) (550 registros), navegamos a sus bibliográficos relacionados (unos 8.000 registros bibliográficos)

Para completar el conjunto y multiplicar las posibilidades, seleccionamos en nuestro catálogo las autoridades relacionadas con los bibliográficos anteriores

( unos 7.351 registros de autoridad en total)

Page 6: Datos enlazados en la Biblioteca Nacional de España. Ana Manchado Mangas, Ricardo Santos Muñoz

BIBLIOTECA NACIONAL DE ESPAÑA

Fase de especificación:Identificar la fuente de datos: FASE 2

La segunda fase consistirá en la transformación a RDF de todo el catálogo.

Hasta ahora se ha transformado todo el catálogo de autoridades y un subconjunto muy representativo del catálogo bibliográfico, formado por 2.400.000 registros bibliográficos de los formatos– Monografías modernas: 1.947.332– Monografías antiguas: 107.803– Música escrita: 162.519– Grabaciones sonoras: 172.484

Page 7: Datos enlazados en la Biblioteca Nacional de España. Ana Manchado Mangas, Ricardo Santos Muñoz

BIBLIOTECA NACIONAL DE ESPAÑA

Fase de modelado:Análisis y selección de las ontologías y vocabularios

Estudio de otras iniciativas y proyectos de Library Linked Data

Selección de FRBR, FRAD, FRSAD e ISBD » por tratarse de las ontologías proporcionadas por el

trabajo realizado en la IFLA» por ser más exhaustivas y más precisas» se encuentran inscritas en el Open Metadata Registry

Page 8: Datos enlazados en la Biblioteca Nacional de España. Ana Manchado Mangas, Ricardo Santos Muñoz

BIBLIOTECA NACIONAL DE ESPAÑA

Fase de modelado:Análisis y selección de las ontologías y vocabularios

Page 9: Datos enlazados en la Biblioteca Nacional de España. Ana Manchado Mangas, Ricardo Santos Muñoz

BIBLIOTECA NACIONAL DE ESPAÑA

Fase de generación:Características propias del proyecto BNE

Objetivo: migrar todo el catálogo:– Autoridades– Bibliográficos– Relaciones entre ellos

Modelo de datos: modelos de la familia FR.Vocabularios IFLA.

Page 10: Datos enlazados en la Biblioteca Nacional de España. Ana Manchado Mangas, Ricardo Santos Muñoz

BIBLIOTECA NACIONAL DE ESPAÑA

Fase de generación:FRBR como modelo de datos

FRBR es un modelo de referencia, un modelo abstracto y general, que conceptualiza el mundo bibliográfico.Como modelo de datos describe de un modo muy ordenado y coherente el universo bibliográfico, contenido en un catálogo bibliotecario.Describe un conjunto muy rico de relaciones entre las entidades.Permite la interoperabilidad con otros modelos similares de otros ámbitos.Ha sido asumido por otros modelos: RDA

Page 11: Datos enlazados en la Biblioteca Nacional de España. Ana Manchado Mangas, Ricardo Santos Muñoz

BIBLIOTECA NACIONAL DE ESPAÑA

Fase de generación:Vocabularios

Se han empleado vocabularios que se alinean con los estándares de IFLA. Están reconocidos como estándares válidos de la websemántica por la W3C.Estos vocabularios tienen su origen en los estándares oficiales (FRBR, FRAD, FRSAD e ISBD consolidada), y recogen las propiedades de las entidades descritas en la catalogación.Los vocabularios FRBR, FRAD recogen los atributos de Obra, Expresión, Persona, Entidad Corporativa. ( Registros de autoridad)El vocabulario ISBD recoge los atributos de manifestación. (Registro bibliográfico)

Page 12: Datos enlazados en la Biblioteca Nacional de España. Ana Manchado Mangas, Ricardo Santos Muñoz

BIBLIOTECA NACIONAL DE ESPAÑA

Page 13: Datos enlazados en la Biblioteca Nacional de España. Ana Manchado Mangas, Ricardo Santos Muñoz

BIBLIOTECA NACIONAL DE ESPAÑA

Page 14: Datos enlazados en la Biblioteca Nacional de España. Ana Manchado Mangas, Ricardo Santos Muñoz

BIBLIOTECA NACIONAL DE ESPAÑA

Fase de generación:Proceso de conversión

Se basa en el mapeo o correspondencia entre los registros base (MARC21) con las propiedades citadas. Consta de 3 fases:

– Identificación de las entidades: Persona, Entidad Corporativa, Obra y Expresión.

– Identificación de las relaciones entre entidades.– Anotación de las propiedades.

Page 15: Datos enlazados en la Biblioteca Nacional de España. Ana Manchado Mangas, Ricardo Santos Muñoz

BIBLIOTECA NACIONAL DE ESPAÑA

Fase de generación: proceso de conversión. Identificación de autoridades

Desde los registros de autoridad.

Dada una etiqueta de campos y una combinación de subcampos, se determina a qué entidad FRBR se relaciona:

100 $a $d Persona (FRBR Grupo 2)

110 $a $b –> Entidad corporativa (FRBR Grupo 2)

111 $a $n $d $c Entidad corporativa (FRBR Grupo 2)

130 $a Obra (FRBR Grupo 1)

100 $a $d $t Obra (FRBR Grupo 1)

100 $a $d $t $l Expresión (FRBR Grupo 1)

150 $a $z $v Thema (FRBR Grupo 3)

Cada registro bibliográfico Manifestación (FRBR Grupo 1)

Page 16: Datos enlazados en la Biblioteca Nacional de España. Ana Manchado Mangas, Ricardo Santos Muñoz

BIBLIOTECA NACIONAL DE ESPAÑA

Fase de generación: proceso de conversión. Identificación de entidades, modo de trabajo

Page 17: Datos enlazados en la Biblioteca Nacional de España. Ana Manchado Mangas, Ricardo Santos Muñoz

BIBLIOTECA NACIONAL DE ESPAÑA

Fase de generación: proceso de conversión. Identificación de relaciones

Entre los registros de autoridad

100 $a $t ($a es autor de $t)

Entre los registros de autoridad y los registros bibliográficos: a través de los puntos de acceso.

100 $a

240 $a $l

(El registro bibliográfico es una manifestación de la expresión 100 + 240)

Entre los registros bibliográficos.

Es la parte más compleja, que ha de tener en cuenta más factores.

Page 18: Datos enlazados en la Biblioteca Nacional de España. Ana Manchado Mangas, Ricardo Santos Muñoz

BIBLIOTECA NACIONAL DE ESPAÑA

Fase de generación: proceso de conversión. Anotación de las propiedades

Propiedades o atributos de cada una de las entidades. Ej.

Persona –>” tiene fechas”

Entidad corporativa “tiene lugar asociado”

Obra “tiene nombre”

Expresión “tiene lengua”

Manifestación “tiene lugar de publicación”

Las propiedades se han anotado desde subcampos.

• Registros de autoridad FRBR, FRAD, FRSAD

• Registros bibliográficos ISBD

Page 19: Datos enlazados en la Biblioteca Nacional de España. Ana Manchado Mangas, Ricardo Santos Muñoz

BIBLIOTECA NACIONAL DE ESPAÑA

Fase de generación: proceso de conversión. Anotación de las propiedades

Propiedades o atributos de cada una de las entidades. Ej.

Persona –>” tiene fechas” 100 $d

Entidad corporativa “tiene lugar asociado” 110 $c

Obra “tiene nombre” 130 $a; 100 $t

Expresión “tiene lengua” 100 $l

Manifestación “tiene lugar de publicación” 260 $a

Las propiedades se han anotado desde subcampos.

• Registros de autoridad FRBR, FRAD, FRSAD

• Registros bibliográficos ISBD

Page 20: Datos enlazados en la Biblioteca Nacional de España. Ana Manchado Mangas, Ricardo Santos Muñoz

BIBLIOTECA NACIONAL DE ESPAÑA

Fase de generación: proceso de conversión. Anotación de propiedades: modo de trabajo

Page 21: Datos enlazados en la Biblioteca Nacional de España. Ana Manchado Mangas, Ricardo Santos Muñoz

BIBLIOTECA NACIONAL DE ESPAÑA

Fase de generación: proceso de conversión. Problemas encontrados

Subcampos para los que no existe una propiedad específica.

– 670 $b, 100 $p

Subcampos para los que existe más de una propiedad posible.

– 245 $b

Propiedades que son difíciles de mapear

– “Es un resumen (obra) de (obra)”

– “Es una adaptación (obra) de (obra)”

Problemas con el modelo de datos.

– obra

Expresión

manifestación

Page 22: Datos enlazados en la Biblioteca Nacional de España. Ana Manchado Mangas, Ricardo Santos Muñoz

BIBLIOTECA NACIONAL DE ESPAÑA

Fase de generación: CONCLUSIONESImportancia de LD para las bibliotecas

Integración de nuestros datos con los de otras instituciones.Extensibilidad, mediante la agregación a nuestros datos de otros de diferente proveniencia.Recombinación de los datos. Plataforma para el multilingüismo.

Page 23: Datos enlazados en la Biblioteca Nacional de España. Ana Manchado Mangas, Ricardo Santos Muñoz

BIBLIOTECA NACIONAL DE ESPAÑA

Fase de generación: CONCLUSIONESDatos enlazados y datos de bibliotecas

Interoperabilidad, pero esta vez no solo entre bibliotecas.Reutilización, pero esta vez no solo entre bibliotecas Enlazado de datos relacionados, pero esta vez no sólo dentro de nuestro catálogo.Naturaleza autodescriptiva de los datos datos sobre datosRepresentar datos y conocimiento como un conjunto de cosas interrelacionadas.Todas las cosas tienen un identificador único

Page 24: Datos enlazados en la Biblioteca Nacional de España. Ana Manchado Mangas, Ricardo Santos Muñoz

BIBLIOTECA NACIONAL DE ESPAÑA

Fase de generación: CONCLUSIONESDatos enlazados y datos de bibliotecas

Nuestros datos son muy “semánticos”.Nuestros datos son bastante estructurados.Nuestros datos tienen “calidad”.Nuestros datos son “bastante” universales.Tenemos un modelo de datos.

Page 25: Datos enlazados en la Biblioteca Nacional de España. Ana Manchado Mangas, Ricardo Santos Muñoz

BIBLIOTECA NACIONAL DE ESPAÑA

Fase de publicación

Adquisición de un servidor para almacenar los datos del catálogo en RDF, de acuerdo con la configuración recomendada

Instalación del SPARQL endpoint en dicho servidor para realizar las consultas a los datos

Creación del dominio datos.bne.es

Creación de una página web o portal para diseminar y presentar los resultados. Ver http://datos.bne.es/

Page 26: Datos enlazados en la Biblioteca Nacional de España. Ana Manchado Mangas, Ricardo Santos Muñoz

BIBLIOTECA NACIONAL DE ESPAÑA

Presente y futuro del proyecto

Formación– Impartido el Curso de Linked Data, incluido en el Plan de Formación

de la BNE (21 a 25 de noviembre 2011), por personal del OEGEnlaces con otros dataset: VIAF, DNB, SUDOC, LIBRIS y DBPEDIATransformación a RDF de todo el catálogo – actualizacionesRegistro de datos.bne.es en el registro CKANInclusión de datos.bne.es en la nube de Linking Open DataFase de explotación: – Enlaces con otros conjuntos de datos.– Desarrollo de aplicaciones que combinen diversos conjuntos de datos

enlazados

Page 27: Datos enlazados en la Biblioteca Nacional de España. Ana Manchado Mangas, Ricardo Santos Muñoz

BIBLIOTECA NACIONAL DE ESPAÑA

Ana Manchado MangasDirección de Biblioteca Digital y Sistemas de Información

[email protected]

Ricardo Santos MuñozDepartamento de Proceso Técnico

[email protected]

Pº de Recoletos 20 -22 28071 Madrid

EspañaT +34 915 807 800

www.bne.es