32
Taller sobre calidad en bases de datos sobre biodiversidad Aula de informática del Real Jardín Botánico (CSIC) Madrid, 13-14 septiembre 2007 Uso de tesauros y otros vocabularios controlados Alberto González Talaván Unidad de Coordinación de GBIF España

Taller sobre calidad en bases de datos sobre biodiversidad Aula de informática del Real Jardín Botánico (CSIC) Madrid, 13-14 septiembre 2007 Uso de tesauros

Embed Size (px)

Citation preview

Page 1: Taller sobre calidad en bases de datos sobre biodiversidad Aula de informática del Real Jardín Botánico (CSIC) Madrid, 13-14 septiembre 2007 Uso de tesauros

Taller sobre calidad en bases de datos sobre biodiversidadAula de informática del Real Jardín Botánico (CSIC)

Madrid, 13-14 septiembre 2007

Uso de tesauros

y otros vocabularios controlados

Alberto González TalavánUnidad de Coordinación de GBIF España

Page 2: Taller sobre calidad en bases de datos sobre biodiversidad Aula de informática del Real Jardín Botánico (CSIC) Madrid, 13-14 septiembre 2007 Uso de tesauros

Tesauros y vocabularios controlados (1/22)

Esquema

1. Definiciones

2. Beneficios del uso de tesauros

3. Fases del proceso de captura de información afectadas

4. Ámbitos afectados

a) Taxonómico (¿Qué?)

b) Geográfico (¿Dónde?)

c) Autoría y tiempo (¿Quién?, ¿Cuándo?)

d) Metodología y metadatos (¿Cómo?)

Uso de tesauros y otros vocabularios controlados

Page 3: Taller sobre calidad en bases de datos sobre biodiversidad Aula de informática del Real Jardín Botánico (CSIC) Madrid, 13-14 septiembre 2007 Uso de tesauros

Tesauros y vocabularios controlados (1/22)

Esquema

1. Definiciones

2. Beneficios del uso de tesauros

3. Fases del proceso de captura de información afectadas

4. Ámbitos afectados

a) Taxonómico (¿Qué?)

b) Geográfico (¿Dónde?)

c) Autoría y tiempo (¿Quién?, ¿Cuándo?)

d) Metodología y metadatos (¿Cómo?)

Uso de tesauros y otros vocabularios controlados

Page 4: Taller sobre calidad en bases de datos sobre biodiversidad Aula de informática del Real Jardín Botánico (CSIC) Madrid, 13-14 septiembre 2007 Uso de tesauros

Tesauros y vocabularios controlados (2/22)

Definiciones

Véase: http://es.wikipedia.org/wiki/Tesauro

Un tesauro se podría definir (de manera algo informal como):

“Un listado de términos o temas (que pueden estar constituidos por más de una palabra), relacionados entre sí jerárquicamente, que en ciencias de la información se utilizan con fines de archivo y recuperación de documentos”

De manera general, debería incluir lo siguiente:

1. Un listado de términos preferidos2. Un listado de sinónimos de esos términos (descriptores)3. Una jerarquía o descripción de las relaciones entre los términos.4. Una definición para los términos, de modo que se facilite su uso.5. Un conjunto de reglas de utilización del tesauro.

Como vocabularios controlados se entienden al conjunto de términos característicos de un determinado campo del saber, utilizados por los especialistas en esa área.

Page 5: Taller sobre calidad en bases de datos sobre biodiversidad Aula de informática del Real Jardín Botánico (CSIC) Madrid, 13-14 septiembre 2007 Uso de tesauros

Tesauros y vocabularios controlados (3/22)

Esquema

1. Definiciones

2. Beneficios del uso de tesauros

3. Fases del proceso de captura de información afectadas

4. Ámbitos afectados

a) Taxonómico (¿Qué?)

b) Geográfico (¿Dónde?)

c) Autoría y tiempo (¿Quién?, ¿Cuándo?)

d) Metodología y metadatos (¿Cómo?)

Uso de tesauros y otros vocabularios controlados

Page 6: Taller sobre calidad en bases de datos sobre biodiversidad Aula de informática del Real Jardín Botánico (CSIC) Madrid, 13-14 septiembre 2007 Uso de tesauros

Tesauros y vocabularios controlados (3/22)

Esquema

1. Definiciones

2. Beneficios del uso de tesauros

3. Fases del proceso de captura de información afectadas

4. Ámbitos afectados

a) Taxonómico (¿Qué?)

b) Geográfico (¿Dónde?)

c) Autoría y tiempo (¿Quién?, ¿Cuándo?)

d) Metodología y metadatos (¿Cómo?)

Uso de tesauros y otros vocabularios controlados

Page 7: Taller sobre calidad en bases de datos sobre biodiversidad Aula de informática del Real Jardín Botánico (CSIC) Madrid, 13-14 septiembre 2007 Uso de tesauros

Tesauros y vocabularios controlados (4/22)

Beneficios del uso de tesauros

Entre los BENEFICIOS directos que pueden obtenerse del uso de los tesauros se pueden destacar:

1. Aumento de la calidad de los datos almacenados, pues aumentan los usos potenciales que se pueden dar a la información.

2. Aumento en la interoperabilidad de las bases de datos. Al cotejarse distintos grupos de datos de la misma naturaleza con los mismos parámetros las posibilidades de realizar análisis conjuntos de los datos aumenta.

3. Se crean bases de datos de conocimiento que pueden reutilizarse en otras disciplinas (ej: localidades históricas)

4. Facilitan la consulta y uso sistemático de datos, si se integran en los sistemas de explotación y consulta.

Page 8: Taller sobre calidad en bases de datos sobre biodiversidad Aula de informática del Real Jardín Botánico (CSIC) Madrid, 13-14 septiembre 2007 Uso de tesauros

Tesauros y vocabularios controlados (5/22)

Esquema

1. Definiciones

2. Beneficios del uso de tesauros

3. Fases del proceso de captura de información afectadas

4. Ámbitos afectados

a) Taxonómico (¿Qué?)

b) Geográfico (¿Dónde?)

c) Autoría y tiempo (¿Quién?, ¿Cuándo?)

d) Metodología y metadatos (¿Cómo?)

Uso de tesauros y otros vocabularios controlados

Page 9: Taller sobre calidad en bases de datos sobre biodiversidad Aula de informática del Real Jardín Botánico (CSIC) Madrid, 13-14 septiembre 2007 Uso de tesauros

Tesauros y vocabularios controlados (5/22)

Esquema

1. Definiciones

2. Beneficios del uso de tesauros

3. Fases del proceso de captura de información afectadas

4. Ámbitos afectados

a) Taxonómico (¿Qué?)

b) Geográfico (¿Dónde?)

c) Autoría y tiempo (¿Quién?, ¿Cuándo?)

d) Metodología y metadatos (¿Cómo?)

Uso de tesauros y otros vocabularios controlados

Page 10: Taller sobre calidad en bases de datos sobre biodiversidad Aula de informática del Real Jardín Botánico (CSIC) Madrid, 13-14 septiembre 2007 Uso de tesauros

Tesauros y vocabularios controlados (6/22)

Fases del proceso de captura de datos afectadas

Captura y registro de los datos en el momento de la recogida/avistamiento

Manipulación de los datos previa a la digitalización

Identificación de la muestra y de su registro

Digitalización de los datos

Documentación de los datos (metadatos)

Almacenamiento y archivo de los datos

Presentación de los datos y publicación

Analisis y manipulación de los datos (uso)

Origen: A. Chapman, 2005

Identificación de la muestra y de su registro

Digitalización de los datos

Documentación de los datos (metadatos)

Almacenamiento y archivo de los datos

Page 11: Taller sobre calidad en bases de datos sobre biodiversidad Aula de informática del Real Jardín Botánico (CSIC) Madrid, 13-14 septiembre 2007 Uso de tesauros

Tesauros y vocabularios controlados (7/22)

Esquema

1. Definiciones

2. Beneficios del uso de tesauros

3. Fases del proceso de captura de información afectadas

4. Ámbitos afectados

a) Taxonómico (¿Qué?)

b) Geográfico (¿Dónde?)

c) Autoría y tiempo (¿Quién?, ¿Cuándo?)

d) Metodología y metadatos (¿Cómo?)

Uso de tesauros y otros vocabularios controlados

Page 12: Taller sobre calidad en bases de datos sobre biodiversidad Aula de informática del Real Jardín Botánico (CSIC) Madrid, 13-14 septiembre 2007 Uso de tesauros

Tesauros y vocabularios controlados (7/22)

Esquema

1. Definiciones

2. Beneficios del uso de tesauros

3. Fases del proceso de captura de información afectadas

4. Ámbitos afectados

a) Taxonómico (¿Qué?)

b) Geográfico (¿Dónde?)

c) Autoría y tiempo (¿Quién?, ¿Cuándo?)

d) Metodología y metadatos (¿Cómo?)

Uso de tesauros y otros vocabularios controlados

Page 13: Taller sobre calidad en bases de datos sobre biodiversidad Aula de informática del Real Jardín Botánico (CSIC) Madrid, 13-14 septiembre 2007 Uso de tesauros

Tesauros y vocabularios controlados (8/22)

Ámbitos

¿Qué?

¿Dónde?¿Cuándo?

¿Quién? ¿Cómo?

Listados taxonómicos

Nomenclator, gazeteers

Protocolos de recogida y tratamiento de datos

Directorios de investigadores/colectores

Referencias temporales

RegistroBiológico

Page 14: Taller sobre calidad en bases de datos sobre biodiversidad Aula de informática del Real Jardín Botánico (CSIC) Madrid, 13-14 septiembre 2007 Uso de tesauros

Tesauros y vocabularios controlados (9/22)

Esquema

1. Definiciones

2. Beneficios del uso de tesauros

3. Fases del proceso de captura de información afectadas

4. Ámbitos afectados

a) Taxonómico (¿Qué?)

b) Geográfico (¿Dónde?)

c) Autoría y tiempo (¿Quién?, ¿Cuándo?)

d) Metodología y metadatos (¿Cómo?)

Uso de tesauros y otros vocabularios controlados

Page 15: Taller sobre calidad en bases de datos sobre biodiversidad Aula de informática del Real Jardín Botánico (CSIC) Madrid, 13-14 septiembre 2007 Uso de tesauros

Tesauros y vocabularios controlados (9/22)

Esquema

1. Definiciones

2. Beneficios del uso de tesauros

3. Fases del proceso de captura de información afectadas

4. Ámbitos afectados

a) Taxonómico (¿Qué?)

b) Geográfico (¿Dónde?)

c) Autoría y tiempo (¿Quién?, ¿Cuándo?)

d) Metodología y metadatos (¿Cómo?)

Uso de tesauros y otros vocabularios controlados

Page 16: Taller sobre calidad en bases de datos sobre biodiversidad Aula de informática del Real Jardín Botánico (CSIC) Madrid, 13-14 septiembre 2007 Uso de tesauros

Tesauros y vocabularios controlados (10/22)

Taxonomía: ¿Qué?

La nomenclatura y la taxonomía son ámbitos en los que la utilización de tesauros o listas de referencia mejor demuestra su valor.

Muchas iniciativas tienen como objetivo la realización de listados taxonómicos, de los que nos podemos beneficiar a la hora de determinar y aumentar la calidad de nuestros datos:

http://www.sp2000.org/

RECURSOS GLOBALES

• Species 2000: Acceso a través de internet o en CD

• ITIS: Integrated Taxonomic Information System

http://www.itis.gov/

• uBio: Universal Biological Indexer and Organizer

http://www.ubio.org/

Page 17: Taller sobre calidad en bases de datos sobre biodiversidad Aula de informática del Real Jardín Botánico (CSIC) Madrid, 13-14 septiembre 2007 Uso de tesauros

Tesauros y vocabularios controlados (11/22)

Taxonomía: ¿Qué?

http://www.emplantbase.org/

RECURSOS restringidos por ÁREA GEOGRÁFICA y/o GRUPO TAXONÓMICO

• Euro+MED Plant Base

• FAUNA EUROPAEA: acceso a través de internethttp://www.faunaeur.org/

• FLORA EUROPAEA

http://rbg-web2.rbge.org.uk/FE/fe.html

http://www.marbef.org/• MarBef

Page 18: Taller sobre calidad en bases de datos sobre biodiversidad Aula de informática del Real Jardín Botánico (CSIC) Madrid, 13-14 septiembre 2007 Uso de tesauros

Tesauros y vocabularios controlados (12/22)

Taxonomía: ¿Qué?

RECURSOS restringidos por ÁREA GEOGRÁFICA y/o GRUPO TAXONÓMICO (cont.)

• FAUNA IBÉRICA: base de datos IBERFAUNAhttp://www.fauna-iberica.mncn.csic.es/

• FLORA IBERICA

http://www.rjb.csic.es/floraiberica/

• Vean también

1. http://www.gbif.es/ProyBioEsp.php

2. http://www.gbif.es/Recursos.php#migracion

Page 19: Taller sobre calidad en bases de datos sobre biodiversidad Aula de informática del Real Jardín Botánico (CSIC) Madrid, 13-14 septiembre 2007 Uso de tesauros

Tesauros y vocabularios controlados (13/22)

Esquema

1. Definiciones

2. Beneficios del uso de tesauros

3. Fases del proceso de captura de información afectadas

4. Ámbitos afectados

a) Taxonómico (¿Qué?)

b) Geográfico (¿Dónde?)

c) Autoría y tiempo (¿Quién?, ¿Cuándo?)

d) Metodología y metadatos (¿Cómo?)

Uso de tesauros y otros vocabularios controlados

Page 20: Taller sobre calidad en bases de datos sobre biodiversidad Aula de informática del Real Jardín Botánico (CSIC) Madrid, 13-14 septiembre 2007 Uso de tesauros

Tesauros y vocabularios controlados (13/22)

Esquema

1. Definiciones

2. Beneficios del uso de tesauros

3. Fases del proceso de captura de información afectadas

4. Ámbitos afectados

a) Taxonómico (¿Qué?)

b) Geográfico (¿Dónde?)

c) Autoría y tiempo (¿Quién?, ¿Cuándo?)

d) Metodología y metadatos (¿Cómo?)

Uso de tesauros y otros vocabularios controlados

Page 21: Taller sobre calidad en bases de datos sobre biodiversidad Aula de informática del Real Jardín Botánico (CSIC) Madrid, 13-14 septiembre 2007 Uso de tesauros

Tesauros y vocabularios controlados (14/22)

Geografía: ¿Dónde?

La multitud de ámbitos en los que se utiliza la INFORMACIÓN GEOGRÁFICA hace que los recursos donde se puede consultar esta información sean muy variados.

Respecto a la información geográfica, los procesos más habituales a realizar son:

• Comprobación de las localidades registradas (ortografía, etc.)

• Asignación de datos geográficos precisos (coordenadas) a registros que carecen de esta información, lo que se denomina georreferenciación retrospectiva.

RECURSOS GLOBALES

http://www.biogeomancer.org/

http://www.museum.tulane.edu/geolocate/

Page 22: Taller sobre calidad en bases de datos sobre biodiversidad Aula de informática del Real Jardín Botánico (CSIC) Madrid, 13-14 septiembre 2007 Uso de tesauros

Tesauros y vocabularios controlados (15/22)

Geografía: ¿Dónde?

Infraestructuras de Datos Espaciales

http://www.idee.es/

Comprende los portales web, los servicios, los datos y metadatos y otro tipo de información geográfica que se ofrecen de manera integrada, en general asociada a un determinada área geográfica

Infraestructura de Datos Espaciales de España – IDEE:Incluye un servicio de nomenclátor, además de servidores de mapas y otros recursos geográficos.

Otras infraestructuras de datos espaciales regionales:

http://www.gbif.es/RecursosMisc.php

• Andalucía: http://www.andaluciajunta.es/IDEAndalucia/IDEA.shtml • Asturias: http://gis.princast.es/sitpacarto/ • Cataluña: http://www.geoportal-idec.net/geoportal/IDECServlet?idioma=cas • Castilla y León: http://www.sitcyl.jcyl.es/ • Galicia: http://sitga.xunta.es/ • Islas Canarias: http://pre.sitcan.com/Visor/ • Murcia: http://www.sitmurcia.com/ • Navarra: http://idena.navarra.es/, http://sitna.tracasa.es/ • La Rioja: http://www.iderioja.org/

Page 23: Taller sobre calidad en bases de datos sobre biodiversidad Aula de informática del Real Jardín Botánico (CSIC) Madrid, 13-14 septiembre 2007 Uso de tesauros

Tesauros y vocabularios controlados (16/22)

Esquema

1. Definiciones

2. Beneficios del uso de tesauros

3. Fases del proceso de captura de información afectadas

4. Ámbitos afectados

a) Taxonómico (¿Qué?)

b) Geográfico (¿Dónde?)

c) Autoría y tiempo (¿Quién?, ¿Cuándo?)

d) Metodología y metadatos (¿Cómo?)

Uso de tesauros y otros vocabularios controlados

Page 24: Taller sobre calidad en bases de datos sobre biodiversidad Aula de informática del Real Jardín Botánico (CSIC) Madrid, 13-14 septiembre 2007 Uso de tesauros

Tesauros y vocabularios controlados (16/22)

Esquema

1. Definiciones

2. Beneficios del uso de tesauros

3. Fases del proceso de captura de información afectadas

4. Ámbitos afectados

a) Taxonómico (¿Qué?)

b) Geográfico (¿Dónde?)

c) Autoría y tiempo (¿Quién?, ¿Cuándo?)

d) Metodología y metadatos (¿Cómo?)

Uso de tesauros y otros vocabularios controlados

Page 25: Taller sobre calidad en bases de datos sobre biodiversidad Aula de informática del Real Jardín Botánico (CSIC) Madrid, 13-14 septiembre 2007 Uso de tesauros

Tesauros y vocabularios controlados (17/22)

Autoría y Tiempo: ¿Quién? ¿Cuándo?

Es sin duda un campo mucho más restringido, y donde es más difícil encontrar listados de referencia. Sin embarso, es relativamente sencillo elaborar un listado restringido de las distintas personas que han contribuido en una determinada colección de historia natural, o proyecto de investigación: colectores, determinadores, etc.

Es en trabajos sobre la historia de la biología o donde se analizan determinadas expediciones históricas o la biografía de un determinado investigador es donde esta información puede adquirir gran relevancia: cotejar los rangos temporales con la distribución geográfica de las muestras puede ayudarnos a localizar lagunas e inconsistencias.

Page 26: Taller sobre calidad en bases de datos sobre biodiversidad Aula de informática del Real Jardín Botánico (CSIC) Madrid, 13-14 septiembre 2007 Uso de tesauros

Tesauros y vocabularios controlados (18/22)

Autoría y Tiempo: ¿Quién? ¿Cuándo?

Algunas referencias genéricas:

• García-Valdecasas, A., Bello, E. & Becerra, J M., 1994. Directorio de Taxónomos (DIRTAX). Graellsia. Monografía nº 1: 1-233.

• Informe de colecciones de historia natural en España (BioCASE – GBIF España)

http://www.gbif.es/ic_BusquedaPersonas.php

• Base de datos mundial de taxónomos

http://www.eti.uva.nl/tools/wtd.php

¿http://albia.museo.csic.es/dirtaxhoja.html?

• Index herbariorum: a guide to the location and contents of the world's public herbaria, Part 2: Collectors. 7 volúmenes. 

http://sciweb.nybg.org/science2/IndexHerbariorum.asp

Page 27: Taller sobre calidad en bases de datos sobre biodiversidad Aula de informática del Real Jardín Botánico (CSIC) Madrid, 13-14 septiembre 2007 Uso de tesauros

Tesauros y vocabularios controlados (19/22)

Esquema

1. Definiciones

2. Beneficios del uso de tesauros

3. Fases del proceso de captura de información afectadas

4. Ámbitos afectados

a) Taxonómico (¿Qué?)

b) Geográfico (¿Dónde?)

c) Autoría y tiempo (¿Quién?, ¿Cuándo?)

d) Metodología y metadatos (¿Cómo?)

Uso de tesauros y otros vocabularios controlados

Page 28: Taller sobre calidad en bases de datos sobre biodiversidad Aula de informática del Real Jardín Botánico (CSIC) Madrid, 13-14 septiembre 2007 Uso de tesauros

Tesauros y vocabularios controlados (19/22)

Esquema

1. Definiciones

2. Beneficios del uso de tesauros

3. Fases del proceso de captura de información afectadas

4. Ámbitos afectados

a) Taxonómico (¿Qué?)

b) Geográfico (¿Dónde?)

c) Autoría y tiempo (¿Quién?, ¿Cuándo?)

d) Metodología y metadatos (¿Cómo?)

Uso de tesauros y otros vocabularios controlados

Page 29: Taller sobre calidad en bases de datos sobre biodiversidad Aula de informática del Real Jardín Botánico (CSIC) Madrid, 13-14 septiembre 2007 Uso de tesauros

Tesauros y vocabularios controlados (20/22)

Metodología y metadatos: ¿Cómo?

A nivel de METODOLOGÍA podemos registrar información a distintos niveles del proceso de tratamiento de los datos, si disponemos de la misma:

1. Los métodos utilizados para construir cada juego de datos del sistema.

2. Los atributos registrados en cada juego de datos o para cada unidad biológica.

3. Los métodos que se han utilizado para obtener el valor de cada atributo.

4. Las personas responsables del desarrollo y/o ejecución de estos métodos.

Page 30: Taller sobre calidad en bases de datos sobre biodiversidad Aula de informática del Real Jardín Botánico (CSIC) Madrid, 13-14 septiembre 2007 Uso de tesauros

Tesauros y vocabularios controlados (21/22)

Metodología y metadatos: ¿Cómo?

http://www.siac.net.co/

La página web del Sistema de Información sobre Biodiversidad de Colombia ofrece gran cantidad de información sobre métodología, pero también sobre los otros temas tratados en esta presentación:

• Permite una realizar una evaluación de la precisión del juego de datos, dependiendo de la descripción de sus métodos y atributos.

• Permite repetir una determinada metodología, y aceptar/rechazar los datos obtenidos con anterioridad.

• Puede convertirse en una referencia para otros estudios similares.

• Permite contactar con quien realiza este tipo de labores para obtener más información

Esta información nos abre muchas posibilidades:

Page 31: Taller sobre calidad en bases de datos sobre biodiversidad Aula de informática del Real Jardín Botánico (CSIC) Madrid, 13-14 septiembre 2007 Uso de tesauros

Tesauros y vocabularios controlados (22/22)

Dos apuntes finales

http://www.gbif.es/software.php

Los recursos utilizados a la hora de cotejar, corregir, ampliar… nuestros datos, merecen el debido reconocimiento y el respeto a sus derechos de propiedad intelectual.

Las aplicaciones de software que se desarrollan en la Unidad de Coordinación de GBIF España disponen de herramientas de ayudas a la introducción de datos y de comprobación basadas en tesauros y vocabularios controlados.

Sólo mencionar que:

Page 32: Taller sobre calidad en bases de datos sobre biodiversidad Aula de informática del Real Jardín Botánico (CSIC) Madrid, 13-14 septiembre 2007 Uso de tesauros

Taller sobre calidad en bases de datos sobre biodiversidad

Aula de informática del Real Jardín Botánico (CSIC)Madrid, 13-14 septiembre 2007

Uso de tesauros

y otros vocabularios controlados

Alberto González TalavánUnidad de Coordinación de GBIF España

Más información

http://www.gbif.es/