View
231
Download
0
Category
Preview:
Citation preview
Curso sobre la publicación de datos sobre biodiversidad en la red de GBIF y su aptitud para el uso, edición 2011
Métodos para mejorar la aptitud para el uso (fitness-for-use) de los datos de biodiversidad
Manuel Vargas Del Valle (mvargas@inbio.ac.cr)Coordinador de la Unidad de Desarrollos InformáticosInstituto Nacional de Biodiversidad de Costa Rica (INBio)
Buenos Aires (Argentina)30 septiembre 2011
Resumen
Esta charla presenta diversos métodos para mejorar la
aptitud para el uso (fitness-for-use) de los datos sobre
biodiversidad, desde el punto de vista taxonómico y
geográfico.
Los temas presentados aquí reflejan en gran parte las
investigaciones realizadas por Arthur Chapman y John
Wieczorek en los campos de aptitud para el uso,
calidad de datos y curación de datos.
Esta charla es una traducción de la elaborada en inglés
por Nicolas Noé y Meherzad Romer, y traducida
también al francés por ellos mismos.
Contenidos
Datos taxonómicos
Datos geográficos
Datos “delicados de manejar” (Sensitive data)
Mejores prácticas
Taxonomía
Datos taxonómicosCerteza de la identificación
Perspectiva del diseño de la base de datos:
• Bandera de nivel de verificación, nombre, fecha
• Cuidado con términos como "aff.", "cf.", "s.lat", ...
• Si la identificación no fue hecha por un experto, guarde la siguiente información: o claves taxonómicaso ADNo revisioneso ...
Prácticas para la entrada de datos:
• Uso de checklists• Uso de archivos de autoridad
Chequeo de errores:
• Generalmente requiere expertisia taxonómica
• Los valores extremos (outliers)ambientales/geográficos pueden ayudar a priorizar
Datos taxonómicosCerteza de la identificación
Datos taxonómicosProblemas de ortografía – Parte 1
• Diseño de bases de datos:o “Atomizar” los datos (géneros, especies,
autores, certeza,...)
• Usar archivos de autoridado Listas globales (Catálogo de la Vida,
Species2000, ...)o Regionaleso Taxonómicos (fishbase, ...)
• Entradas duplicadaso Se requiere una interfaz específica para
sugerir posibles duplicados y marcarlos cuando se importan fuentes secundarias
Datos taxonómicosRangos infraespecíficos
• Database design: atomize fields, build scientific name later:Genus Species Infra_rank Infra_value
Stipiturus malachurus subsp. parimeda
=> se evitan nombres ambiguos=> permite chequeos en los rangos infraespecíficos (pocos valores)
• Entrada de datoso Use listas de valores (pick-lists)o Permita un número limitado de valores:
subsp. subespecie
var. variedad
subvar. subvariedad
f. forma
subf. subforma
• Chequeo de errores
No debe hacerse mucho si la base de datos está bien diseñada
Datos taxonómicosRangos infraespecíficos
Datos taxonómicosCultivos e híbridos
• Son casos muy complejos de manejar. La base de datos debe estar diseñada para manejar esos casos específicos
• Cultivos tienen su propio código nomenclatural
• Incluya un campo que indique si se trata de un cultivo o un híbrido (para así permitir más revisiones o atomización)
Datos taxonómicosNombres no publicados – Qué debe evitarse
• Deje claro que se trata de un nombre no publicado – evite el uso de binomios que parezcan nombres publicados oLos usuarios podrían perder mucho tiempo buscando nombres que no existen
• Evite nombres como "Verticordia sp.1", "Verticordia sp.2".o=> Esto puede causar mucha confusión, ya que puede hacer referencia a diferentes especies en instituciones diferentes
Datos taxonómicosNombres no publicados – Qué hacer
"<Genus> sp. <descripción o nombre coloquial> (<Voucher>)"
Prostanthera sp. somersbey (B.J. Conn 4024)Ventajas:
• Es claro para los usuarios que NO es un nombre publicado
• Evita la confusión entre especies/instituciones• Cuando el taxón se describa apropiadamente
puede ser usado como un sinónimo• Hay poco peligro de confusión fuera de las
publicaciones científicas
Datos taxonómicosProblemas ortográficos – Nombres comunes
Son casi imposibles de estandarizar debido a qué:
• Un solo taxón puede tener varios nombres comunes (debido a que son particulares de una región, lenguaje o etnia)
• Inversamente, un mismo nombre común puede ser compartido por varios taxones
No estandarize los nombres comunes, pero documéntelos tanto como sea posible
Nombre Lenguaje Región Fuente Comentarios
Datos taxonómicosNombres de autores
• No siempre deben incluirse. Solamente deben incluirse cuando un mismo nombre se le da a varios taxones
• Si los incluye, use un campo separado
• Tome en cuenta las diferencias entre los formatos para nombres de plantas y nombres de animales (i.e. en la concatenación):o Los nombres de animales incluyen años:
Emydura signata Ahl, 1932 Macrotis lagotis (Reid, 1937)
o Los de plantas no Melaleuca nervosa (Lindley)
Género Especie Autor Año
Datos taxonómicosNombres de autores – Chequeo de errores
• Para plantas, las abreviaturas de los nombres de autores siguen un estándar que puede usarse para las revisiones
• Revise con archivos de autoridad• Use técnicas basadas en “Soundex”• Si se usan los autores, todos los
nombres publicados deben llevarlos
Datos taxonómicosNombres de recolectores
• Hay listas de nombres de recolectores recopiladas para algunas áreas
• El formato debe estandarizarse. El estándar HISPID recomienda:
"Primer apellido del recolector seguido de una coma y un espacio (, ) luego las iniciales (todas en mayúscula y separadas por puntos). Todas las iniciales y la primera letra del apellido deben ir en mayúscula. Por ejemplo, Chambers, P.F."
Datos taxonómicosNombres de recolectores – Chequeo de errores
• Si el formato está estandarizado, es fácil "ordenar por recolectores" y buscar pequeñas variaciones (sin embargo, se debe tener mucho cuidado al renombrar)
• Se pueden emparejar los nombres de recolectores y las fechas de recolección con datos de los historiadores: itinerarios de barcos, descripción de expediciones científicas...
Ambas bases de datos pueden ser mejoradas si se detectan las inconsistencias y los errores
Mejores prácticas
Datos espaciales
Datos espacialesDiseño de bases de datos - 1/2
• Debemos asegurarnos de que hay campos para recopilar adecuadamente la información que con frecuencia se pone en el campo de localidad
Eurasia: throughout Europe to northernmost extremity of Scandinavia, except Iberian Peninsula, central Italy, and Adriatic basin; Aegean Sea basin in Matriza and from Struma to Aliakmon drainages; Aral Sea basin; Siberia in rivers draining the Arctic Ocean eastward to Kolyma. Widely introduced. Several countries report adverse ecological impact after introduction.(Distribución de Perca Fluviatilis, tomada de fishbase)
Datos espacialesDiseño de bases de datos - 2/2Coordenadas en formato decimal
Datum geodésico
Exactitud reportada por los dispositivos
Incertidumbre espacial: prefiblemente en metros
"Lugar más cercano con nombre", "Distancia" y "Dirección" (+ Localidad). Todos estos elementos juntos ayudan a geocodificar y a limpiar los datos.
Método de georreferenciación:• GPS diferencial• GPS “corrompido” por la Disponibilidad Selectiva (antes de
mayo del 2000)• Un mapa de referencia de escala 1:100 000 y triangulación• Una referencia a un mapa y “navegación por estima” (dead
reckoning)• Obtenido automáticamente con software de georreferenciación
Datos espacialesChequeo de errores en los datos existentes
• Chequeo contra el resto del registro: localidad, nombre del país
• Chequeo contra otros datos en la base de datos: ¿es el registro consistente con otros lugares que ha visitado el recolector?
• Chequeo contra datos externos mediante SIG: prueba del “punto en el polígono” - ¿el punto está en el mar o en el océano?
• Chequeo de valores geográficos “extremos” (outliers) de una especie
• Búsqueda de valores ambientales “extremos” (outliers) de una especie
Datos espacialesMejores prácticas para georreferenciación – Recolección en el campo - Localidad
Las descripciones de localidades más específicas usan una referencia inequívoca, corta, fácil de localizar y persistente a un objeto geográfico (un punto, una línea, un polígono) y desplazamientos ortogonales desde el centro de ese objeto.
"2.1 km N and 0.5 km E of North Head Light House off Sydney Heads"
Mejores prácticas
Datos “delicados” (Sensitive data)
Trabajando con datos “delicados”Deben presentarse “vagamente” - ¿Por qué?
• Para proteger especies amenazadas, económicamente importantes y reducir el impacto en poblaciones silvestres
• Para reducir las posibilidades de sabotaje, recolección por parte de recolectores comerciales o inescrupulosos, sobre explotación, control de la bioprospección...
• Proteger datos de terceros custodiados por la institución
• Permitir la publicación de los resultados de investigaciones y así mantener ventajas competitivas
• Por temor a que los usuarios le den un uso inadecuado a lso datos
• Por respecto a los deseos de los dueños de la propiedad intelectual de los datos
(resultados de la encuesta en Internet de GBIF - 2006)
Trabajando con datos “delicados”Consideraciones generales
• Los problemas clave frecuentemente son sociales
• Hay aspectos regionales que deben tenerse en cuenta
• Algunos nunca compartirán datos “delicados”
• La documentación es esencial
Trabajando con datos “delicados”Como presentar datos de manera “vaga” o imprecisa
• Datos espaciales: o Con una cuadrícula espacialo Se recomiendan 3 niveles de
generalización por Chapman & Wieczorek(2006): 0.1 grados (11-16 km) - 0.01 grados (1.1-1.6km) - 0.001 grados (112-157m)
o En casos extremos, no los presente ni publique
• Datos no espacialeso Deben ser reemplazados con frases
apropiadaso No elimine los datos de la colección
Trabajando con datos “delicados”La documentación es esencial
Debe indicarse qué se ha hecho para presentar los datos “vagamente”, así como las razones, para que así el usuario pueda:
• saber que datos han sido modificados y como
• saber que hay más información que podría obtener
• decidir si debe ignorar esos datos, incluírlos tal como los obtiene o buscar más información
Trabajando con datos “delicados”Campos que deben presentarse “vagamente”
• Información de localidad y de georreferenciación
• Otros campos (información taxonómica, nombre del observador, información del hábitat, huéspedes, usos tradicionales, ...)
Preguntas
¡Gracias!
Curso sobre la publicación de datos sobre biodiversidad en la red de GBIF y su aptitud para el uso, edición 2011
Métodos para mejorar la aptitud para el uso (fitness-for-use) de los datos de biodiversidad
Manuel Vargas Del Valle (mvargas@inbio.ac.cr)Coordinador de la Unidad de Desarrollos InformáticosInstituto Nacional de Biodiversidad de Costa Rica (INBio)
Buenos Aires (Argentina)30 septiembre 2011
Recommended