45
Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Rodrigo Torréns José Alejandro Torres Niño Luis Nuñez Noviembre, 2011 Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida Large Aperture Gamma Ray Burst Observatory

Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO

Embed Size (px)

DESCRIPTION

Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander. Large Aperture Gamma Ray Burst Observatory. Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO. Rodrigo Torréns José Alejandro Torres Niño Luis Nuñez Noviembre, 2011. - PowerPoint PPT Presentation

Citation preview

Repositorios de Datos para comunidades científicas.

Caso Comunidad LAGO

Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander

Rodrigo TorrénsJosé Alejandro Torres Niño

Luis Nuñez

Noviembre, 2011

Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida

Large Aperture Gamma Ray Burst Observatory

Contenido

• El problema de la ubicación, preservación y uso de colecciones de datos científicas

• Tendencias en la colaboración científica• Herramientas que pueden ayudar a solucionar

algunos de los problemas

Hablaremos sobre:

Large Aperture Gamma Ray Burst Observatory

Partamos de las preguntas básicas:

• Los datos que yo necesito… existen?

• Donde están?

• Como los obtengo?

La mayoria de los científicos se han planteado estas preguntas alguna vez

Los datos producto de una investigación científica

Large Aperture Gamma Ray Burst Observatory

4 axiomas para la ciencia intensiva en datosAcceso

• Global y abierto• Colecciones completas• Reservorios distribuidos (BD, repositorios de datos, datos en “la nube” )• PreservaciónInteracción• Metadata• Servicios web de herramientas• ReutilizaciónFlujo• Procesos• Curaduría• Gerencia y mantenimiento• PublicaciónCompartir• Estándares, XML esquemas, ontologías• Redes sociales• Minería de datos

Claudio Mendoza. http://cevale2.uis.edu.co/~cevale2/wiki/images/Data_intensive_science.pdf

Large Aperture Gamma Ray Burst Observatory

Tenemos que tener capacidades para…

• Manejar volumen de datos generados actualmente

• Preservarlos

• Encontrarlos

• Compartirlos, distribuirlos

• Usarlos, reusarlos

Problemas-retos a los que nos enfrentamos

Large Aperture Gamma Ray Burst Observatory

Ejemplo de degradación normal de los contenidos de información asociados con datos y metadatos a través del tiempo

…Problemas a los que nos enfrentamos

Momento de publicación

Detalles específicos acerca de la recolección de los datos se pierden al pasar el tiempo

Retiro o cambio de carrera del científico recolector

Accidente puede destruir datos y documentación Muerte del investigador y subsecuente perdida

de registros restantes

Co

nte

nid

os

de

Info

rmac

ión

Tiempo (Michener, 1997)

Large Aperture Gamma Ray Burst Observatory

Volumen de datos…

El problema del “diluvio” de datos. La era del Petabyte

www.wired.com

Large Aperture Gamma Ray Burst Observatory

Ante estos retos, tenemos posibilidades y nuevas maneras de…

• Producir datos,

• de compartirlos (publicarlos), y…

• de trabajar colaborativamente

Nuevas formas de colaboración científica

Large Aperture Gamma Ray Burst Observatory

Frecuentemente o cada vez más escuchamos y hablamos de…

• “ciberinfraestructura”

• “e-ciencia”

• “e-investigación”

• “colaboracion ubicua”

• “data-driven Science”

• “computación grid”

• “computación social”

• “acceso abierto al conocimiento”

…refiriendose a nuevas formas de producción y diseminación del conocimiento

Nuevas formas de colaboración científica

Large Aperture Gamma Ray Burst Observatory

e-ciencia• El termino e-ciencia es usado para representar

la creciente colaboración global de personas y uso de recursos compartidos, que serán (son) necesarias para resolver nuevos problemas de la ciencia y la ingeniería

Tony Hey, Anne Trefethen. The Data Deluge: An e-Science Perspectivehttp://www.cct.lsu.edu/~kosar/csc7700/papers/Hey03.pdf

Large Aperture Gamma Ray Burst Observatory

Datos generados por redes nacionales y mundiales de investigación (biología, medicina, física, etc.):

• Datos del LHC generados en el CERN

• Datos generados por las redes mundiales de sensores sísmicos

• Estudios sobre cambios globales (GCMD-NASA)

• Astronomía, los “telescopios virtuales” (Global Internet Telescope)

• Banco de datos de Proteinas (PDB, Protein Data Bank)

• Datos del genoma humano y de otras especies

Ejemplos de colecciones de datos:

Large Aperture Gamma Ray Burst Observatory

A esto se unen las iniciativas por el uso sin

restricciones de la información y datos:

• Iniciativas de Acceso Abierto al Conocimiento (OA, Open Access Initiatives)

• Movimiento Datos Libres (OD, Open Data)

• Repositorios Institucionales y por disciplina (temáticos)

Iniciativas de Acceso Abierto

Large Aperture Gamma Ray Burst Observatory

-Ejemplos:CERN LHC

Necesidad de usar tecnologías de información (TICs)

• Ubicar• Accesar• Recuperar• Compartir

…datos

La mayoría usa LA RED (la Web) para

satisfacer estas necesidades

Para…

Large Aperture Gamma Ray Burst Observatory

Un objetivo importante

Qué debemos hacer para lograr el…

Uso secundario y a largo plazo de colecciones de

datos científicos

Se debe…

Garantizar permanencia de los datos en el tiempo

Poder ubicar y recuperar la información

Large Aperture Gamma Ray Burst Observatory

Herramientas

Herramientas organizativas y tecnológicas que pueden hacer esto posible:

Uso de metadatos y estándares de intercambio de información

Tecnologías de Información y Comunicaciones

Formación de Redes de colaboración entre científicos y entre usuarios de información

Creación y mantenimiento de repositorios de datos

Large Aperture Gamma Ray Burst Observatory

¿Qué significa la palabra “metadatos”?• " Datos sobre los datos " .

• "Nivel superior de la información, o instrucciones que describen el contenido, contexto, calidad, estructura, y accesibilidad de una colección de datos específica" (J.K. Michener 1997).

D

M

D

M1

D

M2

Mc

D

M

a) b) c)

Metadatos como parte de los datos

Metadatos externos al recurso de información

Meta-metadatos (colecciones de metadatos)

Large Aperture Gamma Ray Burst Observatory

¿Para qué “metadatos”?

Preguntas que se deberían poder responder usando metadatos:

•Que datos describe una coleccion de datos científicos?

•Quien produjo la colección?

•Porqué fue creada la colección?

•Como fue creada la colección?

•Que datos componen la colección?

•Cuan confiables son los datos. Que problemas persisten en la colección?

•Como alguien puede obtener una copia de la colección?

•Quien escribio los metadatos?

Large Aperture Gamma Ray Burst Observatory

¿Para qué “metadatos”?• El valor científico y económico de las colecciones de

datos es muy grande• Para asegurar su uso posterior, la comunidad

científica necesita acceso eficiente a estos datos• Los datos tienen que ser confiables y persistentes en

el tiempo• La calidad de los datos debe poder probarse

Large Aperture Gamma Ray Burst Observatory

¿Que hacer?• Tratar a los datos como si fueran una publicación

científica tradicional– Edición– Agregación (documentación con metadatos)– Análisis– Revisión por pares– Publicación

…para que sean útiles a los usuarios finales

Large Aperture Gamma Ray Burst Observatory

Ejemplos de metadatos y de comunidades

que usan metadatos

Muestra datos NBIIhttp://www.nbii.gov/

Documentación de datos geoespaciales (estándar FGDC) http://cndg.clearinghouse.gub.uy

Large Aperture Gamma Ray Burst Observatory

Ejemplos de metadatos y de comunidades

que usan metadatosDocumentación de datos geoespaciales (Interfaz a Clearinghouse FGDC y GCMD Data Documenter)

Large Aperture Gamma Ray Burst Observatory

Algunos de los estándares para metadatos geoespaciales, biológicos, científicos y

ambientales más usados 

•FGDC-CSDGM. Content Standard for Digital Geospatial Metadata. Federal

Geographic Data Committe (1994): Datos geoespaciales. [www.fgdc.gov]

•FGDC-NBII. Perfil Biológico de FGDC. Biología y ciencias naturales. [www.nbii.gov].

•Global Change Master Directory Interchange Format – DIF. (1993) Ciencias de la

Tierra. [gcmd.gsfc.nasa.gov]

•Darwin Core (DwC). Colecciones de Historia Natural.

•Descriptores para Metadatos no-geoespaciales. NCEAS-LTER (1997) Datos

ecológicos. Base del estándar EML. [lternet.washington.edu]

•Dublin Core. Estandar general de identificacion de objetos de información en Internet.

[www.dublincore.org]

•CCLRC Scientific metadata model (CSMD). study-data set orientated model

Large Aperture Gamma Ray Burst Observatory

Repositorios• Almacenan y preservan la producción de una

institución o de una disciplina científica. • Contienen información académica y científica. -

Artículos de revista, tesis, congresos, informes, colecciones de datos, etc.

• Compuestos de Metadatos + documentos. • Libre acceso a sus contenidos (open access), es la

tendencia actual.

Large Aperture Gamma Ray Burst Observatory

Repositorios institucionales• Incluyen los contenidos académicos de una

institución (universidad, centro de investigación, etc.).

Ejemplos:• CERN Document Server: http://cdsweb.cern.ch/• Repositorio SABER-ULA: http://www.saber.ula.ve• Dspace@MIT: http://dspace.mit.edu

Large Aperture Gamma Ray Burst Observatory

Repositorios temáticos• Incluyen los contenidos académicos de una disciplina

o ámbito temático.

Ejemplos: – E-LIS (biblioteconomía y documentación), – ArXiv (física), – Cogprints (psicología),– Repec (economía).

Large Aperture Gamma Ray Burst Observatory

Repositorios temáticosLarge Aperture Gamma Ray Burst Observatory

Repositorios de datos• Publican y preservan colecciones de datos• Organizados frecuentemente por disciplinas

científicas como por ejemplo:– HEP, – Genómica– Datos geoespaciales,– Datos biológicos– Datos astronómicos– Datos gubernamentales

Large Aperture Gamma Ray Burst Observatory

Plataforma Dspace• DSpace es una plataforma de software de Código

Abierto que provee herramientas de administración de repositorios para gestionar muchos tipos de contenidos digitales, incluyendo colecciones de datos.

www.dspace.org

Large Aperture Gamma Ray Burst Observatory

¿Donde usan Dspace?

www.dspace.org

Large Aperture Gamma Ray Burst Observatory

Repositorios de datos con Dspace

Large Aperture Gamma Ray Burst Observatory

Dificultades comunes

• Escaso conocimiento de la importancia de la preservación y posibilidades de uso secundario de los datos• Poca disposición de los científicos para compartir los datos.• Poca receptividad o disposición para aportar metadatos que

documenten las colecciones de datos.• Confusiones y reservas que tienen que ver con los derechos de

propiedad, publicación y uso de los datos.• Dificultades (aún) con la conexión a internet (conectividad,

velocidad)• Costos de los instrumentos de captura de datos• No existe la figura de “gerente local de información”, o es muy

costoso tenerlos

Large Aperture Gamma Ray Burst Observatory

El Futuro

• Redes de gestión de conocimientos basadas en datos y metadatos

• Herramientas analíticas "en-línea" con acceso a datos de red de científicos

• Herramientas que facilitan la creación de diferentes formas de metadatos

• Creación de más bancos de datos internacionales o federados perteneciantes a multiples dominios y organizaciones

• Puesta en marcha de la “infraestructura Grid”. Acceso a “Grid de datos” (Datagrids)

• Por último…Comunidades y sociedades del conocimiento

Large Aperture Gamma Ray Burst Observatory

A manera de conclusión para esta parte

• El reto para la infraestructura de investigación actual es facilitar la más amplia diseminación posible de los descubrimientos científicos

• Estas infraestructuras allanaran el camino para la e-ciencia, donde los investigadores serán capaces de producir, gestionar, diseminar y comparar grandes conjuntos de datos, magnificando las posibilidaded de nuevos descubrimientos

Conferencia Berlin 7 http://www.berlin7.org/spip.php?article46

Large Aperture Gamma Ray Burst Observatory

Large Aperture Gamma Ray Burst Observatory

LAGODSpace

Large Aperture Gamma Ray Burst Observatory

LAGODSpace

Large Aperture Gamma Ray Burst Observatory

LAGODSpace

Recolector de datos y Metadatos

SAI

Large Aperture Gamma Ray Burst Observatory

LAGODSpace

Large Aperture Gamma Ray Burst Observatory

LAGOVirtual

Large Aperture Gamma Ray Burst Observatory

LAGOVirtual

Large Aperture Gamma Ray Burst Observatory

Large Aperture Gamma Ray Burst Observatory

• LAGODSpace (metadatos)

Datos que describen Datos ???

¿Donde esta?

Large Aperture Gamma Ray Burst Observatory

LAGODSpace (metadatos)

Large Aperture Gamma Ray Burst Observatory

• USO DE LAGODSpace

Large Aperture Gamma Ray Burst Observatory

RedCLARABeneficios, servicios ofrecidos, etc.

• Financiación ?????????• Servicios Red de Alta Velocidad

• Videoconferencias H.323• Asociaciones• Capacitación• Visibilidad

Necesidad