If you can't read please download the document
Upload
fernando-ariel-lopez
View
856
Download
0
Embed Size (px)
Citation preview
Fernando Ariel LpezCAICYT CONICET@fernando__lopez
Workshop de Datos Cientficos
Big Data: Volumen, Velocidad, Variedad y VeracidadMinera de Datos, Descubrimiento de Conocimiento, Inteligencia de Negocios
(Data Mining, Knowledge Discovery, Business Intelligence)
Ciencia Abierta = Open Science
Metodologas Abiertas / Open Methodology (Mtodos, procesos, documentos relevantes, etc.)
Software y Hardware Libres / Soft and Hard open
Datos Abiertos / Open Data (libres para reutilizar)
Acceso Abierto / Open Access (libre y gratuito)
Revisin por pares Abierto / Open Peer Review (transparencia en los criterios de evaluacin y calidad)
Recursos Educativos Abiertos / Open Educational Resources (MOOC y REA)
Principios de la CIENCIA ABIERTA
hechos, observaciones o experiencias (basado argumento, teora o prueba) pueden ser numricos, descriptivos o visuales. pueden ser en estado bruto o analizado, pueden ser experimentales u observacionales. pueden ser abiertos o cerrados
Qu son los datos de investigacin?
Qu son los datos de investigacin?
Los datos incluyen:- cuadernos de laboratorio o de campo,- datos de investigacin primaria (en papel o digital),- cuestionarios,- fotografas, audio y videos- desarrollo de modelos
Las colecciones datos para la investigacin pueden incluir:- diapositivas, diseos, muestras.
Procedencia de los datos: cmo, cundo, donde se recogi y con qu (por ejemplo, instrumentos).
Qu son los datos de investigacin?
Qu son los datos de investigacin?
Es una coleccin de datos reunidos durante la ejecucin de un proyecto de investigacin.
Son objetos digitales compuestos y heterogneos.
Constituye la base de la investigacin y va asociado a una publicacin cientfica (resultado de la investigacin).
Se almacena y gestiona en Repositorios Interoperables conforme a estndares internacionales.
Es el objeto especfico de trabajo, control, organizacin, descripcin y preservacin de datos cientficos
DATASET
ACTORES IMPLICADOS- Investigadores [productores de datos]- Agencias de Financiamiento- Universidades y Centros de Investigacin- Gestores de datos: Repositorios Institucionales (corto plazo) Centro de Datos (mediano-largo plazo)- Usuarios (otros investigadores, ciudadanos, etc.)
Sociedad Civil (ONG) + Empresas
Antecedentes: Polticas en las Agencias de Financiamiento
Estados Unidos: NSF (National Science Foundation), NIH (National Institutes of Health), NASA y NODC (National Oceanographic Data Center).
Europa: Horizon2020
Reino Unido: AHRC, BBSRC, Cancer Research UK, EPSRC, ESRC, MRC, NERC, STFC, WellcomeTrust.
Australia: ARC
Regional: OCDE
Argentina:Iniciativas Nacionales de Datos http://sistemasnacionales.mincyt.gob.ar/
Ley Nacional 26.899. Datos primarios en 5 aos disponibles. Excepciones
Lneas de Trabajo
Plan de Gestin de Datos / Data Management Plan (DMP)
e-Infraestructuras
DATOS
PLAN DE GESTIN DE DATOS [DMP]Es un documento que describe el tratamiento que van a recibir los datos de investigacin generados o recopilados en el transcurso de un proyecto de investigacin.
CAICYT- CONICET (Argentina)
Propuesta: Plan de Gestin de Datos Cientficos
Anlisis de las actuales Polticas y Requisitosde importantes Agencias de Financiamiento:
DCC (UK)
Horizon2020 (UE)
NSF (EEUU)
ARC (AU)
e-Infraestructura
Repositorio Interoperable de DatosDatos Pblicos Argentina (CKAN, OKF),
Zenodo (Invenio, CERN)
DRYAD, PLICSS, LAGOS (DSpace, MIT & HP),
Harvard DATAVERSE (Eprints)
Plataforma de Trabajo para InvestigadoresOSF, HubZero, MyExperiment.org, etc.
Cluster de Almacenamiento y/o Procesamiento
Los investigadores pueden ser reacios a compartir sus datos pblicamente debido a los costos individuales reales y/o percibidos.
Mayor resistencia: Cambio Cultural
BENEFICIOS #DatosAbiertos
Ayuda a verificar los resultados.
Evitar la fabricacin y falsificacin de datos.
Diferentes interpretaciones o enfoques aplicados a datos existentes contribuyen a los avances cientficos.
Optimizacin en el uso de recursos.
Preservacin a largo plazo bien gestionada, permite mantener la integridad de los datos.
TenopirC, Allard S, Douglass K, AydinogluAU, et al. (2011) Data
Sharing by Scientists: Practices and Perceptions. PLoSONE 6(6):
e21101. doi:10.1371/journal.pone.0021101
http://www.plosone.org/article/info:doi/10.1371/journal.pone.0021101
Debemos desarrollar Polticas y Acciones para Gestionar los Datos Cientficos:
Polticas a nivel de agencias de financiacin e institucionales. Definicin de roles/responsabilidades de los distintos actores.
Recursos financieros a largo plazo ya que los datos son acumulativos y se preservan.
Recursos humanos especializados (para generacin de datos, normalizacin, explotacin y preservacin).
Infraestructuras coordinadas para garantizar su interoperabilidad. Entre los requisitos de las infraestructuras destacar: preservacin, acceso, data curation, data processing, distribucin.
y los Investigadores?
Colaborar con su formacin
Proveer una infraestructura de trabajo (framework):Almacenamiento de datos
Curacin, Procesamiento, Explotacin, Visualizacin de datos.
Contar con Repositorios / Centros de Datos:Identificadores nicos (Autor, Datos, etc.)
Estadsticas de impacto (uso, descarga, citacin, etc.)
Preservacin Digital
Ciclo de Vida de los Datos
ABIERTO
Muchas Gracias
Fernando Ariel LpezCAICYT CONICET@fernando__lopez
Definicin de METADATOS
"datos sobre los datos"
son datos altamente estructurados que describen informacin, describen el contenido, la calidad, la condicin y otras caractersticas de los datos.
En los metadatos se describe varios atributos de los objetos de informacin para otorgarles:
significado, contexto y organizacin
METADATOS
Seleccin de Esquemas http://www.dcc.ac.uk/resources/metadata-standards
Ejemplo de Esquemas de Metadatos de ECONOMA
DDI - Data Documentation InitiativeAn international standard for describing data from the social, behavioral, and economic sciences. Expressed in XML, the DDI metadata specification supports the entire research data life cycle.
SDMX - Statistical Data and Metadata ExchangeA set of common technical and statistical standards and guidelines to be used for the efficient exchange and sharing of statistical data and metadata.
Esquema de metadatos DDI
Documentacin http://www.ddialliance.org/Specification/
Vocabulario controlado asociado http://www.ddialliance.org/Specification/DDI-CV/
Extensiones, Herramientas (editores, etc) y Casos de uso
Ejemplos:Yale University (EEUU) http://isps.yale.edu/research#.Vl04knYvfIV
European Center Bank. Statistical Data Warehouse
Portal (humanos) http://sdw.ecb.europa.eu/home.doWeb service (maquinas) https://sdw-wsrest.ecb.europa.eu/Paneldata.org (Alemania) https://paneldata.org/topics