La Web de Datos:Oportunidades y Riesgos
Trabajo distribuido bajo la licencia Creative Commons Attribution-Noncommercial-Share Alike 3.0
Oscar Corcho, Boris Villazón-Terrazas, Asunción Gómez-Pérez
Facultad de Informática, Universidad Politécnica de Madrid
Campus de Montegancedo sn, 28660 Boadilla del Monte, Madrid
http://www.oeg-upm.net
{ocorcho,bvillazon,asun}@fi.upm.es
@ocorcho, @linkeddataspain
Agradecimientos: Luis M. Vilches, Victor Saquicela, Guillermo Alvaro Rey, Olaf Hartig, Juan Sequeda, and many others that we may have omitted.
Disponible en: http://www.slideshare.net/ocorcho/
Administración Pública y la Web de Datos:
Oportunidades y Riesgos
Trabajo distribuido bajo licencia Creative Commons Attribution-Noncommercial-Share Alike 3.0
Oscar Corcho, Boris Villazón-Terrazas, Asunción Gómez-Pérez
Facultad de Informática, Universidad Politécnica de Madrid
Campus de Montegancedo sn, 28660 Boadilla del Monte, Madrid
http://www.oeg-upm.net
{ocorcho,bvillazon,asun}@fi.upm.es
@ocorcho, @linkeddataspain
Agradecimientos: Luis M. Vilches, Victor Saquicela, Guillermo Alvaro Rey, Olaf Hartig, Juan Sequeda, and many others that we may have omitted.
Disponible en: http://www.slideshare.net/ocorcho/
Contenido
• Datos Abiertos Gubernamentales (Open Government Data)• Marco legal• Retos, oportunidades y limitaciones
• La Web de Datos (Linked Data)• Contexto• Principios y tecnologías• Linked Open Data
• La Web de Datos Abiertos Gubernamentales (Linked Open Government Data)• En el mundo y en España
• Revisitando el Real Decreto 1495/2011• Conclusiones
3
Contexto de esta charla…
• Las fechas de estas jornadas no podían ser más acertadas…• BOE, Martes 8 de noviembre de 2011 (¡¡hace dos días!!)• http://boe.es/boe/dias/2011/11/08/pdfs/BOE-A-2011-17560.pdf• Real Decreto 1495/2011, de 24 de octubre, por el que se
desarrolla la Ley 37/2007, de 16 de noviembre, sobre reutilización de la información del sector público, para el ámbito del sector público estatal
• Algunas preguntas que me gustaría explorar hoy…• ¿Qué significa, en términos de coste y esfuerzo, para una administración
pública?• ¿Cuáles son los retos sociales y tecnológicos asociados a este decreto?• ¿Cuáles son las principales oportunidades para las administraciones
públicas, los negocios y los investigadores?• ¿Cómo aseguro que mis datos se utilizan adecuadamente?
4
Marco legal e iniciativas Open Data
• Open Access Initiative (2001)• Información científica en la red; > 510 organizaciones
• Convención de Aarhus (1998)• Derecho de participación y acceso; 41 países y la UE
• Directiva PSI• Reutilización de la PSI
• Convención sobre el acceso a documentos oficiales (2009)• Firmada por 12 países• Bélgica, Finlanda, Noruega, Suecia, Hungría, Estonia, Lituania, Eslovenia, Georgia,
Montenegro, Serbia y Macedonia
• Ley 37/2007. Reutilización de la PSI• Ley 11/2007. Acceso de los ciudadanos a los servicios públicos, y Derecho a la
calidad de los servicios• RD 4/2010 Esquema Nacional de Interoperabilidad
• Estándares abiertos• Principio de neutralidad tecnológica• Software de fuentes abiertas
• RD 1495/2011 Desarrolla la Ley 37/2007
Adaptado de: Antonio Rodríguez Pascual (IGN)
Ley 37/2007 y RD 1495/2011 Reutilización Datos Públicos
Open Data y Open Government
• 8/11/2011 - http://www.deri.ie/about/open-data
Fuente: Antonio Rodríguez Pascual (IGN)
¿Cómo publicar datos (en la red)?
• 1) En un tablón de anuncios• Para los que tienen mucho tiempo libre
• 2) En una página • Para usuarios humanos
• 3) En un fichero• Para ser cargados en un Sistema de Información (XML, HTML,
CSV, etc.)• Con suerte, no es un PDF escaneado
• 4) Mediante un servicio web• Para ser consultados por SI y personas• Permite generar servicios de valor añadido• Integrarlo en la lógica de la aplicación del usuario
Adaptado de: Antonio Rodríguez Pascual (IGN)
Web clásica (la que conocemos)
9
Estaciones automáticas de AEMET
Base de datos del
INE
Los datos se exponen en la Web via HTML,
PDF, etc.
© Slide adapted from “5min Introduction to Linked Data”- Olaf Hartig
Web clásica (la que conocemos)
10
Los buscadores proporcionand información de
páginas aisladas
© Slide adapted from “5min Introduction to Linked Data”- Olaf Hartig
11
Web clásica. Limitaciones
• La publicación de datos se puede hacer en páginas HTML, ficheros (CSV, HTML, XML, etc.), o servicios
• Limitaciones• Los datos no están enlazados y no están siempre preparados para
la Web• Los datos deben ser obligatoriamente descargados para poderlos
consumir (cuando son muy grandes generan problemas)• Estos datos son difíciles de integrar si proceden de la misma o
distintas instituciones• Ejemplo: Rioja, La frente a La Rioja en algunos campos• Ejemplo: código INE frente a código IGN frente a códigos de
Catastro
• Un trabajador de la sociedad del conocimiento (periodista, político, analista, etc.):• ¿Hay correlación entre cuánto llovió este año en Adeje, el número
de turistas recibidos y la evolución de la tasa de desempleo?
Web Clásica (la que conocemos)
12
© Slide adapted from “5min Introduction to Linked Data”- Olaf Hartig
¿Se pueden hacer consultas
complejas sobre múltiples
páginas/fuentes?
¿Qué es lo que buscamos realmente?
• Utilizar la Web como una base de datos global• Movernos de una Web de documentos a una Web de datos
• Movernos de nuestros catálogos de datos y “oficinas virtuales” a la Web de los datos
13
Base de datos del
INE
Estaciones automáticas de AEMET
© Slide adapted from “5min Introduction to Linked Data”- Olaf Hartig
Ejemplos con datos reales…
• ¿Cuántos embalses hay en España?select COUNT(distinct ?x) WHERE {?x a <http://geo.linkeddata.es/ontology/Embalse>}
1644• ¿Cuál es el número máximo de desempleados en los
últimos cinco años en alguna Comunidad Autónoma?
14
Contenido
• Datos Abiertos Gubernamentales (Open Government Data)• Marco legal• Retos, oportunidades y limitaciones
• La Web de Datos (Linked Data)• Contexto• Principios y tecnologías• Linked Open Data
• La Web de Datos Abiertos Gubernamentales (Linked Open Government Data)• En el mundo y en España
• Revisitando el Real Decreto 1495/2011• Conclusiones
15
Principios de la Web de Datos (Linked Data)
16
Base de datos del
INE
Estaciones automáticas de AEMET
Identificadores globales: URI (Uniform Resource Identifier), que es una cadena de caracteres que se usa para identificar a un recurso en Internet.
http://datos.aemet.../Adejehttp://datos.ine.es/…./Adeje
Modelo de datos: RDF (Resource Description Framework), que es un modelo estándar parael intercambio de datos en la Web
http://.../tieneMedida
http://.../name
34
“Desempleo en Adeje”
Mecanismo de acceso: HTTP
Conexión: Enlaces con tipos
http://.../tieneEstaciónAutomática
© Slide adapted from “5min Introduction to Linked Data”- Olaf Hartig
¿Qué es la Web de Linked Data?
• Una extensión de la Web actual donde se publican datos de acuerdo a cuatro principios (a modo de best practice)• http://www.w3.org/DesignIssues/LinkedData.html
• Se utilizan URIs para hacer referencia a cosas (estación meteorológica, observación, punto de interés, embalse, etc.)• http://aemet.linkeddata.es/resource/WeatherStation/id08363• http://geo.linkeddata.es/resource/Embalse/Burguillo%2C%20Embalse
%20del
• Se usa el protocolo HTTP para acceder a la información de las URIs
• Cuando se obtienen datos de una URI o se utiliza un lenguaje de consulta (SPARQL), se obtienen datos en un formato estándar (RDF)
• Se incluyen enlaces a otras URIshttp://www.ted.com/talks/tim_berners_lee_on_the_next_web.html
18
RDF y RDF Schema
• Estándares del W3C
Base de datos XML RDF(S)
Esquema
Datos
RDF Schema
RDF
19
RDF – Resource Description Framework
• RDF es un lenguaje basado en tripletas para expresar datos y metadatos• Las tripletas consisten en sujeto, predicado y objeto
Subject Objectproperty
Statement
ign:LaLaguna ign:SantaCruzdeTenerife
ign:Adeje 1.027.914
geo:formaParteDe dbpedia:población
“San Cristobal de la Laguna”
rdfs:labelgeo:formaParteDe
SPARQL
• Consulta: “Dame los municipios que pertenecen a la provincia de Santa Cruz de Tenerife”
SELECT ?s
WHERE { ?s geo:formaParteDe ign:SantaCruzdeTenerife.}
• Resultado: ign:LaLaguna and ign:Adeje
?s ign:SantaCruzdeTenerifegeo:formaParteDe
20
ign:LaLaguna ign:SantaCruzdeTenerife
ign:Adeje 1.027.914
geo:formaParteDe dbpedia:población
“San Cristobal de la Laguna”
rdfs:labelgeo:formaParteDe
Evolución de Linked Open Data
21
2007
2008
2009
2010
Linked Open Data
22
Linking Open Data cloud diagram, by Richard Cyganiak and Anja Jentzsch. http://lod-cloud.net/
2011
Linked Open Data – Some Spanish Datasets
23
¿Esto significa que tengo que publicar mis datos en Linked Data?
• ¿Por qué?
24
• ¿Cuál era tu incentivo para publicar páginas HTML en 1990?• Compartir documentos y que tu vecino lo hacía
• ¿Por qué deberíamos publicar en Linked Data en 2011?• Compartir datos y que tu vecino lo hace• Porque mi Gobierno me lo impone
© Slide adapted from “Introduction to Linked Data”- Juan Sequeda
Contenido
• Datos Abiertos Gubernamentales (Open Government Data)• Marco legal• Retos, oportunidades y limitaciones
• La Web de Datos (Linked Data)• Contexto• Principios y tecnologías• Linked Open Data
• La Web de Datos Abiertos Gubernamentales (Linked Open Government Data)• En el mundo y en España
• Revisitando el Real Decreto 1495/2011• Conclusiones
25
Iniciativas Open Government
• Actividad W3C eGovernment• Mejorar el acceso al Gobierno a través de un mejor uso de la Web• Publicar Open Government Data• Grupo de trabajo W3C Government Linked Data WG
• Open Knowledge Foundation• Manual Open Data
• Las cinco estrellas del Linked Open Government Data
26
Open Government. Estados unidos y Reino Unido
27
TOP-DOWN
BOTTOM-UP
Mashup Linked Data (data.gov)
Mashup Linked Data (data.gov.uk)
• Explorador de financiación en I+D• http://bis.clients.talis.com/
30
Linked Data en el Reino Unido
• Educación• http://education.data.gov.uk/id/school/106661
• Parlamento• http://parliament.psi.enakting.org/id/member/1227
• Mapas (por ejemplo, Londres)• http://data.ordnancesurvey.co.uk/id/7000000000041428• http://map.psi.enakting.org
• Transporte• http://www.dft.gov.uk/naptan/
• Retos • http://gov.tso.co.uk/openup/sparql/gov-transport
[Linked] Open Data en España
31Fuente: Carlos de la Fuente (CTIC)
[Linked] Open Data en España. Transparencia
32Fuente: Carlos de la Fuente (CTIC)
http://geo.linkeddata.es
33
1. Especificación 2. Modelado
3. Generación4. Publicación y Explotación
http://cultura.linkeddata.es/visualizer
34
1. Especificación 2. Modelado
3. Generación 4. Publicacióny Explotación
Registros MARC 21 XML
http://aemet.linkeddata.es/visualizer
35
1. Especificación 2. Modelado
3. Generación4. Pûblicación y Explotación
Python scritps
250 estaciones automáticas (presión, humedad, etc.)
Datos de las estaciones en ficheros CSV en un servidor FTP
http://webenemasuno.linkeddata.es
36
1. Especificación 2. Modelado
3. Generación4. Publicación y Explotación
Escenario en el contexto del turismo y los viajes, donde el contenido se agrega de distintas plataformas.
Contenidos heterogéneos (imágenes, guías de viaje, vídeos, noticias)
Contenido
• Datos Abiertos Gubernamentales (Open Government Data)• Marco legal• Retos, oportunidades y limitaciones
• La Web de Datos (Linked Data)• Contexto• Principios y tecnologías• Linked Open Data
• La Web de Datos Abiertos Gubernamentales (Linked Open Government Data)• En el mundo y en España
• Revisitando el Real Decreto 1495/2011• Conclusiones
37
Analicemos el Real Decreto 1495/2011. Documentos
38Asunción Gómez Pérez
Metadatos generales el documentodc:titledc:authordc:description…
Datos del documento
Identificadores. Adendo a RD 4/2010
39
http://www.cabinetoffice.gov.uk/media/301253/public_sector_uri.pdf
Licencias
40Asunción Gómez Pérez 40Asunción Gómez Pérez
Otros elementos
41Asunción Gómez Pérez
Contenido
• Datos Abiertos Gubernamentales (Open Government Data)• Marco legal• Retos, oportunidades y limitaciones
• La Web de Datos (Linked Data)• Contexto• Principios y tecnologías• Linked Open Data
• La Web de Datos Abiertos Gubernamentales (Linked Open Government Data)• En el mundo y en España
• Revisitando el Real Decreto 1495/2011• Conclusiones
42
Conclusiones
• La apertura de datos es una gran oportunidad…• Para aumentar la interoperabilidad dentro y fuera de nuestra
organización• Para incrementar la transparencia• Para incrementar la productividad, evitando la duplicación de
esfuerzos y grandes costes para los negocios que usan tus datos• Para aumentar la creatividad entre tus ciudadanos y negocios
• Los datos abiertos son obligatorios…• Las leyes actuales nos obligan cada vez más a unirnos al club
• Linked Open Government Data es una de las mejores opciones para abrir tus datos• Formatos estándar• Facilidad de uso para desarrolladores (infomediarios)• No se reemplaza lo que tienes actualmente
43Asunción Gómez Pérez
Conclusiones
• La apertura de datos tiene riesgos importantes…• Sobre todo si no lo haces ;-)• Tu administración pública continuará siendo cara• Tus ciudadanos comenzarán a pedir datos abiertos• Tus negocios no crecerán ni serán competitivos
44Asunción Gómez Pérez
Administración Pública y la Web de Datos:
Oportunidades y Riesgos
Trabajo distribuido bajo licencia Creative Commons Attribution-Noncommercial-Share Alike 3.0
Oscar Corcho, Boris Villazón-Terrazas, Asunción Gómez-Pérez
Facultad de Informática, Universidad Politécnica de Madrid
Campus de Montegancedo sn, 28660 Boadilla del Monte, Madrid
http://www.oeg-upm.net
{ocorcho,bvillazon,asun}@fi.upm.es
@ocorcho, @linkeddataspain
Agradecimientos: Luis M. Vilches, Victor Saquicela, Guillermo Alvaro Rey, Olaf Hartig, Juan Sequeda, and many others that we may have omitted.
Disponible en: http://www.slideshare.net/ocorcho/
46
(@linkeddataspain ,http://red.linkeddata.es/)• Facilitar el intercambio y transferencia de conocimientos• Aumentar la visibilidad internacional de la investigación española• Aumentar la cohesión interna y explorar sinergias (más de 300 personas)
• Solicitar nuevos proyectos• Unir esfuerzos en proyectos en curso• Evangelizar a la industria, a las Administraciones Públicas y a otros grupos de
investigación
• Instalación y mantenimiento de infraestructura• Listas de correo (https://listas.fi.upm.es/mailman/listinfo/redlinkeddata), website, blog,
repositorios y hosting de datos (linkeddata.es), software y material docente.
• Creación de itinerarios formativos• Fomento de la movilidad de investigadores• Organización de eventos
• Reuniones plenarias y workshops• Talleres y cursos de formación• voCamps temáticos, Linked Data meetups y desayunos de trabajo
47
Asociación Española de Linked Data