Upload
lamcong
View
223
Download
0
Embed Size (px)
Citation preview
Adquisicion de conocimiento usando tecnicas deprocesamiento de texto y red semantica
Sesion 4: Red semantica
Dra. Olivia Sanchez Graillet
21 de marzo 2012
Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 1 / 66
Temas
Introduccion a LinkedData y red semantica
Tecnologıas de la red semantica
Modelado semantico
Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 2 / 66
Introduccion a LinkedData y red semantica
Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 3 / 66
0Linking Open Data cloud, por Richard Cyganiak and Anja JentzschDra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 4 / 66
El problema
Actualmente muchos de los datos que se obtienen de la web estan endocumentos HTML ligados entre sı a traves de hyperlinks.
Humanos y maquinas pueden leer estos documentos, pero aparte debuscar keywords en una pagina, las maquinas tienen problemas paraextraer cualquier significado de esos documentos.
Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 5 / 66
0Conferencia TED 2009 “The Great Unveiling“Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 6 / 66
0Conferencia TED 2009 “The Great Unveiling”Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 7 / 66
La solucion: Link Open Data
Cambiar la forma de publicar datos en documentos HTML quepueden ser leıdos por humanos a documentos que pueden ser leıdospor maquinas
Esto significa que las maquinas puedan hacer mas trabajo derazonamiento
Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 8 / 66
El principio
La WWW fue creada por Sir Tim Berners-Lee en 1991
Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 9 / 66
El principio
Figura: El primer browser WWW
Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 10 / 66
Semantic Web (La Red Semantica)
La RS entrelaza datos entre sistemas o entidades permitiendointerrelaciones ricas y auto-descriptivas de datos disponibles en la web
Existe gran cantidad de datos en texto libre y no en documentosHTML
La RS busca:
utilizar procesos de IA, haciendo que la red “razone” utilizando losdatos existentes en la redalentar a companıas, organizaciones e individuos a publicar sus datosgratuitamente y siguiendo un formato estandar abiertoalentar a los negocios a usar los datos que ya estan disponibles en lared (data give/take)tomar la informacion publicada en documentos HTML en diferentessitiospermir que los modelos de datos traten a los datos como si estuvieranen una sola BD
Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 11 / 66
LinkedData y Red Semantica
LinkedData es escencial para conectar la RS. LD sigue 4 reglas:
1 identificacion de objetos mediante URIs2 uso de URIs HTTP3 informacion en forma ”LinkedData”4 creacion de ligas en otros sitios
0http://www.w3.org/DesignIssues/LinkedData.htmlDra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 12 / 66
¿Como hacer que las computadoras actueninteligentemente?
1 Lograr que las computadoras puedan procesar informacion sobre elmundo en toda su complejidad. E.g. entender el lenguaje humano (IAtradicional)
2 Simplificar la descripcion del mundo a un nivel que hasta lascomputadoras mas tontas sean capaces de actuar “inteligentemente”basandose en esta descripcion. (tecnologıa semantica)
3 La RS es una vision de la futura WWW que tendra sus datos (o partede estos) en esta forma simplificada en vez de en lenguaje humanoplano
0Artem Katasonov, Uni.o.JyvaskylaDra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 13 / 66
El triangulo de Ogden (de significado)
0Ogden & Richards, 1923Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 14 / 66
Sustento conceptual de la RS
Representacion del conocimiento: como describir el mundo enterminos abstractos de forma sencilla para entender la realidadcompleja
Calculando con conocimiento: el esfuerzo para construir maquinariasde razonamiento que puedan dar conclusiones significativas delconocimiento codificado
Intercambio de informacion: transmision de recursos de informacioncompleja entre computadoras que permita distribuir, interconectar, yreconciliar conocimiento en una escala global
Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 15 / 66
Representacion del conocimiento
El principio del modelado cientıfico
Platon (429-347 AC): ¿Que es la realidad? ¿Que cosas se puede decirque “existen”? ¿Cual es la verdadera naturaleza de las cosas?
Taxonomıas, ontologıas
Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 16 / 66
Representacion del conocimiento (2)
En la RS se agraga logica al web, i.e., los medios para:
Usar reglas de inferenciasEscoger cursos de accionResponder a preguntas
El lenguaje de las reglas debe ser lo suficientemente expresivo pararazonar lo mas ampliamente posible
La RS debe proveer un lenguaje que exprese los datos y las reglaspara razonar acerca de los datos y que permita a las reglas de otrossistemas ser exportados al web
Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 17 / 66
Modelado semantico
Vocabulario: conjunto de terminos con un significado bien definido yconsistente en diferentes contextos
Ontologıa:
Permite definir las relaciones contextuales detras del vocabulariodefinidoDefine el dominio de conocimiento.Expresado en lenguaje OWL (Ontology Web Language)
Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 18 / 66
Definiciones de “ontologıa”
En Filosofıa: es el estudio de la existencia, tal cual y de las clases yrelaciones fundamentales de las cosas que existen
En CC: descripcion del conocimiento de cierto dominio. El nucleo delo que es una especificacion procesable por las maquinas con unsignificado formalmente definido
En AI y web: es un documento o archivo que define formalmente lasrelaciones entre terminos: la mas simple contiene una taxonomıa y unconjunto de reglas de inferencia
Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 19 / 66
Ejemplo: ontologıa biomedica
Las ontologıas biomedicas se han desarrollado para expresar datos deforma que puedan ser leıdos por las computadoras, compartidas entreexperimentos y fuentes de datos para adaptarse a la proliferacion deinformacion nueva y abundante
0GO (Gene Ontology)Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 20 / 66
Ontologıa biomedica
0UMLSDra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 21 / 66
Forma de hacer biologıa/bioinformatica
Pocas ecuaciones y pocos axiomas (en comparacion con otras cienciascomo fısica)
No se puede tomar la secuencia de un amino acido, introducir unaecuacion y obtener un resultado biologico
Se hacen busquedas de similitud: este tipo de trabajar “basado enconocimiento” es comun en biologıa
Se tiene que recolectar la informacion y crear los modelos
Esta informacion se debe organizar
0Robert Stevens, BioHealth Informatics Group, UofManchesterDra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 22 / 66
Ejemplo de LD en biologıa
0Susie Stephens,J Phil Brooks, Eli LillyDra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 23 / 66
Futuro de LOP y la RS
“El argumento filosofico de la red semantica - el mundo deberıa tenermas sentido del que tiene- es dificil de argumentar. La red semantica,con sus ontologıas ordenadas y sus silogismos logicos, es una visionagradable. Sin embargo, como muchas visiones que proyectanbeneficios futuros pero ignoran costos, requiere de muchacoordinacion y energıa para ser efectiva en el mundo real...”Clay Shirky
Beneficios: aunque haya mas trabajo al principio para crear una BDsemantica, los beneficios de integracion entre dominios alrededor delmundo, ahorraran dinero, tiempo, y se ganara mayor conocimiento deforma altamente significativa.
La Comision Europea dio 6.5m de euros al proyecto LOD2 (de 2010 a2014) para continuar con el proyecto ”Linking Open Data“
Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 24 / 66
Reglas de inferencia y ontologıas
La reglas de inferencia dan mayor poder a las ontologıas. Ejemplo:
Una ontologıa puede expresar la regla “si el codigo de una ciudad seasocia con el codigo de un estado, y una direccion usa ese codigo deciudad, entonces esa direccion contiene el codigo del estado asociado”
Deduccion: la direccion de una universidad en Cornell que seencuentra en Ithaca, debe estar en el estado de New York, en losEEUU
Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 25 / 66
Ontologıas y vocabularios
Dublin Core Metadata Initiative (DCMI): ontologıas paradiferentes areas, particularmente terminos cotidianos (para los mediosde comunicacion)
Friend Of A Friend (FOAF): vocabularios/ontologıas estandar pararedes sociales
OpenCyc: Ontologıa de terminos de sentido comun y cotidianos
Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 26 / 66
Tecnologıas de la RS
Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 27 / 66
Tecnologıas de la RS
Dos tecnologıas importantes para el desarrollo de la RS son:
XML (eXtensible Markup Language):
Permite crear etiquetas propias que pueden ser usadas por programasPermite agregar una estructura arbitraria a los documentos, pero nodice nada sobre que significa esa estructura
RDF (Resource Description Framework):
Expresa el significado de esa estructura codificado en conjunto detriplas: sujeto, verbo y objeto de una oracion basicaLas triplas se pueden escribir con etiquetas XML
Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 28 / 66
RDF (2)
En RDF un documento hace afirmaciones de que algo (e.g. gente)tiene propiedades (e.g. “es hijo de”) con ciertos valores (e.g. otrapersona):
Sujeto del enunciadoPredicado del enunciado: recursos o constantesObjeto referenciado por los predicados de los recursos
Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 29 / 66
Ejemplo en biologıa
0Susie Stephens,J Phil Brooks, Eli LillyDra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 30 / 66
Ventajas de usar RDF
Las triplas son una forma natural de expresar la mayorıa de datosprocesados por las maquinas
El sujeto y el objeto se representan con el Identificador de RecursosUniversal (URI)
Los verbos tambien se representan con URIs
Se puede crear un nuevo concepto o verbo tan solo creando un nuevoURI para este en la web
URIs aseguran que los conceptos no solo sean palabras en undocumento, sino que esten asociados a una definicion unica a la quetodos tengan acceso en la web
Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 31 / 66
Ejemplo de RDF con URIs
Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 32 / 66
RDF correspondiente
Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 33 / 66
Agentes
Programas que recolectan contenido en diferentes recursos de la web,procesan la informacion e intercambian esa informacion con otrosprogramas
La RD promueve esta sinergia: cuando los datos incluyen semantica,los agentes disenados para trabajar juntos o separados, puedenintercambiar informacion
Una faceta importante de los agentes es el intercambio de “pruebas”escritas en el lenguaje unificado de la RS (inferencias logicas conreglas y ontologıas)
Los agentes buscan y extraen informacion en los nodos del LinkedData
Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 35 / 66
Tipos de agentes
Basados en metas: toma de decisiones basada en objetivos (no enreglas), no solo en percepciones
Reflejo simple: actuan basandose en sus percepciones actuales
Reflejo con estado interno: actuan basandose en sus percepcionesactuales y en historias parciales
Basado en ganancias (utilidades): estiman el grado de satisfaccionde un estado para la toma de decisiones
Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 36 / 66
Ejemplos de agentes en la RS
Un agente de indexacion de la web que convierta documentos aconocimiento formal para la RS
Un agente que use las bases de conocimiento formales de la RS parareservar vacaciones o hacer citas medicas
Un sistema multi-agente capaz de actuar en su propia comunidadpara construir y mantener datos adicionales del LinkedData
Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 37 / 66
Ejemplo
Es un sistema de un solo agente con dos parametros de entrada:nombre de un objeto y nombre de una de sus propiedades
El agente busca el valor de la propiedad entre los datos de DBpedia
0www.ibm.com/developerworks/web/library/wa-intelligentage/Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 38 / 66
Base de datos grafica
0http://linkeddata.orgDra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 40 / 66
Base de datos grafica
Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 41 / 66
Ejemplo de modelado semantico
Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 42 / 66
Ejemplo de distribucion de datos en la web
Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 43 / 66
Distribucion de datos por filas
Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 44 / 66
Distribucion de datos por columnas
Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 45 / 66
Distribucion de datos por celdas
Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 46 / 66
Representacion en triplas
Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 47 / 66
Representacion grafica de triplas
Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 48 / 66
Triplas de las obras de Shakespeare
Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 49 / 66
Triplas de las obras de Shakespeare en UK
Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 50 / 66
Triplas de las obras de Shakespeare
Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 51 / 66
Triplas de las partes de UK
Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 52 / 66