Uso de Tecnologías Semánticas para la Integración de Recursos de Información en una Memoria Corporativa

Embed Size (px)

DESCRIPTION

En este artículo se presenta un marco de trabajo apoyado en las tecnologías semánticas para la integración de recursos de una memoria corporativa. Se describe la metodología adoptada para la integración de recursos, así como un prototipo que muestra la viabilidad del enfoque semántico.

Citation preview

  • Uso de Tecnologas Semnticas para la Integracinde Recursos de Informacin en una Memoria

    Corporativa

    Erik Alarcn-ZamoraDepartamento de Ingeniera ElctricaUniversidad Autnoma Metropolitana

    Iztapalapa, MxicoEmail: [email protected]

    R. Carolina Medina-RamrezDepartamento de Ingeniera ElctricaUniversidad Autnoma Metropolitana

    Iztapalapa, MxicoEmail: [email protected]

    Hctor Prez-UrbinaClark & Parsia, LLC

    Washington, USAEmail: [email protected]

    ResumenEn este artculo se presenta un marco de trabajoapoyado en las tecnologas semnticas para la integracin derecursos de una memoria corporativa. Se describe la metodologaadoptada para la integracin de recursos, as como un prototipoque muestra la viabilidad del enfoque semntico.

    I. INTRODUCCIN

    Una organizacin tiene una amplia variedad de recursos deinformacin, por ejemplo, personas, bases de datos, documen-tos, reportes, presentaciones, vdeos, entre otros. Estos recursosrepresentan el conocimiento de la organizacin: productos,investigaciones, procesos de produccin, soluciones operacio-nales, flujos de trabajo, objetivos, metas, entre otros. Esteconocimiento se denomina memoria corporativa (MC) y sedefine como "la representacin explcita, consistente y persis-tente del conocimiento en una organizacin" [1]. Una memoriaes importante para las personas adscritas o interesadas enla organizacin, porque sta les permite acceder, compartir,intercambiar y reutilizar el conocimiento. Dada la importanciade una memoria, es necesario una gestin del conocimientode la misma, para tener las siguientes ventajas: un personalmejor informado, mayor comunicacin en la organizacin, unaherramienta para el aprendizaje, una base de conocimientopersistente, un instrumento para bsqueda, recuperacin eintercambio de conocimiento, por mencionar algunas.

    Las tecnologas semnticas [2] son un conjunto de meto-dologas, lenguajes, aplicaciones, herramientas y estndarespara suministrar u obtener el significado de la informacin1.stas agregan una capa de abstraccin en las fuentes deinformacin, para que los procesos automticos puedan ac-ceder, procesar, razonar, combinar, reutilizar y compartir lainformacin. Los beneficios de emplear estas tecnologas son:captar la visin de contextos particulares, adaptarse a la na-turaleza cambiante del conocimiento, considerar la naturalezadistribuida del conocimiento y de los usuarios, integrar desdedistintas fuentes de informacin, modelar la informacin en unformato estndar, utilizar un modelo de datos flexible, eliminarambigedades en el modelo, inferir sobre el conocimiento,desarrollar aplicaciones genricas, implementar a menor costoy mayor interaccin de los expertos en el dominio.

    1Lee Feigenbaum Bio, "Semantic Web vs. Semantic Technologies," Availa-ble: http://www.cambridgesemantics.com/semantic-university/semantic-web-vs-semantic-technologies

    Las tecnologas semnticas permiten representar y ges-tionar el conocimiento en una memoria corporativa. En par-ticular, permiten hacer el proceso de integracin (bsqueday recuperacin) de informacin significativa de los recursosen una memoria corporativa. Para lograr esta integracin,se deben efectuar las siguientes actividades: 1) modelar elconocimiento de los recursos en un formato estndar, 2)explotar el conocimiento implcito de los recursos y describirel vocabulario (conceptos y relaciones) de la memoria, y 3)buscar y recuperar la informacin sobre los recursos, pararesponder una pregunta dada.

    Una memoria corporativa tiene mltiples recursos de in-formacin y para limitar stos a un conjunto manejable, sehace un anlisis para detectar los casos de uso prioritarios.Este artculo describe dos casos de uso bsicos que se puedenemplear en cualquier memoria corporativa:

    1. Cartografa de Competencias: consiste en la bs-queda y recuperacin de informacin significativa delas personas, a partir de las caractersticas personalesy profesionales de las mismas. Algunas de estascaractersticas profesionales son: competencias profe-sionales (capacidad de trabajar en equipo, habilidadde liderazgo, por mencionar algunas), habilidades lin-gsticas (leer en ingls, escribir en espaol, hablar enfrancs), conocimientos en los temas del dominio dela memoria corporativa (sistemas operativos, radioscognitivos, por mencionar algunos.), entre otras.

    2. Bsqueda de Recursos Digitales: consiste en labsqueda y recuperacin de informacin significativade los documentos y archivos multimedia a partir delcontenido de los mismos. Algunos de los parmetrosde bsqueda de stos son: el autor, la extensin(pdf, doc, wav, etc.), los temas que trata el recurso(sistemas operativos, ontologas, radios cognitivos,por mencionar algunos), entre otros.

    En este artculo, se representa e integra la memoria cor-porativa del rea de Redes y Telecomunicaciones (RyT) dela Universidad Autnoma Metropolitana (UAM). Los recursosde esta memoria representan las investigaciones, colaboracio-nes, proyectos, cursos y temas de inters de los profesores-investigadores del rea RyT.

  • Este artculo se organiza de la siguiente manera: la seccinII presenta nuestra metodologa para la integracin semnticade recursos en una memoria corporativa. Esta seccin se divideen seis subsecciones. La subseccin A describe de manerageneral la metodologa y las tres etapas generales de la misma(representacin, explotacin y consulta del conocimiento delos recursos). La subseccin B muestra nuestra arquitectura.La subseccin C describe el marco de descripcin de recursos(RDF) para representar (modelar) el conocimiento explcitode los recursos. La subseccin D describe los axiomas y lamanera de explotar el conocimiento implcito de los recursos.La subseccin E explica el lenguaje de consulta, para interrogarel conocimiento en el modelo. La subseccin F describe lafinalidad del prototipo para la integracin semntica. En laseccin III se describen la pruebas y resultados (desempeo ycalidad de las respuestas) que se hicieron al triplestore Jena2 ya nuestro modelo. Finalmente, las conclusiones sobre la inte-gracin semntica y sobre los resultados de la experimentacinse presentan en la seccin IV.

    II. INTEGRACIN SEMNTICA DE RECURSOS

    La Integracin Semntica de Recursos (ISR) es el proce-so de bsqueda y recuperacin significativa de informacinexistente en los recursos de informacin (documentos) queestn residentes en algn medio de almacenamiento. Se basaen el uso de tecnologas semnticas. La finalidad de estaintegracin es recuperar documentos vinculados que respondana una pregunta hecha por un usuario. En este artculo, laintegracin ISR se efecta en una memoria corporativa (MC),porque esta ISR considera algunas caractersticas importantesde una memoria corporativa como: el crecimiento explosivo derecursos, heterogeneidad en formato, contenido y estructura delos recursos, ambigedades en la informacin, evolucin delconocimiento en los recursos (agregar, eliminar, modificar orenovar), entre otras. Los principales usuarios en la ISR sonlos expertos y personas que se vinculan al dominio de la MC.

    A. Propuesta

    Nuestra propuesta es una metodologa para desarrollar laintegracin semntica de recursos (ISR) en una memoriacorporativa (MC). Esta metodologa considera dos casos deuso, sin embargo sta puede extenderse a otros casos de uso.Tambin esta metodologa se puede emplear en cualquier MC,por ejemplo, Biomdica, Qumica, Biologa, entre otras, yaque stas estn compuestas por recursos de informacin quepueden ser integrados, para responder las preguntas de losusuarios. Nuestra metodologa contempla tres etapas generales:

    1. Representacin del conocimiento en los recursos:consiste en modelar el conocimiento explcito de losrecursos en un formato estndar.

    2. Explotacin del conocimiento sobre los recursos:consiste en emplear reglas de inferencia para explotarel conocimiento implcito.

    3. Consulta de informacin sobre los recursos: consisteen interrogar al modelo de conocimiento a partirde una pregunta de un usuario y responder coninformacin sobre los recursos.

    2The Apache Software Foundation, Apache Jena, Available: http://jena.apache.org/

    B. Arquitectura

    La arquitectura que presentamos en la Figura 1, se disecon base en el modelo de tres capas (nivel usuario, nivelnegocio, nivel de datos):

    En el nivel de usuario, se tiene un conjunto de servletsy pginas web estticas que proporcionan la interfazvisual para que los usuarios hagan sus preguntas yvisualicen las respuestas. Las pginas estticas son unconjunto de formularios para que el usuario escriba lainformacin que desea buscar. Mientras, los servletsen este nivel son los mecanismos para visualizar lainformacin.

    En el nivel de negocios, un servlet transforma lainformacin del formulario a consultas SPARQL einvoca al triplestore. Este ltimo se encarga de hacerlas siguientes actividades: 1) solicitar y cargar laontologa 2) hacer inferencia a partir de la ontologay un razonador, y 3) consultar la informacin en elmodelo a partir del motor de bsqueda y la consultaen SPARQL.

    En el nivel de datos (conocimiento), la ontologaes la base de conocimiento sobre los recursos; lasdescripciones son la representacin del conocimientoexplcito, mientras los axiomas permiten aprovecharel conocimiento implcito.

    Jena

    User Interface

    Query Engine

    Reasoning

    Ontology

    Description

    Axiom

    User Level

    Business Level

    Data level (Knowledge)

    SPARQL Query Result Set

    Set of triplets

    Figura 1. Arquitectura general para la Integracin Semntica de Recurso enuna Memoria Corporativa.

    Las herramientas para desarrollar los componentes de laarquitectura, se describen en las subsecciones C, D, E y F.

    C. Representacin del Conocimiento

    Las tecnologas semnticas proponen al marco de tra-bajo RDF3 (Resource Description Framework) para la re-presentacin del conocimiento de los recursos en un for-mato estndar [3]. El primer paso en esta representacines establecer un identificador nico (URI) para cada unode los recursos en la memoria corporativa, con la fina-lidad que no exista ambigedad entre stos. Por ejem-plo, al recurso Hacia una bsqueda semntica se le

    3W3C, RDF 1.1 Concepts and Abstract Syntax, Available: http://www.w3.org/TR/rdf11-concepts/

  • asigna la siguiente URI: http://arte.izt.uam.mx/ontologies/digiResourceRyT.owl#Hacia_busqueda_semantica

    El siguiente paso es representar a los recursos mediantesus propiedades (caractersticas bsicas o metadatos) y losvalores asignados a ellas; esta representacin se conoce comodescripcin de los recursos. Cada propiedad (ttulo, autory lenguaje fuente) tiene un identificador nico (URI) comonombre. En la escritura de este nombre, se escribe un verboen tercera persona y tiempo presente (tiene, es, conoce,entre otros) antes del metadato. Por ejemplo, la propiedadttulo tiene la siguiente URI: http://arte.izt.uam.mx/ontologies/digiResourceRyT.owl#tiene-titulo.

    Para reducir el tamao del identificador (URI) de losrecursos y las propiedades, se sustituye la secuencia de ca-racteres desde "http://www" hasta el smbolo "#" por unprefijo. En nuestro caso de estudio, el prefijo sirp se tradu-ce en http://arte.izt.uam.mx/ontologies/digiResourceRyT.owl#.Por ejemplo, la propiedad ttulo se escribe sirp:tiene-titulo.Existen otros prefijos preestablecidos para otros vocabularios,por ejemplo: rdf, xsd, rdfs y owl.

    Las propiedades de los recursos y sus respectivos valores sellevan a un formato estndar, que en este marco se denominaterna (triple) [3]. El conjunto de todas las ternas RDF sobrelos recursos de un dominio, se denomina componente asertivo(ABox) [4]. Una terna se forma por un sujeto, un predicadoy un objeto; el sujeto es el identificador del recurso que sedescribe, el predicado es el identificador de la propiedad, yel objeto es o bien una Literal (cadena, entero), o bien elidentificador de otro recurso. Un ejemplo de terna se muestraa continuacin. Los recursos suelen agruparse en clases. Paradecir que cierto recurso pertenece a una clase se utiliza la terna:sirp:recurso rdf:type sirp:Clase. En la representacin delconocimiento, se pueden emplear vocabularios preestablecidospara las caractersticas de los recursos, como el dublin core.Sin embargo, este ltimo no proporciona algunos metadatosque se requieren para describir los recursos persona.

    Hay diferentes manera de escribir las ternas, desde lomanual escribiendo literales e identificadores en un editorde texto, hasta lo automatizado utilizando herramientas quemapean la informacin a ternas RDF [5] ejemplos de estas he-rramientas son: GATE4, RDF1235, entre otras. La herramientaque elegimos para administrar las ternas RDF, es el triplestoreApache Jena [6], porque proporciona lectura, procesamientoy escritura de ternas en distintos formatos (XML/RDF, N-triples, Turtle), adems este triplestore se puede utilizar con ellenguaje de programacin Java. Un triplestore es un sistemaque tiene dos funcionalidades bsicas: el almacenamiento yacceso de las ternas RDF. Existen otros triplestore [7], porejemplo: Stardog6, Sesame7, entre otros.

    D. Explotacin del Conocimiento

    Hemos descrito cmo el marco RDF permite modelar elconocimiento explcito de los recursos (modelo de datos). Estemodelo de datos se enriquece con la introduccin de axiomas

    4University of Sheffield, GATE, Available: http://gate.ac.uk/projects.html5Ebiquity, RDF123, Available: http://ebiquity.umbc.edu/project/html/id/

    82/RDF1236Clark & Parsia LLC, Stardog, Available: http://stardog.com/docs/7Aduna, Sesame, Available: http://www.openrdf.org/about.jsp

    [8], que permiten completar, extender, renovar y adaptar elconocimiento de los recursos. Para identificar estos axiomas,se analizan las clases/propiedades y se hacen preguntas so-bre stas: qu clases/propiedades se pueden agrupar en otraclase/propiedad respectivamente, qu clases y propiedades sonsinnimos, qu clases o clase-literal relaciona una propiedad,la propiedad es una relacin simtrica, transitiva, reflexiva, slopor mencionar algunas preguntas. En nuestro caso de estudio,empleamos los siguientes axiomas:

    Subclase y Subpropiedad permiten establecer jerarquasentre las clases (Figura 2) y propiedades (Figura 3) respecti-vamente.

    Figura 2. Jerarqua de Clases sobre los recursos digitales de la memoriacorporativa (RyT) vistas con protg.

    Figura 3. Jerarqua de Propiedades de los recursos digitales en la memoriacorporativa (RyT) vistas con protg.

    Dominio y Rango permite establecer qu clases o clase-literal, debe relacionar una propiedad (Figura 4).

    Domain Rangesird:has-languageSource

    sird:publishedInJournal

    sird:has-publishingHouse

    sird:has-institutionInvolved

    Figura 4. Dominio y Rango de las propiedades de los recursos digitales enla memoria corporativa (RyT) vistos con protg.

    Existen otros axiomas, como son Clases equivalentes, Cla-ses disjuntas, Propiedad Simtrica, slo por mencionar. Lasfuncionalidades y ejemplos de stos se pueden encontrar en laliteratura [4], [9].

  • Los axiomas se representan en forma de ternas y loslenguajes estndar para escribir axiomas son: RDF Schema8(RDF(S)) y el Web Ontology Language9 (OWL). Existendistintas herramientas para escribir los axiomas en forma deterna con el vocabulario adecuado [10], [11], por ejemplo:protg10, TopBraid11, por mencionar algunas. La herramientaque nosotros elegimos es protg, porque es una platafor-ma que proporciona un interfaz agradable al usuario [12],permitiendo a ste la creacin, manipulacin y visualizacinde los axiomas. Adems esta herramienta permite guardarlos axiomas en diferentes formatos (XML/RDF, Manchester,Turtle, OWL/XML).

    El conjunto de axiomas que enriquecen el modelo, sedenomina componente terminolgico (TBox). El modelo deconocimientos conformado por TBox y ABox, se denominaontologa [13]. En esta propuesta, los dos casos de uso sonindependientes, por lo tanto, se decidi que cada uno destos tenga su propia ontologa. Un objetivo en comn paralos casos de uso es vincular los recursos con los temas deldominio de la memoria corporativa. Para ello, se proponeuna tercera ontologa que tiene el vocabulario del dominio.En nuestro caso de estudio, la ontologa es el vocabulario deRedes y Telecomunicaciones (RyT) que se desarroll a partirde otra ontologa ODARyT [14]. Nuestra ontologa vocabulario(ODARyT4sir) est constituida por 303 que estn organizadosen cuatro ramas principales: Distributed Systems, Networkingand Telecommunication, Digital Communication Systems ySemantic Web.

    Una ontologa tiene ternas sobre el conocimiento expl-cito (descripciones de recursos) y el conocimiento implcito(axiomas). Es posible explotar el conocimiento implcito enuna ontologa a travs de un razonador, que es un programapara inferir hechos o asociaciones a partir del conocimientoexistente (axiomas y propiedades) [15]. Por ejemplo, se tieneun ABox con la siguiente descripcin: el recurso "Hacia unabsqueda semntica" es un artculo y un TBox con el siguienteaxioma: la clase Artculo es subclase de la clase Documento;empleando un razonador con este ABox y TBox, se infierela siguiente descripcin: el recurso "Hacia una bsquedasemntica" es un documento. Hay distintos razonadores [15],[16], por ejemplo: Pellet12, Fact++13, por mencionar algunos.En este artculo, se utiliz el razonador que trae por defaultJena, porque ste se puede invocar desde Java+Jena, soporta losaxiomas de nuestra ontologa (RDF(S) y OWL) y no requiereuna configuracin o compilacin previa para utilizarse. Porotro lado, un razonador es una herramienta para validar elmodelo de conocimiento, porque permite encontrar contradic-ciones o ambigedades. Nosotros verificamos la consistenciade nuestros modelos, mediante un programa en Java y Jena queverificar si el modelo tiene o no contradicciones. En nuestrosmodelos el programa no encontr contracciones.

    8W3C, RDF Vocabulary Description Language 1.0: RDF Schema, Avai-lable: http://www.w3.org/TR/2004/REC-rdf-schema-20040210/

    9W3C, OWL 2 Web Ontology Language Structural Specification andFunctional Style Syntax, Available: http://www.w3.org/TR/owl2-syntax/

    10Stanford Center, Protg, Available: http://protege.stanford.edu/11TopQuadrant, TopBraid Composer, Available: http://www.topquadrant.

    com/products/TB_Composer.html12Clark & Parsia LLC, Pellet: OWL 2 Reasoner for Java, Available: http:

    //clarkparsia.com/pellet/13Dmitry Tsarkov, Fact++, Available: http://owl.man.ac.uk/factplusplus/

    Nuestra ontologa de recursos digitales modela el cono-cimiento de 1330 recursos digitales. En este modelo, 691recursos tienen explcitamente la terna de asignacin (rdf:type)a una de las nueve clases bsicas: Artculo, Reporte Tcnico,Pgina Web, Tesis, Libro, Audio, Vdeo, Imagen y Presenta-cin. Mientras, los otros 639 recursos por inferencia pertenecena alguna de las clases bsicas. La Figura 5 muestra la ontologavista como diagrama de Venn; los crculos son las clases delos Recursos Digitales y los puntos son los recursos.

    Document

    Multimedia

    Paper

    Thes isTechnical

    ReportBook

    Webpage

    Audio

    Image

    Video

    Presentation

    Digital Resource

    Figura 5. Diagrama de Venn de la ontologa de recursos digitales.

    E. Consulta de informacin

    Para hacer bsqueda y recuperacin de la informacin enuna ontologa, es necesario tres cosas: 1) una pregunta enlenguaje natural, 2) una consulta basada en triples y 3) unmotor de consulta.

    En el primer punto, del anlisis de los casos de uso, seidentifican y escriben en lenguaje natural las preguntas quelos usuarios quieren hacer al modelo. En nuestro caso deestudio, se obtuvieron 10 preguntas (Tabla I) para la bsquedade recursos digitales. Una de estas preguntas es: (1)... Qudocumentos sirven para dar un curso de Sistemas P2P?

    En el segundo punto, las tecnologas semnticas establecenal lenguaje SPARQL14 como especificacin para consultar,recuperar y modificar la informacin de ternas RDF. Estelenguaje se basa en patrones de bsqueda, que son comparadoscon las ternas del modelo. Un patrn de bsqueda es parecidoa una terna, pero a diferencia de sta, el sujeto, la propiedad oel objeto pueden ser una variable. En una consulta SPARQL,hay dos clusulas: la clusula SELECT enuncia las variablesresultado y la clusula WHERE enuncia los patrones decomparacin. La consulta SPARQL para la pregunta (1) es:

    SELECT ?title ?pathWHERE{?x rdf:type sird:Document;

    sird:has-topic redes:Peer_to_Peer_System;sird:has-title ?title;sird:has-filePath ?path.}

    14W3C, SPARQL 1.1 Overview, Available: http://www.w3.org/TR/sparql11-overview/

  • Un motor de consulta SPARQL es el programa para res-ponder las consultas de los usuarios. La funcin bsica deste es: interpreta una consulta SPARQL, compara los patronescon las ternas del modelo, recupera la informacin asociadasa las variables que estn en la clusula SELECT y regresala informacin al usuario. Un motor de consulta se puedeencontrar en un triplestore. En particular, Jena posee el motorde consulta (ARQ). Este motor recupera los resultados de unaconsulta para mostrarlos en pantalla en forma de una tabla opara procesar estos resultados con Java.

    F. Prototipo (interfaz de usuario)

    La integracin semntica de recursos (ISR) utilizando untriplestore, no es una tarea que cualquier usuario puede hacer,ya que ste debe estar familiarizado con el triplestore, ellenguaje de consulta SPARQL y las ternas RDF. Nosotrosproponemos una interfaz para la interaccin transparente yamigable del usuario con el triplestore; esta interfaz tiene lassiguientes caractersticas: 1)permitir a los usuarios, navegara travs de la informacin bsica de los recursos, 2)permitira los usuarios, hacer bsquedas especficas de los recursos,3)publicar los resultados de la bsqueda y navegacin enun formato visual agradable, 4)mapear la pregunta a larespectiva consulta SPARQL, as como 5) invocar al triplestore(carga, inferencia, bsqueda) y proporcionar a ste la consultaSPARQL.

    Nuestro prototipo de interfaz es una aplicacin web quetrabaja con el triplestore Jena, este prototipo se implementcon Java y proporciona un conjunto de servlets que estn enun servidor Tomcat. El prototipo proporciona las siguientesinterfaces visuales: navegacin a travs de las personas, nave-gacin a travs de los documentos, navegacin a travs de losrecursos multimedia, bsqueda avanzada de personas, bsque-da avanzada de documentos, bsqueda avanzada de recursosmultimedia, bsqueda avanzada sobre cualquier recurso. LaFigura 6 muestra la interfaz web de navegacin a travs delas personas.

    Figura 6. Interfaz visual de navegacin a travs de personas.

    III. EXPERIMENTACIN

    En la integracin semntica de recursos, se tienen doscriterios de evaluacin para el triplestore Jena: 1) desempeoy 2) cantidad de resultados para un modelo con inferencia

    (ontologa con razonador) y sin inferencia (descripcionesexplcitas). Para evaluar el desempeo de Jena, queramos verel rendimiento de sta con la cantidad de datos que esperamosmanejar. En la evaluacin de resultados, queramos ver si losresultados devueltos por Jena, son los que responden nuestraspreguntas.

    La evaluacin del desempeo, consiste en tomar el tiempopromedio desde que el modelo se carga hasta la recuperacinde los resultados de una consulta. Mientras la evaluacin dela calidad de resultados, consiste en comparar la informacinrecuperada de una consulta SPARQL con los recursos que sesaben responden la pregunta (un anlisis previo). Para haceresto, se hizo un programa en Java+Jena que repite n veces elclculo del tiempo de procesamiento para un modelo y unaconsulta dada, adems en cada iteracin regresa los valores dela consulta. Los tres parmetros de entrada de este programason: el nmero de repeticiones, el tipo de modelo con datosexplcitos o con un razonador y una ontologa y la consultaen SPARQL. Mientras los tres parmetros de salida son: eltiempo promedio de procesamiento de la consulta, el nmerode recursos que responde el motor de bsqueda y las respuestasde la consulta. Nosotros establecimos los siguientes parmetrospara el programa: el nmero de iteraciones n se coloc en 20,los modelos son: 1) el ABox de recursos digitales de RyT y 2)la ontologa recursos digitales y el vocabulario de RyT, y 3)un conjunto de preguntas bsicas, que se enuncian en la TablaI. En esta tabla se muestra el nmero de recursos digitales queresponden a cada una de las preguntas.

    Tabla I. PREGUNTAS EN LENGUAJE NATURAL Y CANTIDAD DERECURSOS QUE RESPONDEN A STAS.

    Id.Consulta Pregunta

    No. deRecursos

    Q1 Cules son los ttulos, rutas, extensin, idioma detodos los recursos digitales de RyT? 1330

    Q2 Cules libros tratan sobre algunos temas de SistemasDistribuidos? 103

    Q3 Qu recursos fueron publicados por la UAM? 18

    Q4 Qu documentos son para dar un curso de SistemasP2P? 31

    Q5 Qu recursos multimedia son mayores al ao 2009? 119Q6 Cules documentos tratan sobre Ontologas? 30

    Q7 Qu recursos fueron publicados en una Revista cien-tfica? 156

    Q8 Qu recursos tienen en su contenido las palabras"linked data"? 159

    Q9 Cules documentos en ingls y mayores al ao 2000son de autora de Erik Alarcn Zamora? 2

    Q10 Cules la tesis de Samuel Hernndez Maza? 4

    Este programa se corri en una computadora con un proce-sador Intel Core I7 a 2.3GHz con 8Gb en RAM y 8 ncleos deprocesamiento. Esta prueba se ejecut usando Java 1.7, con elentorno de desarrollo integrado Eclipse y Apache Jena 2.7.4en Windows 7 (64bits). Nosotros corrimos el programa dosveces para cada pregunta de las lista (Tabla I). En la primeracorrida, el modelo es el ABox, mientras en la segunda corridael modelo es del razonador y la ontologa. En nuestro caso deestudio, la ontologa de recursos digitales tiene 1330 recursosdigitales y las siguientes cantidades de ternas: ABox tiene20429 y TBox tiene 107. Mientras el vocabulario de RyT(ODARyT4sir) tiene 303 conceptos y en el TBox tiene 1115ternas. Mediante el proceso de inferencia y combinando ambasontologas se tiene un total de 38661 ternas. Los resultados de

  • las mediciones del tiempo promedio y la cantidad de respuestaspara cada consulta se muestran en la Tabla II.

    Tabla II. TIEMPO PROMEDIO DE PROCESAMIENTO Y CANTIDAD DERECURSOS QUE RESPONDEN UNA CONSULTA.

    Id. ConsultaModelo (ABox) Modelo (Razonador+Ontologa)

    Tiempopromedio

    (ms)No. Recursos

    Tiempopromedio

    (ms)No. Recursos

    Q1 12 1330/1330 138 1330/1330Q2 10 0/103 194 103/103Q3 8 18/18 406 18/18Q4 28 15/31 129 31/31Q5 7 66/119 157 119/119Q6 9 15/30 4016 30/30Q7 12 156/156 3520 156/156Q8 16 159/159 3472 159/159Q9 42 0/2 3451 2/2Q10 13 3/4 3312 4/4

    En la Tabla II, se muestra la cantidad de recursos queresponden una consulta SPARQL y para verificar que lainformacin de la consulta responde la pregunta, se hizoun anlisis de los recursos que responden cada una de laspreguntas. Despus, se compara manualmente la informacinrecuperada de cada consulta SPARQL con las respuestas de larespectiva pregunta.

    El desempeo de Jena es bueno (menor a 1 segundo)cuando se interroga al conocimiento explcito, porque el motorde consulta interroga directamente los ternas del ABox. Encontraste, Jena consume ms tiempo cuando el modelo esresultado de la inferencia, porque un razonador invierte tiempoen el proceso de inferencia. Si bien Jena no tiene un adecuadodesempeo mediante el uso de un razonador, en un futuropodemos probar otras herramientas que procesan mayor canti-dad de ternas, disminuyan los tiempos de consulta y permitanel uso de un razonador. Ahora bien, para la evaluacin dela calidad de los resultados se tiene lo siguiente: si no seemplea un razonador, varios resultados son omitidos durante elproceso de consulta, ya que algunos recursos no poseen ciertainformacin explcita. Pero, cuando se emplea un razonador,no se pierden respuestas para las consultas, porque ste haceevidente el conocimiento implcito.

    IV. CONCLUSIONES

    Una memoria corporativa es una fuente de conocimientopara una organizacin, si este conocimiento se representaadecuadamente, entonces la integracin de los recursos ten-dr mejores resultados. Nuestra metodologa es una solucingenrica para la integracin semntica de recursos (ISR). Estastecnologas semnticas nos permitieron: 1) modelar, explotar yconsultar al conocimiento sobre los recursos, 2) representar elconocimiento en un formato estndar, 3) utilizar herramientaspara desarrollar aplicaciones semnticas, 4) utilizar y compartirvarios vocabularios, 5) utilizar aplicaciones para explotar elconocimiento, entre otras ventajas.

    En la prueba de desempeo de Jena para el proceso deconsulta, el tiempo promedio es menor a un segundo cuandose hace consultas al ABox. Pero, el tiempo se incrementa (1a 3 segundos) cuando se consulta un modelo por inferenciaen una ontologa. Aunque el desempeo de Jena es aceptable

    para el modelo con inferencia, nosotros creemos que medianteoperaciones de cmputo paralelo o utilizando otro triplestore,se pueden reducir estos tiempos. En la evaluacin de recupe-racin de la informacin, si se utiliza un razonador, entonceshay una mayor posibilidad que los resultados de Jena sean losque respondan las preguntas de los usuarios. Por tanto, a pesarde invertir tiempo en la inferencia, se obtienen resultados mssatisfactorios para los usuarios.

    REFERENCIAS[1] R. Dieng, O. Corby, A. Giboin, and M. Ribire, Methods and Tools

    for Corporate Knowledge Management, INRIA, Tech. Rep. RR-3485,Sep. 1998. [Online]. Available: http://hal.inria.fr/inria-00073203

    [2] S. Alfred, A. Arpah, L. H. S. Lim, and K. K. S. Sarinder, Semantictechnology: An efficient approach to monogenean information retrie-val, in Computer and Network Technology (ICCNT), 2010 SecondInternational Conference on, 2010, pp. 591594.

    [3] S. Bouzid, C. Cauvet, and J. Pinaton, A survey of semantic webstandards to representing knowledge in problem solving situations, inInformation Retrieval Knowledge Management (CAMP), 2012 Interna-tional Conference on, 2012, pp. 121125.

    [4] M. Krtzsch, F. Simanck, and I. Horrocks, A description logicprimer, Computing Research Repository (CoRR), vol. abs/1201.4089,2012. [Online]. Available: http://arxiv.org/abs/1201.4089

    [5] V. Uren, P. Cimiano, J. Iria, S. Handschuh, M. Vargas-Vera,E. Motta, and F. Ciravegna, Semantic annotation for knowledgemanagement: Requirements and a survey of the state of the art,Web Semantics: Science, Services and Agents on the World WideWeb, vol. 4, no. 1, pp. 1428, Jan. 2006. [Online]. Available:http://dx.doi.org/10.1016/j.websem.2005.10.002

    [6] B. McBride, Jena: a semantic web toolkit, Internet Computing, IEEE,vol. 6, no. 6, pp. 5559, 2002.

    [7] H. Mhleisen, T. Walther, and R. Tolksdorf, A survey on self-organizedsemantic storage. International Journal of Web Information Systems(IJWIS), vol. 7, no. 3, pp. 205222, 2011.

    [8] F. Baader, I. Horrocks, and U. Sattler, Description Logics, in Hand-book of Knowledge Representation, F. van Harmelen, V. Lifschitz, andB. Porter, Eds. Elsevier, 2008, ch. 3, pp. 135180.

    [9] M. Horridge, H. Knublauch, A. Rector, R. Stevens, and C. Wroe, APractical Guide To Building OWL Ontologies Using The Protege-OWLPlugin and CO-ODE Tools Edition 1.0, Aug. 2004. [Online]. Available:http://www.co-ode.org/resources/tutorials/ProtegeOWLTutorial.pdf

    [10] T. Aruna, K. Saranya, and C. Bhandari, A survey on ontology eva-luation tools, in Process Automation, Control and Computing (PACC),2011 International Conference on, 2011, pp. 15.

    [11] S. C. Buraga, L. Cojocaru, and O. Nichifor, Survey on Web Onto-logy Editing Tools, Buletinul Stiintific al Universitatii Politehnica dinTimisoara, pp. 16, 2006.

    [12] H. Knublauch, R. W. Fergerson, N. F. Noy, and M. A. Musen,The Protg OWL Plugin: An Open Development Environment forSemantic Web Applications, in The Semantic Web - ISWC 2004, ser.Lecture Notes in Computer Science. Berlin, Heidelberg: SpringerBerlin / Heidelberg, 2004, vol. 3298, ch. 17, pp. 229243. [Online].Available: http://dx.doi.org/10.1007/978-3-540-30475-3\_17

    [13] L. Gandon, Fabien, Ontology Engineering: a Survey and a Returnon Experience, INRIA, Tech. Rep. RR-4396, Mar. 2002. [Online].Available: http://hal.inria.fr/inria-00072192

    [14] A. B. Rios-Alvarado, R. C. M. Ramrez, and R. Marceln-Jimnez,A semantic web approach to represent and retrieve information ina corporate memory, in OWL: Experiences and Directions Workshop(OWLED), 2009.

    [15] S. Singh and R. Karwayun, A comparative study of inferenceengines, in Proceedings of the 2010 Seventh International Conferenceon Information Technology: New Generations, ser. ITNG 10.Washington, DC, USA: IEEE Computer Society, 2010, pp. 5357.[Online]. Available: http://dx.doi.org/10.1109/ITNG.2010.198

    [16] R. B. Mishra and S. Kumar, Semantic web reasoners and languages,Artif. Intell. Rev., vol. 35, no. 4, pp. 339368, Apr. 2011. [Online].Available: http://dx.doi.org/10.1007/s10462-010-9197-3