8
PRISMA: un modelo interactivo de S´ ıntesis de Informaci´ on * Enrique Amig´ o, Julio Gonzalo, V´ ıctor Peinado, Anselmo Pe˜ nas, Felisa Verdejo Dept. de Lenguajes y Sistemas Inform´ aticos - UNED c/Juan del Rosal, 16 - 28040 Madrid - Spain {enrique, julio, victor, anselmo, felisa}@lsi.uned.es Resumen: En este art´ ıculo, describimos un modelo interactivo de resumen orien- tado a s´ ıntesis de informaci´ on (PRISMA). El usuario interact´ ua con el sistema por medio de listas de conceptos clave extra´ ıdos autom´ aticamente. El modelo hace uso de informaci´ on sint´ actica para identificar conceptos clave, organizar y mostrar la informaci´ on. Asimismo, proponemos y aplicamos una metodolog´ ıa de evaluaci´ on de modelos interactivos, que no requiere interacci´on entre el usuario y el sistema final. Palabras clave: ıntesis de Informaci´ on, sistemas interactivos Abstract: In this paper, we describe an information synthesis interactive model (PRISMA). The user interacts with the system by means of automatically extracted key concepts lists. The model uses syntactic knowledge to identify key concepts, to organize and display the information pieces. Also, we propose, and therefore we put into practice, a corpora based methodology of interactive models evaluation. The implementation of this metodology doesn’t need interaction between user and system. Keywords: Information Synthesis, interactive systems 1 Introducci´ on La tarea de resumen multidocumento orien- tado a consulta consiste en producir, a partir de una necesidad de informaci´ on expresada en forma de consulta y un conjunto de docu- mentos, un texto que contenga el m´ aximo de informaci´ on relevante para la consulta en el ınimo de espacio. Se han realizado diversos trabajos a par- tir de corpus orientados a resumen multido- cumento (Over, 2003; Goldstein et al., 2000; Radev, Hongyan, y Budzikowska, 2000). Sin embargo, en todos ellos, la tarea de resumen se plantea desde conjuntos de no m´as de 10 o 20 documentos, y sobre res´ umenes de no m´as de 100 palabras. Abordamos en este art´ ıculo la elaboraci´ on de res´ umenes de 50 frases (in- formes) generados a partir de conjuntos am- plios (100 documentos) de textos relaciona- dos. A esta tarea derivada del resumen mul- tidocumento la denominamos ıntesis de In- formaci´ on. La tarea de resumen depende en gran me- dida de la interpretaci´ on que da el usuario, tanto de la necesidad de informaci´ on como del contenido de los documentos, por lo que existen diversos trabajos que han planteado el problema desde una perspectiva interac- tiva (Boguraev et al., 1998; Buyukkokten, * Este trabajo ha sido financiado por el Ministerio de Ciencia y Tecnolog´ ıa a trav´ es del proyecto HERMES (TIC2000-0335-C03-1) Garc´ ıa-Molina, y Paepcke, 1999; Neff y Coo- per, 1999; Jones, Lundy, y Paynter, 2002; Leuski, Lin, y Stubblebine, 2003). Una ca- racter´ ıstica com´ un en todas estas aproxima- ciones es que se ofrece al usuario una lista de conceptos clave sobre los que interactuar con el sistema. Aunque las listas de conceptos re- levantes son usuales en modelos interactivos de resumen, no se ha evaluado emp´ ıricamente la utilidad de este esquema de interacci´ on, ni tampoco se han comparado distintas estrate- gias de extracci´ on autom´ atica de conceptos clave desde el punto de vista del usuario. A continuaci´ on, describimos un modelo interactivo de resumen orientado a s´ ıntesis de informaci´ on, en el que el usuario inte- ract´ ua con el sistema por medio de listas de erminos que representan conceptos clave, ex- tra´ ıdos autom´ aticamente, utilizando t´ ecnicas de an´ alisis sint´ actico superficial. Adem´ as, proponemos y aplicamos una metodolog´ ıa de evaluaci´ on basada en la descomposici´ on del problema y del modelo interactivo. El art´ ıculo se estructura del modo siguien- te: En el apartado 2, discutimos el mode- lo PRISMA en relaci´ on a otros modelos in- teractivos relacionados. En el apartado 3, describimos el modelo PRISMA y mostra- mos el prototipo implementado. Tras esto, en el apartado 4, ofrecemos algunos detalles del procesamiento sint´ actico empleado en la implementaci´on del prototipo. En el aparta-

PRISMA: un modelo interactivo de S´ıntesis de Información

  • Upload
    lamminh

  • View
    219

  • Download
    2

Embed Size (px)

Citation preview

PRISMA: un modelo interactivo de Sıntesis de Informacion∗

Enrique Amigo, Julio Gonzalo, Vıctor Peinado, Anselmo Penas, Felisa VerdejoDept. de Lenguajes y Sistemas Informaticos - UNED

c/Juan del Rosal, 16 - 28040 Madrid - Spain{enrique, julio, victor, anselmo, felisa}@lsi.uned.es

Resumen: En este artıculo, describimos un modelo interactivo de resumen orien-tado a sıntesis de informacion (PRISMA). El usuario interactua con el sistema pormedio de listas de conceptos clave extraıdos automaticamente. El modelo hace usode informacion sintactica para identificar conceptos clave, organizar y mostrar lainformacion. Asimismo, proponemos y aplicamos una metodologıa de evaluacion demodelos interactivos, que no requiere interaccion entre el usuario y el sistema final.Palabras clave: Sıntesis de Informacion, sistemas interactivos

Abstract: In this paper, we describe an information synthesis interactive model(PRISMA). The user interacts with the system by means of automatically extractedkey concepts lists. The model uses syntactic knowledge to identify key concepts,to organize and display the information pieces. Also, we propose, and therefore weput into practice, a corpora based methodology of interactive models evaluation.The implementation of this metodology doesn’t need interaction between user andsystem.Keywords: Information Synthesis, interactive systems

1 Introduccion

La tarea de resumen multidocumento orien-tado a consulta consiste en producir, a partirde una necesidad de informacion expresadaen forma de consulta y un conjunto de docu-mentos, un texto que contenga el maximo deinformacion relevante para la consulta en elmınimo de espacio.

Se han realizado diversos trabajos a par-tir de corpus orientados a resumen multido-cumento (Over, 2003; Goldstein et al., 2000;Radev, Hongyan, y Budzikowska, 2000). Sinembargo, en todos ellos, la tarea de resumense plantea desde conjuntos de no mas de 10 o20 documentos, y sobre resumenes de no masde 100 palabras. Abordamos en este artıculola elaboracion de resumenes de 50 frases (in-formes) generados a partir de conjuntos am-plios (100 documentos) de textos relaciona-dos. A esta tarea derivada del resumen mul-tidocumento la denominamos Sıntesis de In-formacion.

La tarea de resumen depende en gran me-dida de la interpretacion que da el usuario,tanto de la necesidad de informacion comodel contenido de los documentos, por lo queexisten diversos trabajos que han planteadoel problema desde una perspectiva interac-tiva (Boguraev et al., 1998; Buyukkokten,∗ Este trabajo ha sido financiado por el Ministerio deCiencia y Tecnologıa a traves del proyecto HERMES(TIC2000-0335-C03-1)

Garcıa-Molina, y Paepcke, 1999; Neff y Coo-per, 1999; Jones, Lundy, y Paynter, 2002;Leuski, Lin, y Stubblebine, 2003). Una ca-racterıstica comun en todas estas aproxima-ciones es que se ofrece al usuario una lista deconceptos clave sobre los que interactuar conel sistema. Aunque las listas de conceptos re-levantes son usuales en modelos interactivosde resumen, no se ha evaluado empıricamentela utilidad de este esquema de interaccion, nitampoco se han comparado distintas estrate-gias de extraccion automatica de conceptosclave desde el punto de vista del usuario.

A continuacion, describimos un modelointeractivo de resumen orientado a sıntesisde informacion, en el que el usuario inte-ractua con el sistema por medio de listas determinos que representan conceptos clave, ex-traıdos automaticamente, utilizando tecnicasde analisis sintactico superficial. Ademas,proponemos y aplicamos una metodologıa deevaluacion basada en la descomposicion delproblema y del modelo interactivo.

El artıculo se estructura del modo siguien-te: En el apartado 2, discutimos el mode-lo PRISMA en relacion a otros modelos in-teractivos relacionados. En el apartado 3,describimos el modelo PRISMA y mostra-mos el prototipo implementado. Tras esto,en el apartado 4, ofrecemos algunos detallesdel procesamiento sintactico empleado en laimplementacion del prototipo. En el aparta-

do 5, discutimos la metodologıa de evaluacionpropuesta. Presentamos, en el apartado 6, lospuntos de la metodologıa ya implementados.Por ultimo, introducimos algunas conclusio-nes en el apartado 7.

2 Modelos interactivos deresumen

Las listas de conceptos relevantes extraıdasautomaticamente ya han sido empleadas envarias aproximaciones interactivas para pro-ducir resumenes. En algunas de ellas (Neff yCooper, 1999; Jones, Lundy, y Paynter, 2002;Leuski, Lin, y Stubblebine, 2003) el resumenes generado automaticamente, tomando co-mo entrada los conceptos clave seleccionadospor el usuario a partir de una lista sugeridapor el sistema. A este tipo de aproximacioneslas denominamos CSBIS (Concept SelectionBased Interactive Summarization).

En otros casos (Boguraev et al., 1998; Bu-yukkokten, Garcıa-Molina, y Paepcke, 1999;Rao et al., 1995) el usuario accede a piezas deinformacion organizadas por conceptos clave,refinando ası progresivamente el resumen. Aeste tipo de aproximaciones las denominamosCBBIS (Concept Browsing Based Interacti-ve Summarization). La diferencia fundamen-tal entre este tipo de esquemas y el anterior,consiste en que en modelos CBBIS es el pro-pio usuario el que, en ultima instancia, deci-de que fragmentos de textos son relevantes,mientras que en modelos CSBIS el usuarioactua como asistente y es el sistema el querealiza el resumen a partir de las directricesdel usuario. El modelo PRISMA se ajusta aun esquema de interaccion tipo CBBIS.

En el caso de PRISMA, abordamos la ta-rea de sıntesis de informacion a partir de unconjunto voluminoso de documentos donde esposible aplicar medidas estadısticas no solosobre ocurrencias de palabras, sino tambiensobre el rol sintactico que desempenan. Pre-cisamente, la particularidad de PRISMA res-pecto a otros modelos reside en el uso deconocimiento sintactico para extraer los con-ceptos clave y mostrar al usuario la informa-cion asociada a cada concepto.

En este sentido, PRISMA mantiene variassemejanzas con el modelo propuesto en (Bo-guraev et al., 1998):

• El conjunto de candidatos en el procesode identificacion de conceptos clave vie-ne dado por los sintagmas nominales que

aparecen en el documento.

• El rol sintactico que desempena el sin-tagma nominal es un criterio de seleccionaplicado en el proceso de extraccion deconceptos clave.

• Se muestra al usuario el contexto de losconceptos clave en unidades de informa-cion mas pequenas que la frase completa.

PRISMA y el modelo de Boguraev difierenen la tarea de alto nivel para la que se desti-na el sistema. En el caso de la aproximacionde Boguraev, el objetivo consiste en identi-ficar informacion relevante contenida en ununico documento, mientras que en el caso dePRISMA tratamos el problema de la sıntesisde informacion a partir de un conjunto dedocumentos, lo que conlleva las siguientes di-ferencias:

• En el modelo de Boguraev el rol de su-jeto es solo un criterio mas de seleccionde sintagmas nominales entre otros, co-mo son el numero de referencias al con-cepto o la localizacion en el documento.En PRISMA, se considera unicamente elnumero de apariciones de cada sintagmacomo sujeto sintactico.

• En el modelo de Boguraev se muestrapor orden de aparicion todos los contex-tos en los que aparece el concepto clave.En el caso de PRISMA al partir de unconjunto voluminoso de textos, es nece-sario seleccionar y organizar las piezas deinformacion asociadas al concepto. Enconcreto, se muestran aquellas en las queel concepto aparece como sujeto de unaoracion, ordenadas cronologicamente.

• En PRISMA se ofrece ademas una vistadel contenido completo de un documen-to resaltando la proposicion principal decada una de las frases del texto.

En el siguiente apartado se describe conmas detalle el modelo PRISMA y el prototipoimplementado.

3 Modelo PRISMA

PRISMA puede descomponerse en los si-guientes procesos: visualizacion de la lista deconceptos clave, acceso a piezas de informa-cion asociadas a conceptos clave, visualiza-cion de documentos completos y visualizacion

Figura 3: Secuencia de interaccion en el prototipo PRISMA

Figura 1: Informe elaborado mediante el pro-totipo PRISMA

del informe final, como veremos a continua-cion.

En la figura 3, podemos ver la secuenciade pasos seguidos por un usuario en el inter-faz del prototipo PRISMA durante el accesoa piezas de informacion a partir de una lis-ta de conceptos clave. La figura 2 muestrael contenido de un documento completo taly como se muestra al usuario en el prototipoPRISMA. La figura 1 muestra un hipoteticoinforme generado por un usuario mediante unproceso de extraccion de piezas de informa-

Figura 2: Visualizacion de un documento enel prototipo PRISMA

cion empleando el prototipo.

3.1 Listas de conceptos clave

Como primer paso en el proceso de sıntesis,el usuario introduce una consulta en lenguajenatural. En el ejemplo, la consulta introdu-cida es Invasion de Haitı. A continuacion, elsistema recupera un conjunto de documentosrelevantes aplicando tecnicas de recuperacionde documentos. En el prototipo implementa-do se realiza una busqueda booleana.

En la siguiente fase, el sistema sugiere alusuario una lista de conceptos clave, que son

extraıdos automaticamente a partir de lossintagmas nominales que con mas frecuen-cia aparecen con rol de sujeto sintactico enel conjunto de documentos recuperados, co-mo se muestra en la figura 3.

Los conceptos clave se muestran or-denados por frecuencia y organizadosjerarquicamente por relaciones de subsun-cion. Las jerarquıas de subsuncion permitenal usuario acceder, a partir de un conceptogeneral, a conceptos mas precisos. En elejemplo vemos como EEUU subsume aGobierno de EEUU, presidente de EEUU,embajadora de EEUU y fuerzas armadas deEEUU.

3.2 Acceso a piezas de informacion

En esta fase, el usuario accede a una lista defragmentos asociados al concepto selecciona-do, como se muestra a la derecha en la figu-ra 3. Estos fragmentos se corresponden conproposiciones en las que el termino escogi-do aparece con rol de sujeto. Las oracionesse reducen eliminando las proposiciones su-bordinadas y complementos del nucleo y delverbo, a partir del analizador sintactico su-perficial. Los fragmentos de texto se ordenancronologicamente segun las fechas de los do-cumentos que los contienen.

Considerar la informacion sintactica parala seleccion y visualizacion de piezas de infor-macion asociadas a un concepto permite:

• Seleccionar aquellas piezas en las que elconcepto, al formar parte del sujeto, ad-quiere un papel relevante en la oracion.

• Mostrar de forma organizada las piezasde informacion, facilitando su lectura.

Haciendo clic en uno de los fragmentos seaccede a la oracion completa. La oracion re-ducida aparece subrayada (margen derechoinferior de la figura 3). Como puede verseen la figura, el sistema resalta la partes masimportantes de la frase —el nucleo de sujeto,el verbo y algunos complementos— con el finde facilitar la lectura.

Desde este punto, el usuario puede accederal documento completo o bien seleccionar elfragmento para anadirlo al informe final.

3.3 Visualizacion de documentoscompletos

La figura 2 refleja la forma en que PRIS-MA muestra el contenido de un documento

completo. El subrayado de terminos, frases oparrafos relevantes ha sido tratado en otrostrabajos. El sistema iNeast (Leuski, Lin, yStubblebine, 2003) subraya aquellos fragmen-tos considerados relevantes por el sistema.Los criterios empleados se corresponden conalgunas tecnicas aplicadas en sistemas de Re-sumen Automatico. En otros casos, el subra-yado automatico esta orientado al marcadode terminos claves que constituyen puntosde referencia en el documento (Neff y Coo-per, 1999). La diferencia de PRISMA conrespecto a estas aproximaciones es que nose subraya terminos ni frases completas, si-no unidades intermedias de texto (proposi-ciones). Ademas, en el modelo PRISMA nose presupone que unas oraciones sean mas re-levantes que otras, sino que se facilita la lec-tura de cualquiera de las frases distinguiendosus componentes principales.

Los criterios de PRISMA para la eleccionde la oracion principal dentro de una ora-cion compuesta son: proposiciones principa-les frente a oraciones subordinadas, estructu-ras completas frente a proposiciones sin su-jeto o sin complementos del verbo, y locali-zacion de la proposicion. Una vez seleccio-nada la proposicion, se resalta unicamente elnucleo de sujeto, el verbo y los primeros com-plementos del este.

A partir del marco que muestra el docu-mento completo, el usuario puede seleccionartambien oraciones que considere relevantespara ser incluıdas en el informe final.

3.4 Generacion del informe final

El informe que genera el usuario en el proto-tipo es de tipo extractivo, y contiene oracio-nes completas, seleccionadas desde la lista depiezas de informacion (seccion 3.2) o desdela visualizacion de los documentos completos(seccion 3.3).

Los fragmentos se organizan au-tomaticamente en orden cronologico segunla fecha del documento del que proceden.

4 Procesamiento linguıstico

Para la implementacion del prototipo PRIS-MA ha sido necesaria la realizacion de unanalizador sintactico superficial adaptado almodelo. Partimos de un procesamientolinguıstico robusto y eficiente, de coste li-neal, basado en automatas finitos. Aunqueel procesamiento no ofrece una precision del100%, es suficiente para dar soporte al mode-

lo PRISMA. En primera instancia, se realizauna fragmentacion de las oraciones en seg-mentos que categorizamos del siguiente mo-do:

[ N ] Se trata de sintagmas nominales, quese corresponde con nombres o adjetivosprecedidos de un determinante, signo depuntuacion o inicio de frase.

[ V ] Etiquetamos de este modo las formasverbales.

[ Mod ] Etiquetamos de este modo el restode los sintagmas (adverbiales, preposi-cionales, etc.).

[ Sub ] Etiquetamos ası las conjunciones queintroducen proposiciones subordinadas.

[ P ] Finalmente, los signos de puntuacion seetiquetan como elementos independien-tes.

Para la identificacion de los rolessintacticos, hemos segmentado en primerlugar las oraciones compuestas teniendo encuenta las conjunciones de subordinacion([Sub]). A continuacion, hemos conside-rado como sujetos las secuencias del tipo[N][Mod]* ocurrentes antes del verbo. Porejemplo:

El presidente [N] en funciones [Mod] de

Haitı [Mod] ha afirmado [V] que [Sub]...

Aunque no tenemos en cuenta sujetos deoraciones subordinadas o aquellos que apare-cen en posiciones posteriores al verbo, estaaproximacion asegura, en la mayorıa de loscasos, que el sintagma seleccionado como su-jeto corresponde con el sujeto real de la ora-cion.

5 Metodologıa de evaluacion

La evaluacion de un modelo interactivo de ac-ceso a la informacion mediante el uso del sis-tema correspondiente lleva consigo dos gran-des retos: los experimentos no son replicablesy resultan muy costosos. Por tanto, no es sen-cillo integrar este tipo de evaluacion dentrodel ciclo de vida del desarrollo de un sistema,ya que no podemos experimentar con rapi-dez distintas aproximaciones. En cualquiercaso, este tipo de evaluacion es adecuado co-mo punto final en el proceso de desarrollo.

Sin embargo, es posible obtener eviden-cias sobre la idoneidad de diferentes carac-terısticas del modelo desarrollado, sin quenecesariamente el usuario interactue con elsistema completo. Podemos descomponer lapregunta ¿es util el modelo? en tres: ¿Esapropiado el tipo de modelo propuesto parala tarea?, ¿es capaz el sistema, en funcionde la informacion que pueda aportar el usua-rio, de extraer la informacion que este necesi-ta? (precision y cobertura), y por ultimo ¿semuestra de manera eficiente la informacional usuario?.

5.1 Fuentes de datos

El analisis de datos en esta metodologıa partede las siguientes fuentes:

• Monitorizacion del proceso de realiza-cion de la tarea por parte de sujetos deprueba sin la ayuda del sistema.

• Corpora resultante de la realizacion de latarea por los sujetos sin la ayuda del asis-tente a evaluar. Estos pueden ser, porejemplo, resumenes, seleccion de docu-mentos, piezas de informacion, concep-tos u otros datos generados de forma ma-nual.

• Experimentos parciales orientados a es-tudiar la forma en que la informacion de-be de ser mostrada al usuario.

5.2 Fases en el proceso deevaluacion

La tabla 1 muestra la lista de cuestiones quedebemos plantearnos en el proceso de evalua-cion de PRISMA. A continuacion, mostramosel conjunto de fases que componen la meto-dologıa de evaluacion propuesta, particulari-zando para las cuestiones planteadas.

A. Elaboracion de corpora En nuestrocaso, un grupo de personas ha elaboradocorpora de informes y listas de con-ceptos clave. Ademas, hemos llevado acabo una monitorizacion de las accionesrealizadas por los sujetos durante elproceso de sıntesis sin la ayuda delasistente a evaluar. En el apartado 6.1se describe el proceso de elaboracion dedichos corpora.

B. Adecuacion del modelo a la tareaEn este punto nos cuestionamos si lasfuncionalidades y el conjunto de fases

Cuestion I ¿Es necesario abordar la tarea desıntesis de informacion desde una pers-pectiva interactiva?

Cuestion II ¿Existe relacion entre el proceso desıntesis y el tipo de documentos y temasobre el que se realiza?

Cuestion III ¿Es mas apropiado aplicar un esquemadel tipo CSBIS o CBBIS?

Cuestion IV ¿Juegan los conceptos clave un papelimportante?

Cuestion V ¿Es suficiente un proceso extractivo enla tarea de sıntesis?

Cuestion VI ¿Es util considerar el rol de sintacticopara extraer conceptos clave?

Cuestion VII ¿Es util considerar el rol de sintacticopara identificar piezas de informacionasociadas a un termino?

Cuestion VIII ¿Facilitamos la exploracion de piezasde informacion al reducir estructurassintacticas?

Cuestion IX ¿Facilitamos la lectura de un documen-to resaltando las proposiciones princi-pales?

Tabla 1: Cuestiones planteadas en la evalua-cion de PRISMA

que componen el proceso de interaccionen el modelo propuesto es adecuadopara la tarea. En PRISMA, queremosdar respuesta a las cuestiones I, II, IIIy IV de la tabla 1. Los experimentosrealizados se describen en detalle en(Amigo et al., 2004a). En el aparata-do 6.2 comentamos dichos experimentosy las conclusiones obtenidas.Queda abierta la cuestion de si es sufi-ciente un proceso extractivo para la ta-rea de sıntesis o si es necesario facilitaral usuario la organizacion y edicion el in-forme final (cuestion V).

C. Evaluacion de procesos automaticosde identificacion y extraccion de in-formacion Se evalua en este punto lacapacidad del modelo de dar acceso a lainformacion que el usuario requiere enlas distintas fases de interaccion. Paraello, se parte de los corpora de produc-tos generados manualmente por usuariosde prueba. En el caso de PRISMA, lasfuncionalidades implicadas son:

1. Identificacion de conceptos cla-ve Caracterizamos los conceptosclave identificados manualmentedurante el proceso de sıntesis de in-formacion. Es decir, nos plantea-mos la cuestion VI de la tabla 1.En el apartado 6.3 describimos algu-nos de los experimentos y conclusio-nes, presentados en (Amigo et al.,

2004b).2. Acceso a piezas de informacion

Esta fase darıa respuesta a la cues-tion VII. Actualmente estamos ela-borando experimentos en esta direc-cion.

D. Evaluacion de procesos de visuali-zacion En esta fase se evalua la capaci-dad del sistema de mostrar debidamentela informacion a la que se da acceso. Es-ta evaluacion se realiza a partir de expe-rimentos parciales comparando distintasestrategias de visualizacion. En nuestrocaso, las funcionalidades evaluadas son:

1. Visualizacion de piezas de in-formacion Mostrando a sujetosde prueba fragmentos organiza-dos y reducidos siguiendo criteriossintacticos, podemos comparar elmodelo con la aproximacion de mos-trar fragmentos completos de infor-macion (cuestion VIII). Estos expe-rimentos se encuentran aun en pe-riodo de implementacion.

2. Visualizacion de un documentocompleto Esta evaluacion requie-re experimentos parciales en dondese compare la exploracion de docu-mentos con y sin subrayado (cues-tion IX).

6 Implementacion de lametodologıa de evaluacion enPRISMA

En los siguientes apartados describimos conmas detalle la implementacion de los puntosA, B y C.1 de la metodologıa descrita.

6.1 Elaboracion de corpora ymonitorizacion de la tarea deusuario

Para la evaluacion de PRISMA, 9 sujetos deprueba han elaborado, mediante un interfaz,un corpus de 72 informes y listas de conceptosclave, a partir de 8 conjuntos de documentos.Cada conjunto esta compuesto de 100 docu-mentos relevantes asociados a consultas delcorpus empleado en CLEF 2001-2002 (Peterset al., 2002). Hemos seleccionado las 8 con-sultas con mas documentos relevantes.

El interfaz empleado permite el acceso adocumentos a partir de listas de tıtulos yrecopilacion de frases relevantes a partir del

contenido de los documentos. Hemos moni-torizado el comportamiento de los sujetos deprueba en el proceso de sıntesis.

Para la identificacion de conceptos clave,los sujetos de prueba han respondido a lassiguientes preguntas tras realizar el informe:

• ¿Quienes son las principales personas que participanen el asunto?

• ¿Cuales son las principales organizaciones o institu-ciones involucradas?

• ¿Cuales son los principales factores que actuan en elasunto?

6.2 Adecuacion del modelo a latarea

Hemos estudiado el contenido de los informesy la distribucion de conceptos clave para com-probar en que medida y de que forma, los in-formes del corpus se asemejan entre sı (Amigoet al., 2004a). Los resultados mostraron quelos informes discrepan en los contenidos se-leccionados, mientras que los conceptos claveparecen ser un rasgo caracterıstico comun.

Estos datos apuntan a que realmente esnecesario plantear la tarea de sıntesis de in-formacion desde una perspectiva interactiva,dado que no parece existir un criterio unifi-cado entre los usuarios acerca de cual es lainformacion relevante y cual no (cuestion Ide la tabla 1).

Por otro lado, el tratamiento de los con-ceptos clave parece ser un elemento carac-terıstico de los informes elaborados manual-mente, y por tanto, puede ser un buen criteriopara organizar la informacion en un modelointeractivo (cuestion IV).

Ademas, los resultados obtenidos en nues-tros experimentos apuntan a aproximacionesde tipo CBBIS, como el modelo PRISMA,dado que, aunque la distribucion de concep-tos clave es un rasgo comun de los informesmanuales, no lo es la informacion que contie-nen. Por tanto, debe ser el propio usuario elque seleccione, en ultima instancia, las piezasde informacion de las que consta su informe(cuestion III).

Por ultimo, analizando la similitud entreinformes y a partir de la monitorizacion de losprocesos de sıntesis, hemos podido compro-bar que, dentro del conjunto de temas trata-dos se distinguen claramente dos subconjun-tos: temas en los que un unico asunto evolu-ciona a los largo del tiempo, por ejemplo, In-vasion de Haitı, y temas en los que se tratan

varias instancias de un mismo tipo de even-to, por ejemplo huelgas de hambre, siendo elprimer tipo de temas los que con diferenciarequieren mas esfuerzo de analisis por partedel usuario, y donde los conceptos clave jue-gan un papel mas relevante (cuestion II).

6.3 Rol sintactico y extraccion deconceptos clave

Para responder a la cuestion VI de las descri-tas en la tabla 1, hemos realizado, en primerlugar, un experimento con el fin de medir lafrecuencia de aparicion de los conceptos re-levantes en distintos puntos de las estructu-ras sintacticas (Amigo et al., 2004b). Hemospodido comprobar que la frecuencia de pa-labras pertenecientes a la lista de conceptosclave aumenta hasta un 30% en sintagmascon funcion de sujeto frente a otros sintag-mas nominales.

En segundo lugar, hemos comparado dostipos de aproximaciones al problema de la ex-traccion automatica de conceptos clave:

• Listas de terminos extraıdos median-te estrategias puramente estadısticas(OKAPI, likelihood ratio, frecuencia).

• Listas de terminos extraıdos consideran-do la frecuencia con la que ocurren justoantes de un verbo.

Esta segunda aproximacion ofrece una co-bertura sobre los conceptos clave superior ala primera en torno a un 15%, considerandolistas de entre 20 y 70 terminos.

Estos resultados indican que la identifica-cion de sujetos sintacticos resulta util en elproceso de extraccion automatica de concep-tos clave (cuestion VI).

7 Conclusiones

En este artıculo, hemos propuesto un modelointeractivo basado en conocimiento sintacticoy orientado a sıntesis de informacion, para elque hemos implementado un primer prototi-po. El modelo se basa en listas de conceptosrelevantes a partir de los que el usuario inte-ractua con el sistema. Ademas, el prototipofacilita la lectura de documentos completosmediante el resaltado automatico de proposi-ciones principales dentro de cada frase.

Hemos propuesto una metodologıa de eva-luacion de modelos interactivos de acceso a lainformacion para la que no es necesaria la in-teraccion del usuario con el sistema completo.

Siguiendo esta metodologıa, hemos llegado alas siguientes conclusiones:

• Los contenidos seleccionados en la elabo-racion de informes dependen en gran me-dida de la interpretacion del usuario, loque implica la necesidad de aplicar mo-delos interactivos en la tarea de sıntesis.

• Los conceptos clave del asunto, que lamayorıa de los usuarios comparten, jue-gan un papel fundamental en el procesode sıntesis.

• La identificacion del rol sintactico de lossintagmas nominales es util para el pro-ceso de extraccion automatica de dichosconceptos clave.

A la vista de los resultados obtenidos has-ta el momento, la metodologia propuestanos permite integrar el proceso de evaluaciondentro del ciclo de vida de desarrollo del siste-ma, estableciendo un marco sobre el que va-lidar y refinar los distintos componentes delmodelo PRISMA.

Bibliografıa

Amigo, E., V. Peinado, J. Gonzalo, A. Penas,y F. Verdejo. 2004a. Information synt-hesis: an empirical study. En Procee-dings of the 42th Annual Meeting of theAssociation for Computational Linguistics(ACL), Barcelona, July.

Amigo, E., V. Peinado, J. Gonzalo, A. Penas,y F. Verdejo. 2004b. Using syntacticinformation to extract relevant terms formulti-document summarization. En Pro-ceedings of the 36th Annual Conference onComputational Linguisticsion for Compu-tational Linguistics (Coling’04), Geneva,August.

Boguraev, B., C. Kennedy, R. Bellamy,S. Brawer, Y. Wong, y J. Swartz. 1998.Dynamic presentation of document con-tent for rapid on-line skimming. En Pro-ceedings of the AAAI Spring 1998 Sympo-sium on Intelligent Text Summarization.

Buyukkokten, O., H. Garcıa-Molina, yA. Paepcke. 1999. Seeing the whole inparts: Text summarization for web brow-sing on handheld devices. En Proceedingsof 10th International WWW Conference.

Goldstein, J., V. O. Mittal, J. G. Carbonell,y J. P. Callan. 2000. Creating and eva-luating multi-document sentence extractsummaries. En CIKM, paginas 165–172.

Jones, S., S. Lundy, y G. W. Paynter.2002. Interactive document summariza-tion using automatically extracted keyp-hrases. En Proceedings of the 35th Ha-waii International Conference on SystemSciences.

Leuski, A., C. Y. Lin, y S. Stubblebine. 2003.ineats: Interactive multidocument sum-marization. En Proceedings of the 4lst An-nual Meeting of the Association for Com-putational Linguistics (ACL 2003).

Neff, M. S. y J. W. Cooper. 1999. Ashram:active summarization and markup. EnProceedings of the Hawaii InternationalConference on System Sciences (HICSS-32): Understanding Digital Documents.

Over, P. 2003. Introduction to duc-2003: Anintrinsic evaluation of generic news textsummarization systems. En Proceedingsof Workshop on Automatic Summariza-tion (DUC 2003).

Peters, C., M. Braschler, J. Gonzalo, yM. Kluck, editores. 2002. Evaluationof Cross-Language Information RetrievalSystems, volumen 2406 de Lecture No-tes in Computer Science. Springer-Verlag,Berlin-Heidelberg-New York.

Radev, D. R., J. Hongyan, y M. Budzikows-ka. 2000. Centroid-based summarizationof multiple documents: Sentence extrac-tion, utility-based evaluation, and userstudies. En Udo Hahn Chin-Yew Lin In-derjeet Mani, y Dragomir R. Radev, edi-tores, Proceedings of the Workshop on Au-tomatic Summarization at the 6th AppliedNatural Language Processing Conferenceand the 1st Conference of the North Ame-rican Chapter of the Association for Com-putational Linguistics, Seattle, WA, April.

Rao, R., J. Pedersen, M. A. Hearst, J. D.Mackinlay, S. K. Card, L. Masinter,P. Halvorsen, y G. G. Robertson. 1995.Rich interaction in the digital library.Communications of the ACM, 38(4):29–39.