164
BÚSQUEDA DE RESPUESTAS EN LA WEB: EL VALENCIANO EN TAREAS MONO Y TRANSLINGÜES Para optar a la titulación de Ingeniería Informática Presentado por José Luis Peñarrubia Carrión Dirigido/tutorizado por Paolo Rosso, Dpto. Sistemas Informáticos y Computación, Universidad Politécnica de Valencia, España Manuel Montes, Laboratorio de Tecnologías del Lenguaje, Instituto Nacional de Astrofísica, Óptica y Electrónica, Puebla, México

BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

BÚSQUEDA DE RESPUESTAS EN LA WEB: EL VALENCIANO

EN TAREAS MONO Y TRANSLINGÜES

Para optar a la titulación de

Ingeniería Informática Presentado por

José Luis Peñarrubia Carrión Dirigido/tutorizado por

Paolo Rosso, Dpto. Sistemas Informáticos y Computación, Universidad Politécnica de Valencia, España Manuel Montes, Laboratorio de Tecnologías del Lenguaje, Instituto Nacional de Astrofísica, Óptica y Electrónica, Puebla, México

Page 2: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda
Page 3: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

Agradecimientos

Agradezco al profesor Paolo Rosso, la ayuda prestada en todo momento

durante la supervisión del presente trabajo, al igual que a Manuel Montes, ya

que a partir de sus investigaciones y posteriores explicaciones pudimos

empezar a avanzar en la consecución de este trabajo final de carrera.

También quiero agradecer a José Manuel Gómez (Investigador del

Departamento de Sistemas Informáticos y de Computación de la UPV) por

ayudarme con el sistema de recuperación de pasajes JIRS.

Page 4: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

1

INDICE DE CONTENIDOS Introducción........................................................................................................ 4 Capítulo 1.Sistemas de recuperación de información ........................................ 8 1.1 Introducción................................................................................................. 8 1.2 La recuperación de información .................................................................. 9 1.2.1 Evolución de los sistemas RI................................................................... 11 1.2.2 Modelos para la recuperación de información......................................... 11 1.3 La extracción de información..................................................................... 13 1.4 La búsqueda de respuestas ...................................................................... 13 1.5 Motores de búsqueda................................................................................. 14 1.5.1 Funcionamiento de un motor de búsqueda ............................................. 15 1.5.2 Arquitectura de un motor de búsqueda ................................................... 16 1.5.3 Los índices de los motores...................................................................... 17 1.5.4 Tipos de robots........................................................................................ 19 1.5.5 Funcionamiento de los robots ................................................................. 19 1.5.6 Indización de las páginas ........................................................................ 20 1.5.7 Alineado de los documentos (ranking) .................................................... 21 1.6 Evaluación de los sistemas de recuperación de información ..................... 22 1.7 Foros de experimentación .......................................................................... 24 Capítulo 2. Sistemas de búsqueda de respuestas ........................................... 29 2.1 Introducción................................................................................................ 29 2.2 Componentes principales de un sistema de BR......................................... 37 2.3 Situación actual .......................................................................................... 39 2.4 Clasificación de los sistemas de BR........................................................... 40 2.4.1 Sistemas que no utilizan técnicas de PLN............................................... 40 2.4.2 Sistemas que usan información léxico-sintáctica .................................... 41 2.4.3 Sistemas que usan información semántica. ............................................ 44 2.4.4 Sistemas que usan información contextual ............................................. 45 2.5 Conceptos generales ................................................................................. 46 2.5.1 Palabras de parada y palabras clave ...................................................... 47 2.5.2 Pesos de términos................................................................................... 47 2.5.3 Obtención de raíces (stemming) ............................................................. 48 2.5.4 Expansión de preguntas.......................................................................... 48 2.5.5 Realimentación........................................................................................ 49 Capitulo 3. BR monolingüe: El sistema INAOE ................................................ 51 3.1 Introducción................................................................................................ 51 3.2 Arquitectura del sistema BR INAOE basado en la Web ............................. 52 3.2.1 Reformulaciones ..................................................................................... 56 3.2.1.1 Reformulación: “Bolsa de palabras” ..................................................... 57 3.2.1.2 Reformulación: “Manipulación del verbo” ............................................. 58 3.2.1.3 Reformulación: “Componentes”............................................................ 60 3.2.1.4 Reformulación: “Componentes excluyendo la primera palabra”........... 61 3.2.1.5 Reformulación: “Componentes excluyendo las dos primeras palabras”

...................................................................................................................... 62 3.2.2 Recolección de Snippets ......................................................................... 62

Page 5: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

2

3.2.3 Cálculo de la respuesta ........................................................................... 64 3.2.3.1 Método de frecuencias relativas........................................................... 66 3.2.3.2 Método de expresiones regulares ........................................................ 67 3.2.3.3 Método de frecuencia compensada con expresiones regulares........... 68 3.3 Adaptación del sistema INAOE BR a otros idiomas .................................. 69 Capítulo 4. Búsqueda de respuestas multilingüe: El problema de la traducción

...................................................................................................................... 72 4.1 Introducción................................................................................................ 73 4.2 RI multilingüe.............................................................................................. 77 4.2.1 Aspectos monolingües ............................................................................ 79 4.2.1.1 Stemming ............................................................................................. 79 4.2.1.2 Segmentación de compuestos ............................................................. 80 4.2.1.3 Segmentación de palabras................................................................... 81 4.2.2 Enfoques basados en la traducción de la consulta ................................. 82 4.2.2.1 Diccionarios.......................................................................................... 83 4.2.2.2 Programas de traducción automática ................................................... 87 4.2.2.3 Tesauros .............................................................................................. 87 4.2.3 Otros enfoques: Traducción bidireccional ............................................... 89 4.3 Arquitectura del sistema INAOE multilingüe............................................... 90 4.4 Tareas translingües.................................................................................... 91 Capitulo 5. Experimentos Multilingües ............................................................. 94 5.1 Introducción................................................................................................ 94 5.2 Corpus del CLEF 2003............................................................................... 95 5.2.1 Tarea monolingüe Castellano-Castellano................................................ 96 5.2.1.1 Discusión sobre los resultados............................................................. 96 5.2.2 Tarea translingüe Castellano-Valenciano................................................ 97 5.2.2.1 Discusión sobre los resultados............................................................. 98 5.2.3 Tarea monolingüe Valenciano-Valenciano .............................................. 98 5.2.3.1 Discusión sobre los resultados............................................................. 99 5.2.4 Tarea translingüe Valenciano-Castellano.............................................. 100 5.2.4.1 Discusión sobre los resultados........................................................... 100 5.3 Clasificación de resultados atendiendo a la tipología de la pregunta ....... 101 5.4 El corpus del CLEF 2005.......................................................................... 103 5.4.1 Comparativa con los resultados obtenidos del sistema UPV en CLEF

2005............................................................................................................ 104 Capítulo 6. El componente de búsqueda de pasajes ..................................... 107 6.1 Introducción.............................................................................................. 107 6.2 El sistema de búsqueda de pasajes JIRS ................................................ 108 6.2.1 Definición de JIRS................................................................................. 108 6.2.2 Arquitectura del sistema JIRS ............................................................... 110 6.3 El sistema de búsqueda de respuestas QUASAR.................................... 115 6.3.1 Introducción........................................................................................... 116 6.3.2 Arquitectura del sistema........................................................................ 116 6.4 Casos de estudio con el idioma valenciano.............................................. 117 6.4.1 Discusión sobre los resultados.............................................................. 121 Capítulo 7. Conclusiones ............................................................................... 124

Page 6: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

3

Bibliografía ..................................................................................................... 126 Anexo I. Artículo "Cross-language Question Answering: The Key Role of

Translation"................................................................................................. 135 Anexo II. Artículo "Arabic-English Question Answering" ................................ 140 Anexo III Preguntas CLEF 2003..................................................................... 144 Anexo IV Preguntas CLEF 2005 .................................................................... 150

Page 7: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

INDICE DE FIGURAS 1.1 Arquitectura simple de un motor de búsqueda a partir de un filtrado de

documentos .................................................................................................. 17 1.2 Ejemplo de la estructura de un fichero inverso.......................................... 18 2.1 Niveles de usuarios según complejidad de la pregunta ............................. 34 2.2 Módulos de ejecución de la BR a partir de documentos y pasajes relevantes

...................................................................................................................... 38 3.1 Módulos del Sstema de Búsqueda de Respuestas .................................... 55 3.2 Ejemplo de sninpets devueltos por el Google ............................................ 64 4.1 Esquema de un sistema de BR translingüe................................................ 91 6.1 Arquitectura JIRS ..................................................................................... 111 6.2 Arquitectura del sistema QUASAR........................................................... 117

INDICE DE TABLAS 1.1 Clasificación de los Modelos de Recuperación de Información según

Dominich....................................................................................................... 12 1.2 Clasificación de los Modelos de Recuperación de Información según

Baeza-Yates. ................................................................................................ 12 1.3 Técnicas empleadas para reducir el tamaño de los índices de un motor de

búsqueda. ..................................................................................................... 18 1.4 Resumen de las características de la indización y motores que las

implementan ................................................................................................. 21 1.5 Resumen de las medidas basadas en la Relevancia de los documentos

recuperados, empleadas en la evaluación convencional de la recuperación de la información. ......................................................................................... 23

1.6 Resumen de las medidas, basadas en la evaluación de los procesos, empleadas en la evaluación convencional de la recuperación de la información ................................................................................................... 23

1.7 Resumen de las medidas, basadas en el resultado obtenido, empleadas en la evaluación convencional de la recuperación de la información ................ 24

3.1 Algoritmo Reformulación Bolsa de palabras............................................... 58 3.2 Algoritmo Reformulación Movimiento del verbo ......................................... 59 3.3 Algoritmo Reformulación componentes...................................................... 60 3.4 Algoritmo extracción frecuencias relativas ................................................. 66 3.5 Algoritmo extracción expresiones regulares............................................... 67 3.6 Agoritmo de extracción frecuencia compensada con expresiones regulares

...................................................................................................................... 68 4.1 Evolución de la utilización de idiomas en Internet ...................................... 74 4.2 Clasificación de los 10 lenguajes más utilizados en Internet año 2004...... 75

Page 8: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

5.1 Resultados del sistema de BR INAOE para el caso Castellano-Castellano con preguntas del CLEF 2003 ...................................................................... 96

5.2 Resultados del sistema de BR INAOE para el caso Castellano-Valenciano con preguntas del CLEF 2003 ...................................................................... 97

5.3 Resultados del sistema de BR INAOE para el caso Valenciano-Valenciano con preguntas del CLEF 2003 ...................................................................... 99

5.4 Resultados del sistema de BR INAOE para el Valenciano-Castellano con preguntas del CLEF 2003........................................................................... 100

5.5 Porcentaje de resultados según tipos de preguntas del CLEF 2003........ 102 5.6 Resultados del sistema de BR INAOE Castellano con preguntas del CLEF

2005............................................................................................................ 103 5.7 Comparación con los resultados de la UPV con la 1ª-5ª respuesta ......... 104 5.8 Comparación con los resultados de la UPV con la 1ª respuesta.............. 104 5.9 Resultados de los sistemas en tarea monolingüe en el CLEF 2005 ........ 105

Page 9: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda
Page 10: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

4

Introducción

Hoy en día, la Web se ha convertido en nuestro principal repositorio de

información. Toda clase de formatos (librerías digitales, periódicos,

presentaciones, foros, etc…) en más de 1500 idiomas distintos están

disponibles en formato electrónico en la Web. Estos documentos quizás

satisfagan las necesidades del usuario, o quizás no. Por lo tanto, son

necesarias herramientas que ayuden al usuario a gestionar esta ingente

cantidad de información que sin las herramientas adecuadas no es útil.

En los sistemas de Recuperación de Información (RI) el usuario está interesado

en encontrar los documentos más relevantes que se ajusten parcialmente a la

consultan realizada. Por lo tanto, los sistemas de RI resuelven el problema

asociado con la recuperación de documentos desde una colección en

respuesta a una consulta de usuario, siendo su objetivo buscar en una

colección (por ejemplo la Web) para devolver un subconjunto de documentos

ordenados por relevancia. Los más populares sistemas de IR son los motores

de búsqueda para la Web, por ejemplo Google1,Yahoo2 y MSN3.

Recientemente, la combinación del crecimiento y la explosión de la demanda

de mejor acceso a la información han motivado el interés en los sistemas de

Búsqueda de Respuestas (BR) basados en Web.

El propósito de un sistema de búsqueda de respuestas es obtener

respuestas precisas a preguntas realizadas por usuarios sin experiencia,

permitiendo lanzar consultas en lenguaje natural y obteniendo una respuesta

concisa. Por ejemplo, a la pregunta “¿Quién descubrió América?”, el sistema

debe encontrar la respuesta “Colón”.

Dada la dificultad de la tarea, los últimos desarrollos de sistemas de BR están

enfocados principalmente a contestar preguntas sobre hechos, lugares o

personas.

1 http://www.google.com 2 http://www.yahoo.com 3 http://www.msn.com

Page 11: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

5

En este Proyecto Final de Carrera, se pretenden realizar pruebas para la

búsqueda de respuestas utilizando el motor de búsqueda Google como recurso

de información. Se probarán las distintas adaptaciones resaltando el aspecto

translingüe de las consultas. Como punto de partida nos basaremos en el

trabajo realizado por el INAOE (Instituto Nacional de Astrofísica, Óptica y

Electrónica), (Puebla, México)4.

Se pro ponen hacer pruebas en los idiomas valenciano, castellano e

inglés (también hemos participado en unos experimentos translingües arabe-

inglés). Veremos como afecta la redundancia existente en la Web a la

respuesta obtenida, y compararemos los resultados entre idiomas en función

de su presencia en la Web.

Se evaluarán la calidad de las respuestas obtenidas, y se compararán con los

resultados obtenidos en el forum anual Cross Language Evaluation Forum

(CLEF)5.

La estructura del documento queda de la siguiente manera:

El Capítulo 1 está dedicado a introducir conceptos básicos de los

sistemas de recuperación de información, evolución, modelos para la

recuperación de información y cómo evaluar la calidad de estos sistemas. Se

presta especial atención a los motores de búsqueda como herramientas de

recuperación de información.

El Capítulo 2 se centra en definir los sistemas de búsqueda de

respuestas como una especialización de los sistemas de recuperación de

información. Se detalla la clasificación de estos sistemas y algunos conceptos

generales.

En el Capítulo 3 abordaremos de lleno la utilización de un sistema de

búsqueda de respuestas, el implementado por el Instituto Nacional de

Astrofísica, Óptica y Electrónica (INAOE) de Puebla (México).

4 http://www.inaoep.mx 5 http://www.clef-campaign.org

Page 12: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

6

El Capítulo 4 presenta el problema de la traducción en la recuperación

de información. Además se estudia la recuperación multilingüe mediante la

traducción de la consulta y otros enfoques como por ejemplo el uso de la

traducción bidireccional.

El Capítulo 5 está dedicado exclusivamente a la descripción de los

experimentos realizados con los diferentes sistemas (considerando como

distintos sistemas las adaptaciones del sistema original al idioma de búsqueda

utilizado en cada caso) y el análisis de los resultados obtenidos, que se

incluyen en el Anexo III. Estos experimentos se realizaron con las preguntas de

prueba del CLEF 2003 y 2005.

El Capítulo 6 trata sobre la búsqueda de pasajes. Se describe el

componente y se hace hincapié en la importancia de este módulo en la tarea

de búsqueda de respuestas. Se presenta el sistema JIRS6 (Java Information

Retrieval System), sistema de búsqueda de respuestas basado en la

recuperación de pasajes. Además, se explican las características principales

del sistema de búsqueda de respuestas Quasar (desarrollado en el laboratorio

de Ingeniería del Lenguaje Natural de la UPV) que extrae la respuesta desde

los pasajes devueltos por JIRS.

6 http://jirs.dsic.upv.es

Page 13: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

7

Page 14: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

8

Capítulo 1.Sistemas de recuperación de información

En este capítulo se define el contexto histórico de la recuperación de

información, la recuperación de información en si, la evolución y las técnicas

utilizadas.

1.1 Introducción

Durante los últimos años hemos asistido al enorme aumento de

información en formato digital disponible. Sumado a esto, también se han

producido grandes avances en materia de redes de ordenadores y

comunicaciones. Esto ha hecho que la información en formato digital que antes

mencionábamos, esté disponible para un mayor número de usuarios. La

cantidad de información disponible, principalmente de carácter textual, unido al

creciente número de usuarios finales que disponen de acceso directo a dicha

información a través de ordenadores personales, impulsó la investigación en

sistemas de información que facilitasen la localización, acceso y descarga de

toda esta enorme cantidad de datos.

Generalmente, cuando un usuario emplea un ordenador para buscar una

información determinada, lo que realmente está intentando es encontrar

respuesta a sus necesidades de información.

Para facilitar esta tarea, se necesitará disponer de sistemas que idealmente

sean capaces de localizar la información, procesarla, integrarla y generar una

respuesta acorde a los requerimientos expresados por el usuario en sus

preguntas. Además, estos sistemas deberán ser capaces de comprender

preguntas y documentos escritos en lenguaje natural en dominios no

restringidos permitiendo una cómoda interacción y adecuada a aquellos

usuarios inexpertos en el manejo de computadores. Sin embargo, y aunque las

investigaciones avanzan en buena dirección, todavía no existe hoy ningún

sistema operacional que cumpla por completo con todos estos requisitos.

Page 15: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

9

De todas formas, ante la creciente necesidad de aplicaciones que facilitaran al

menos en parte el acceso y tratamiento de toda esta información, la comunidad

científica concentró sus esfuerzos en la resolución de problemas más

especializados y por ello, más fácilmente abordables. Esta circunstancia

propició el desarrollo de campos de investigación que afrontaron el problema

desde diferentes puntos de vista: la recuperación de información (RI), la

extracción de información (EI) y, posteriormente, la búsqueda de respuestas

(BR). A continuación, destacaremos aquellos aspectos más relevantes de cada

una de estas líneas de investigación.

1.2 La recuperación de información

Los sistemas de RI realizan las tareas de seleccionar y recuperar

aquellos documentos que son relevantes a necesidades de información

arbitrarias formuladas por los usuarios. Como resultado, estos sistemas

devuelven una lista de documentos que suele presentarse ordenada en función

de valores que intentan reflejar en qué medida cada documento contiene

información que responde a las necesidades expresadas por el usuario.

Los sistemas de RI más conocidos son aquellos que permiten con mayor

o menor éxito localizar información a través de Internet. Como ejemplo algunos

de los motores de búsqueda más utilizados actualmente como Google, o

Yahoo.

Una de las características más importantes de estos sistemas reside en

la necesidad de procesar grandes cantidades de texto en un tiempo muy corto

(del orden de milisegundos para búsquedas en Internet).

Esta limitación impone una severa restricción en cuanto a la complejidad de los

modelos y técnicas de análisis y tratamiento de documentos que pueden

emplearse.

Dentro del ámbito de la RI podemos destacar la aparición de dos líneas de

investigación orientadas a mejorar el rendimiento de estos sistemas: la

Page 16: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

10

Recuperación de Pasajes (RP) y la aplicación de técnicas de Procesamiento

del Lenguaje Natural (PLN) al proceso de RI.

La RP nace como alternativa a los modelos clásicos de RI. Estos sistemas

miden la relevancia de un documento con respecto a una pregunta en función

de la relevancia de los fragmentos contiguos de texto (pasajes) que lo

conforman. Esta aproximación facilita la detección, dentro de documentos

grandes, de aquellos extractos que pueden ser muy relevantes para el usuario

y que, debido a estar inmersos en un documento mayor, pueden pasar

desapercibidos cuando el sistema considera el documento completo como una

unidad de información. Como demuestran diversos estudios, aunque estos

sistemas resultan computacionalmente más costosos que los de RI, las

mejoras de rendimiento alcanzadas justifican, en la mayoría de los casos, la

adopción de este tipo de aproximaciones.

En el Capítulo 6 se analiza el sistema de recuperación de pasajes JIRS,

desarrollado en la Universidad Politécnica de Valencia. A partir de este

sistema, realizaremos búsquedas sobre documentos en idioma valenciano.

En cuanto a la aplicación de técnicas de PLN, la comunidad científica

consideró a priori que su utilización reportará considerables beneficios a la

tarea de RI. Muchos y diversos intentos llevaron a cabo utilizando diversas

técnicas y herramientas. Sin embargo, el esfuerzo empleado no fue suficiente

para obtener mejoras de rendimiento sustanciales.

Uno de los principales foros de investigación en sistemas de RI lo constituye la

serie anual de conferencias Text REtrieval Conference (TREC)7. En estas

conferencias se diseñan una serie de tareas con la finalidad de evaluar y

comparar el rendimiento de los diferentes sistemas de RI. A través de las actas

de estas conferencias se puede observar con detalle la evolución de las

investigaciones desarrolladas en este campo.

7 http://trec.nist.gov

Page 17: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

11

1.2.1 Evolución de los sistemas RI

En la evolución de los sistemas de RI se encuentran tres fases

fundamentales [Baeza,1999]:

1. Desarrollos iniciales. El autor refleja que ya existían métodos de

recuperación de información con las antiguas colecciones de papiros.

Otro ejemplo típico sería la tabla de contenidos de un libro, sustituida por

otras estructuras algo más complejas a medida que ha crecido el

volumen de información a gestionar.

2. Recuperación de información en las bibliotecas. Estas instituciones

fueron de las primeras en adoptar estos sistemas. Originalmente

desarrollados por las propias bibliotecas y posteriormente se ha creado

un mercado de aplicaciones informáticas altamente especializadas en

este sector

3. La World Wide Web. La evolución lógica de los sistemas de RI ha ido

encaminándose hacia recursos de la Web, donde han encontrado gran

aplicación práctica y un aumento del número de usuarios, especialmente

en el campo de los directorios y motores de búsqueda.

1.2.2 Modelos para la recuperación de información

El diseño de un sistema de RI se realiza bajo un modelo, donde ha de

quedar definido “como se obtienen las representaciones de los documentos y

de la consulta, la estrategia para evaluar la relevancia de un documento

respecto a una consulta, los métodos para establecer la importancia de los

documentos de salida y los mecanismos que permiten una realimentación por

parte del usuario para mejorar la consulta” [Villena, 1999]. Existen varia

propuestas de clasificación de los modelos de recuperación, una de las más

completas la realiza Dominich, quien establece cinco grupos, tal y como se

describen en la siguiente tabla [Dominich, 2000]:

Page 18: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

12

Modelo Descripción Modelos clásicos Incluye los tres más comúnmente citados: booleano, espacio

vectorial y probabilística. Modelos alternativos Basados en la lógica difusa.

Modelos lógicos Basados en la lógica formal. La recuperación de información se entiende como un proceso inferencial a través del cual se puede estimar la probabilidad de que una necesidad de información de un usuario, expresada como una o más consultas, sea satisfecha ofreciendo un documento como “prueba” [VIL, 1997].

Modelos basados en la interactividad

Incluyen posibilidades de expansión del alcance de la búsqueda y hacen uso de retroalimentación por la relevancia de los documentos recuperados [SAL, 1989].

Modelos basados en la inteligencia artificial

Bases de conocimiento, redes neuronales, algoritmos genéticos y procesamiento del lenguaje natural.

Tabla 1.1 Clasificación de los Modelos de Recuperación de Información según Dominich. Fuente: Dominich, S. “A unified mathematical definition of classical information retrieval”. Journal of the American Society for Information Science, 51[7],2000. p.614-624.

Baeza-Yates [Baeza,1999] nos proporciona otra clasificación de estos modelos

de recuperación de información, realizada en función de la modalidad de

consulta y de la vista lógica de los documentos:

Términos índice Texto completo

Texto completo + estructura

RecuperaciónClásicos

Conjuntos teóricos Algebraicos

Probabilísticos

Clásicos Conjuntos teóricos

Algebraicos Probabilísticos

Estructurados

Navegación Estructura plana Estructura plana Hipertexto

Estructura guiada Hipertexto

Tabla 1.2 Clasificación de los Modelos de Recuperación de Información según Baeza-Yates. Fuente: Baeza-Yates, R. and Ribeiro-Neto, B. “Modern information retrieval. New Cork: ACM Press. 1999 XX. p.513.

Vista lógica de documentos

Mod

alid

ad

Page 19: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

13

1.3 La extracción de información

Los sistemas de EI realizan la tarea de buscar información muy concreta

en colecciones de documentos. Su finalidad consiste en detectar, extraer y

presentar dicha información en un formato que sea susceptible de ser tratado

posteriormente de forma automática.

Estos sistemas se diseñan e implementan específicamente para la realización

de una tarea determinada, por lo tanto, se dispondrá de un sistema diferente en

función del tipo de información a extraer en cada caso particular. Un ejemplo

podría ser un sistema orientado a la extracción del nombre, DNI y las

direcciones de las personas contratantes que aparecen en documentos

notariales. Este sistema operaría de forma que cada vez que apareciese uno

de estos datos, lo extraerá y lo incorporará en el campo correspondiente de

una base de datos creada a tal efecto. Como puede deducirse, estos sistemas

necesitan aplicar técnicas complejas de PLN debido la gran precisión que se

requiere en los procesos de detección y extracción del tipo de información que

les es relevante.

La investigación en este campo ha sido muy intensa. En particular, la serie de

conferencias Message Understanding Conference (MUC) han constituido uno

de sus principales foros de promoción. Estas conferencias han permitido la

evaluación y comparación de diversos sistemas, realizando la misma función

que las conferencias TREC para la recuperación de información.

1.4 La búsqueda de respuestas

La investigación en sistemas de RI y EI facilitó el tratamiento de grandes

cantidades de información, sin embargo, las características que definieron

estas líneas de investigación presentaban serios inconvenientes a la hora de

facilitar la obtención de respuestas concretas a preguntas muy precisas

formuladas de forma arbitraria por los usuarios.

Por una parte, los sistemas de RI se vieron incapaces por si solos de afrontar

tareas de este tipo. De hecho, una vez que el usuario recibirá la lista de

Page 20: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

14

documentos relevantes a su pregunta, todavía le quedaba pendiente una ardua

tarea. Necesitaba revisar cada uno de estos documentos para comprobar en

primer lugar, si esos documentos estaban realmente relacionados con la

información solicitada y en segundo lugar, debía leer cada uno de estos

documentos para localizar en su interior la información puntual deseada.

Por otra parte, y aunque los sistemas de EI eran mucho más precisos en la

tarea de encontrar información concreta en documentos, estos sistemas no

permitían el tratamiento de preguntas arbitrarias sino que el tipo de información

requerida necesitaba ser definida de forma previa a la implementación del

sistema.

Todos estos inconvenientes y principalmente, un creciente interés en sistemas

que afrontarán con éxito la tarea de localizar respuestas concretas en grandes

volúmenes de información, dejaron la puerta abierta a la aparición de un nuevo

campo de investigación conocido como Búsqueda de Respuestas (BR) o

Question Answering (QA).

En el Capítulo 2 profundizaremos en los sistemas de BR. En el Capítulo

3 se presenta un sistema de BR implementado, el cual modificaremos y

pondremos en funcionamiento para determinados casos de estudio.

1.5 Motores de búsqueda

Los motores de búsqueda son sistemas de evolución paralela al

crecimiento de la web y al aumento de usuarios. Constituyen uno de los

desarrollos más consolidados de las técnicas de indización automática y, al

mismo tiempo, son los sistemas más sensibles a una amplia serie de

situaciones peculiares que se pueden presentar en la red: “spamming”,

inaccesibilidad de páginas, etc…

Independientemente de su método de rastreo y de los posteriores criterios y

algoritmos empleados para el alineamiento de los documentos, todos los

motores de búsqueda parten de una situación inicial parecida: una lista de

direcciones que sirve de punto de partida para el robot (o los robots). Esta

similitud de condiciones iniciales propicia, una posterior comparación del

Page 21: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

15

resultado final, es decir, de la porción de web indexada y de la calidad de esta

indexación.

Existe cierto ocultismo en cuanto a los métodos seguidos por cada motor en la

realización de sus tareas. De cualquier manera, mediante la comparación del

resultado obtenido se podrá apreciar cuál de esos sistemas es de uso más

recomendable.

Se asume que su calidad de un motor de búsqueda depende de lo completa,

representativa y actualizada que sea la colección. En cambio, en un directorio,

la misma reside en la capacidad de los gestores en la realización de las

descripciones y en el número de esos gestores, ambos motivos más

relacionados con capacidades presupuestarias que con prestaciones

tecnológicas,

Los motores representan un claro ejemplo de la aplicación de las

técnicas de recuperación de información a la resolución de un reto, tan

ambiguo como moderno, en el campo de la información y la documentación:

disponer en un índice de las referencias a la mayor cantidad de documentos

existentes.

1.5.1 Funcionamiento de un motor de búsqueda

El funcionamiento de un motor debe estudiarse desde dos perspectivas

complementarias: la recopilación y la recuperación de información. Un motor

compila de forma automática las direcciones de las páginas que van a formar

parte de su índice tras realizar sobre su contenido un proceso de indización.

Una vez se encuentren estos registros debidamente depositados en la base de

datos del motor, los usuarios buscarán en su índice por medio de un una

interfaz de consulta, que puede ser más o menos avanzada en función del

grado de desarrollo del sistema. Al módulo encargado de la recopilación de las

páginas se le conoce comúnmente como robot (“es un programa que rastrea la

estructura hipertexto de la web, recogiendo información sobre las páginas que

encuentra. Esa información se indexa y se introduce en una base de datos que

Page 22: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

16

será explorada posteriormente utilizando un motor de búsqueda

[Delgado,2001]”)

Estos robots pueden recopilar varios millones de páginas por día, y actualizar la

información recogida en los índices en periodos de tiempo extremadamente

pequeños. Por regla general, se parte de una lista inicial de direcciones de

sitios web, que son visitados por el robot, y a partir de ahí cada robot rastrea a

su manera la web, de ahí que la información almacenada en cada base de

datos de cada motor sea distinta. Baeza-Yates distingue en un robot las

funciones de análisis y rastreo (“crawling”) de las de indización o indexación

(“indexing”), con lo cual él habla de dos módulos independientes, el “crawler” o

robot y el indexador [Baeza,1999].

1.5.2 Arquitectura de un motor de búsqueda

La mayoría de los motores de búsqueda emplean una arquitectura de

tipo robot-indexador centralizada, que se muestra en la Figura 1.1. A pesar de

lo que puede inducir su nombre y de una amplia serie de definiciones

incorrectas, el robot no se mueve por la red, ni se ejecuta sobre las máquinas

que visita, ya que realmente el robot funciona sobre el sistema local del motor

de búsqueda y envía un serie de peticiones a los servidores web remotos

(donde se alojan las páginas). El índice también se gestiona localmente. Esta

arquitectura clásica es la que implementa, entre otros, el motor Altavista8.

8 www.altavista.es

Page 23: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

17

Este modelo presenta algunos problemas para gestionar adecuadamente en el

entorno local la ingente cantidad de datos:

! La actualización de los índices es complicada y lenta.

! No sigue el ritmo de crecimiento de la web, indexando nuevos

documentos en un nivel menor.

! El trasiego de páginas por la red consume un gran ancho de banda y

produce una sobrecarga de tráfico [Delgado, 2001].

! Suelen ignorarse los contenidos dinámicos de la red, creación de

páginas de consulta, ficheros en otros formatos, etc.

1.5.3 Los índices de los motores

El índice “es el corazón de un motor de búsqueda” [Chang, 2001].

Generalmente consiste en una lista de palabras con valor de discriminación

asociadas a sus correspondientes documentos, que en este caso son las

descripciones de los URL recopiladas. La mayor parte de los motores de

búsqueda emplean como estructura de datos un fichero inverso [Chang, 2001;

Delgado,2001] basado en una idea general que se muestra en la ilustración

siguiente:

Figura 1.1 Arquitectura simple de un motor de búsqueda a partir de un filtrado de documentos. Fuente:Baeza-Yates,R. and Ribeiro-Nieto,B. Modern Information retrieval. New Cork:ACM Press:Harlow[etc,]:Addisson-Wesley,1999 XX,513p.

Page 24: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

18

(b)File for text of (a)

(a) Example text;each line in one document

En la práctica el fichero inverso se convierte en una estructura de datos con

serios problemas de gestión. Los distintos motores de búsqueda se sirven de

distintos esquemas para definir estas estructuras de datos.

El índice emplea un conjunto de punteros que apuntan a una tabla donde se

recogen todas las URL en las que aparece una palabra clave. La manera en la

que se ordenan estos punteros depende de un mecanismo interno de

ordenación basado, generalmente, en criterios de frecuencias o pesos en el

documento. El enorme tamaño de la colección de URL recopiladas por los

motores obliga a buscar formas de simplificar al máximo el tamaño de estos

índices. La siguiente tabla muestra algunos métodos para la reducción del

tamaño de los índices:

Conversión de texto o minúsculas

Se convierten todas las palabras a caracteres en minúscula, reduciendo así el número de entradas para un mismo término.

Stemming Aislamiento de la base de la palabra(por ejemplo, compresión y comprensivo e reducirán a “compren”), reduciendo así el número de entradas en el índice

Supresión de las palabras vacías

Se suprimen del índice todas aquellas palabras por las que no tiene sentido recuperar información (artículos, preposiciones, adjetivos o interjecciones, por ejemplo)

Comprensión de textos

Técnicas de compactación del tamaño del fichero.

Tabla 1.3 Técnicas empleadas para reducir el tamaño de los índices de un motor de búsqueda.

Document Text 1 Pice porrigde hot, pice

porridge cold 2 Pice porridge in the past 3 Nine days old

4 Some like it, some like it

cold 5 Some like it in the past 6 Nine days old

Number Term Text 1 cold 1,4 2 days 3,5 3 hot 1,4 4 in 2,5

Figura 1.2 Ejemplo de la estructura de un fichero inverso (tabla de la derecha). Fuente:Rijsbergen, C.J. Information Retrieval

jlpenar
Page 25: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

19

1.5.4 Tipos de robots

Junto a los robots de carácter general, existen otras modalidades de

estos sistemas [Delgado ,2001]:

! “Knowbots: Programados para localizar referencias hipertexto dirigidas

hacia un documento, servidor, etc., en particular. Permiten evaluar el

impacto de las distintas aportaciones que aportan las distintas áreas de

conocimiento presentes en la red.

! Wanderes (vagabundos): Encargados de realizar estadísticas, como por

ejemplo de crecimiento de la red, número de servidores conectados, etc.

! Worms(gusanos): Encargados de la duplicación de directorios FTP,

para incrementar su utilidad a un número mayor de usuarios.

! WebAnts(hormigas): Conjunto de robots físicamente alejados que

cooperan para la consecución de distintos objetivos, como por ejemplo

para llevar a cabo una indización distribuida.

1.5.5 Funcionamiento de los robots

Se ha comentado anteriormente que el robot inicia el rastreo a partir de

un conjunto de URL muy populares o enviadas por los administradores de sitios

web, y se siguen los enlaces de esa relación inicial de paginas evitando

repeticiones. El recorrido puede ser de dos modos:

! Breadth-first (cobertura amplia pero no profunda)

! Depth-first (cobertura vertical profunda) [Baeza, 1999]

La extensión de la web genera problemas par la actualización de la índices de

los motores, ya que entre dos análisis transcurre un cierto periodo de tiempo,

que varía según el motor. Baeza-Yates estima que entorno al 9% de los

Page 26: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

20

enlaces almacenados son inválidos. Este criterio será uno de los más

significativos para evaluar la calidad de un motor de búsqueda frente a otro.

1.5.6 Indización de las páginas

A medida que los robots recopilan páginas, la información de estas debe

ser indexada. Existen dos estrategias para realizar este proceso: usar

información que provee el creador del documento o extraerla directamente del

mismo.

En la práctica los principales motores emplean ambas estrategias para

disponer de una completa descripción del contenido de la página analizada.

Algunos de los criterios utilizados para esta descripción pueden ser: el título del

documento, el número de veces que se repite una palabra en el documento,..

Cada motor utiliza sus propios algoritmos y criterios. Un ejemplo representativo

del comportamiento de un motor clásico a la hora de indexar las páginas web

es el motor Altavista:

! Da prioridad alta a las palabras del título y a las palabras que están

localizadas en el comienzo de la página.

! Asigna mayor peso a una palabra en un documento según su

frecuencia absoluta.

! El mejor tamaño para una página está entre 4 y 8k. Considera las

páginas largas como valiosas en contenido, cuando no están afectadas

de “spamming”.

! Indexa las palabras claves y la descripción de los metadatos. Si no se

tienen metadato, indexa las primeras 30 ó 40 palabras dela página y las

toma como descripción.

! Confiere una mayor prioridad a palabras ubicadas en los metadatos o a

las palabras con las cuales se registran las páginas, pero no son tan

relevantes como el título y el contenido.

! Es sensible a las palabras claves mayúsculas y minúsculas.

! Puede indexar un sitio que contiene marcos. Pero se debe asegurar

que todas las páginas enlacen a la página principal.

Page 27: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

21

La siguiente tabla resume algunas de las principales características de la

indización y los motores que las implementan.

Características de la indización

NO SI

Texto completo

Todos

Supresión palabras vacías

FAST, Northen Light

Altavista,Excite,Google

Meta Descripción Google, Northen Light

El resto

Meta palabras clave Excite, FAST,Google, Northen Ligh

El resto

Texto alternativo Excite, FAST, Northen Light

Altavista, Google

Tabla 1.4 Resumen de las características de la indización y motores que las implementan

1.5.7 Alineado de los documentos (ranking)

El alineado, es uno de los procesos críticos a la hora de valorar la

efectividad de un motor de búsqueda, ya que se trata del orden en el que el

motor presenta los resultados a los usuarios, y como es de suponer el usuario

espera encontrar los documentos más relevantes con respecto a sus

necesidades en las primeras posiciones de la lista devuelta. El motor debe

ordenar el conjunto de documentos en función de la relevancia de estos

documentos con el tema de la pregunta realizada. Cuanto mejor sea el

alineamiento de los documentos, menor será el tiempo de búsqueda empleado

por el usuario en examinar el conjunto de documentos devuelto. Esta será otra

característica de gran importancia para valorar la calidad del buscador.

Page 28: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

22

1.6 Evaluación de los sistemas de recuperación de información

Según Baeza-Yates “un sistema de RI puede ser evaluado por diversos

criterios, incluyendo entre los mismos: la eficacia en la ejecución, el efectivo

almacenamiento de los datos, la efectividad en la recuperación de la

información y la serie de características que ofrece el sistema al usuario”

[Baeza, 1999].

Estos criterios no deben confundirse, la eficacia en la ejecución es la medida

del tiempo que se toma un sistema de RI para realizar una operación. Este

parámetro ha sido siempre la preocupación principal del gestor de un sistema

de RI, especialmente desde que muchos de ellos son interactivos, y un largo

tiempo de recuperación interfiere con la utilidad del sistema. La eficiencia del

almacenamiento es medida por el espacio que se precisa para almacenar los

datos. Una medida común de medir esta eficiencia es cuantificar el ratio del

tamaño del fichero índice junto con el tamaño de los documentos.

Aquí debemos subrayar la importancia de la efectividad de la recuperación, en

cuanto a la relevancia de los documentos recuperados.

Según algunos autores existen dos tipos de evaluaciones a efectuar, el tiempo

de respuesta y el espacio requerido. Baeza-Yates afirma “cuando se analiza el

tiempo de respuesta y el espacio requerido para la gestión se estudia el

rendimiento de las estructuras de datos empleadas en la indexación de los

documentos, la interacción con el sistema, los retrasos de las redes de

comunicaciones y cualquier otro retardo adicionalmente introducido por el

software del sistema. Esta evaluación podría denominarse evaluación del

funcionamiento del sistema “[Baeza,1999].

En un sistema de RI, los documentos recuperados no van a ser respuestas

exactas a esta petición. Los documentos recuperados se clasifican de acuerdo

a su relevancia con la pregunta. Los sistemas de RI requieren evaluar cómo de

relacionado está el documento recuperado con la query o pregunta pasada al

sistema. A esta evaluación se la conoce como evaluación del funcionamiento

de la recuperación [Baeza,1999].

Page 29: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

23

Medidas tradicionalmente empleadas Dentro de las medidas empleadas, hay unas orientadas a analizar el

aspecto físico de los datos y otras que intentan analizar si el contenido es

pertinente o no. Meadow sintetiza las medidas empleadas en tres grupos:

medidas basadas en la relevancia, medidas del proceso y medidas del

resultado [Meadow, 1992].

A continuación se presentan las medidas empleadas y en que tipo de

evaluación se basan.

MEDIDAS BASADAS EN LA RELEVANCIA Precisión

Documentos relevantes recuperados divididos entre el total de documentos recuperados

Exhaustividad Documentos relevantes recuperados dividido entre el total de documentos relevantes

Promedio de la efectividad E-P

Promedios de la efectividad en pares de valores de exhaustividad y precisión

Tabla 1.5 Resumen de las medidas basadas en la Relevancia de los documentos recuperados, empleadas en la evaluación convencional de la recuperación de la información. Fuente: Meadow, C. Text information retrieval systems. San Diego: Academic Press.1993.

MEDIDAS BASADAS EN EL PROCESO Selección

Mide cuántos documentos hay en la base de datos, el grado de solapamiento con otros relacionados que se espera de la base de datos antes de las búsquedas

Contenido Tipo de documentos de la base de datos, temática de los documentos, frecuencia de actualización

Traducción de una consulta

Se verifica si el usuario puede plantear la consulta directamente o precisa de intermediación

Errores en establecimiento de la consulta

Media de errores sintácticos en la escritura de la búsqueda que propician la recuperación de conjuntos vacíos y erróneos

Tiempo medio de realización de la búsqueda

Tiempo medio de realización de una estrategia de búsqueda

Dificultad en la realización de la búsqueda

A la ratio anterior habrá que añadir los problemas que usuarios inexpertos se pueden encontrar

Número de comandos precisos para una búsqueda

Promedio de instrucciones necesarias para realizar una búsqueda

Coste de la búsqueda Costes directos e indirectos en su realización Nº Docs recuperados Extensión del resultado de una búsqueda Nº de Docs revisados por el usuario

Promedio de los documentos que los usuarios están dispuestos a revisar

Tabla 1.6 Resumen de las medidas, basadas en la evaluación de los procesos, empleadas en la evaluación convencional de la recuperación de la información. Fuente: Meadow, C. T. Text Information Retrieval Systems, San Diego: Academic Press.1993.

1.6

Page 30: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

24

MEDIDAS DE RESULTADO Precisión --ya definida anteriormente--

Exhaustividad --ya definida anteriormente--

Promedio efectividad E-P

--ya definida anteriormente--

Medidas promedio de la satisfacción del usuario

Medidas que pretenden medir la reacción de los usuarios ante el resultado de una búsqueda

Tabla 1.7 Resumen de las medidas, basadas en el resultado obtenido, empleadas en la evaluación convencional de la recuperación de la información. Fuente: Meadow, C. T. Text Information Retrieval Systems. San Diego: Academic Press, 1993.

De cualquier manera, las medidas más comúnmente empleadas son la

precisión y la exhaustividad.

1.7 Foros de experimentación CLEF Cada año, el Cross-Language Evaluation Forum organiza una serie de

pruebas de evaluación que prueban distintos aspectos de los sistemas de

recuperación de información. Desde el principio, la intención ha sido

experimentar con toda clase de lenguajes y acceso a información, para el

desarrollo de sistemas monolingües de recuperación de información para

muchos lenguajes y de sistemas multilingües de acceso a información.

En la página oficial del CLEF9, el apartado Working Notes contiene

descripciones de los experimentos llevados a cabo dentro del CLEF. Los

resultados de cada CLEF son presentados y discutidos en los Wokshops

programados en cada campaña.

Al final, se publican los resultados obtenidos después de la puesta en común

con los grupos que se han presentado a la campaña anual del CLEF.

9 http://www.clef-campaign.org

1.7

Page 31: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

25

• Recuperación de documentos textual mono-, bi- y multilingüe sobre

nuevas colecciones (Ad Hoc)

• Información mono- y cross-language sobre datos en lenguaje científico

(Domain-Specific)

• Interactivo cross-language retrieval (iCLEF)

• Multiples lenguajes de question answering (QA@CLEF)

• Recuperación cross-language en colecciones de imagenes

(ImageCLEF)

• Recuperación de documentos hablados cross-language (CL-SR)

• Recuperación multilingüe documentos Web (WebCLEF)

• Recuperación geográfica cross-language (GeoCLEF)

TREC La Conferencia de REcuperación de Texto, co-patrocinado por el

Instituto Nacional de Normas y la Tecnología (NIST) y el Departamento de

defensa estadounidense, comienza su andadura en 1992. Su objetivo es

apoyar la investigación en la comunidad de recuperación de documentos

proporcionando la infraestructura necesaria para la evaluación a gran escala de

metodologías de recuperación de texto.

Sus objetivos son:

• Fomentar la investigación en recuperación de documentos basada en

grandes colecciones.

• Aumentar la comunicación entre industria, academia, y gobierno creando

un foro abierto para el intercambio de ideas de investigación.

• Dinamizar la transferencia de tecnología de laboratorios de investigación

en productos comerciales demostrando mejoras sustanciales de

metodologías de recuperación.

• Aumentar la disponibilidad de técnicas de evaluación apropiadas para

empleo por parte de la industria y academia, incluyendo desarrollo de

técnicas de evaluación nuevas aplicables a sistemas corrientes.

Estas conferencias han aportado la evaluación de variadas modalidades de

recuperación de información (desde el clásico modelo booleano a la búsqueda

Page 32: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

26

por cadenas de texto o las búsquedas basadas en diccionarios), y han

demostrado hasta qué punto pueden alcanzarse resultados significativos de

investigación a través de la cooperación entre investigadores en el ámbito

mundial. De hecho, en palabras de Sparck Jones, “la comunidad investigadora

debe estar muy agradecida a las conferencias TREC, en tanto que han

revitalizado la investigación en recuperación de información y también ha

demostrado la importancia de este campo de investigación en áreas afines,

tales como el procesamiento del lenguaje natural y la inteligencia artificial

[Chowdhury, 1999].

Pistas o talleres TREC

Un taller TREC consiste en un juego que rastrea áreas de interés para

las que se definen tareas de recuperación. Las pistas sirven a varios objetivos.

Primero, rastrea áreas de investigación nuevas: la primera fase de una pista a

menudo define lo que el problema realmente es, y una pista crea la

infraestructura necesaria (colecciones de prueba, la metodología de

evaluación, etc.) para apoyar la investigación. Las pistas también demuestran

la robustez de tecnología de recuperación principal. Las mismas técnicas son

con frecuencia apropiadas para una variedad de tareas. Finalmente, las pistas

hacen TREC atractivo a una amplia comunidad investigadora proporcionando

tareas que emparejan los intereses de investigación de varios grupos.

Para cada pista se implementa una lista de direcciones. El objetivo inicial

de esta lista de direcciones es hablar de los detalles de las tareas a realizar en

la pista TREC. Sin embargo, una pista de la lista de direcciones también sirve

como foro para tratar cuestiones generales metodológicas relacionadas con las

tareas de recuperación de la pista. Más allá, algunas pistas enlazan con

páginas web específicas que proporcionan la historia y el material de estudio

relativo al tema central. Así, estas listas de páginas enlazan a su vez con la

información que el TREC rastrea, si realmente la pista es programada para ser

controlada en la corriente TREC. El juego de las pistas que serán controladas

en un año dado por TREC, es determinado por el comité de programa TREC.

Las pistas, o temas de estudio, TREC del año 2005 han sido las siguientes:

Page 33: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

27

1. Pista de la empresa

2. Pista sobre el genoma

3. Recuperación de exactitud alta de documentos

4. Pista de recuperación robusta

5. Pista de SPAM

6. Pista terabyte

Las pistas sobre las que se trabaja actualmente son:

1. Pista sobre recuperación en varias lenguas

2. Pista sobre la necesidad estable de información de un usuario

3. Pista sobre interacción de usuario con sistemas de recuperación de

texto

4. Pista de vídeo

5. Pista de web

Page 34: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

28

Page 35: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

29

Capítulo 2. Sistemas de búsqueda de respuestas

El objetivo de los sistemas tradicionales de recuperación de información

ha sido devolver una lista ordenada de documentos en función de su relevancia

con la pregunta efectuada. Desde aquí, era tarea del usuario abrir los

documentos devueltos y buscar en ellos la respuesta. Como principal medio de

búsqueda de información, hoy en día se utiliza Internet. Dado el crecimiento en

cuanto a número de páginas (documentos), sería muy útil un sistema capaz de

resolver de forma más precisa nuestras necesidades de información. Este

problema es esencialmente lo que intentan resolver los sistemas de BR.

La finalidad de los sistemas de BR es devolver la respuesta en si, sin

necesidad por parte del usuario de perder el tiempo en examinar los

documentos devueltos por el sistema de recuperación de información

tradicional.

El contenido del presente capítulo ha sido extraído principalmente de la

publicación “Recuperación de Información de Alta Precisión: Los Sistemas de

Búsqueda de Repuestas” de José Luis Vicedo González [Vicedo, 2002].

2.1 Introducción

Podemos definir la BR como la tarea automática realizada por

ordenadores que tiene como finalidad la de encontrar respuestas concretas a

necesidades precisas de información formuladas por usuarios eventuales. La

principal utilidad de los sistemas de BR en aquellos casos en los que el usuario

final desea conocer alguna información muy concreta y se necesita conocer

inmediatamente. A modo de ejemplo, algunas aplicaciones prácticas podrían

ser las siguientes:

• Sistemas de ayuda en línea de software.

• Sistemas de consulta de procedimientos y datos en grandes

organizaciones.

Page 36: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

30

• Interfaces de consulta de manuales técnicos.

• Sistemas búsqueda de respuestas generales de acceso público sobre

Internet.

• etc.

La primera discusión acerca de las características de un sistema de BR

y la primera aproximación a un sistema funcional (QUALM) fueron introducidos

por Wendy Lehnert a finales de los 70 [Lehnert, 1977, 1980]. En estos trabajos

se definieron las características ideales de un sistema de BR. Estos sistemas

deberían entender la pregunta del usuario, buscar la respuesta en una base de

datos de conocimiento y posteriormente componer la respuesta para

presentarla al usuario. En consecuencia, estos sistemas deberán integrar

técnicas relacionadas con el Entendimiento del Lenguaje Natural, la Búsqueda

de Conocimiento (incluyendo posiblemente técnicas de inferencia) y la

Generación de Lenguaje Natural.

La investigación en sistemas de BR tuvo sus inicios en la comunidad científica

relacionada con la inteligencia artificial. Desde esta perspectiva, la

investigación desarrollada consideró requisito indispensable que los sistemas

de BR tendrán que satisfacer todas y cada una de las características ideales

anteriormente citadas. Sin embargo, hasta la fecha únicamente se han podido

obtener algunos resultados a costa de restringir mucho los dominios sobre los

que se realizan las consultas.

Recientemente, la investigación en sistemas de BR también se ha afrontado

desde el punto de vista de la comunidad especializada en sistemas de RI. Sin

embargo, desde esta perspectiva, el poder desarrollar la tarea sobre dominios

no restringidos constituye el requisito básico e innegociable a cumplir.

Partiendo de este requerimiento inicial, las investigaciones se han orientado

hacia el desarrollo de sistemas que van incorporando progresivamente

herramientas más complejas que permiten la evolución de estos sistemas hacia

la consecución de las características ideales propuestas por Lehner.

Teniendo en cuenta estas orientaciones, se puede realizar una primera

clasificación de los sistemas de BR en dos tipos: sistemas de BR en dominios

restringidos y sistemas de BR en dominios no restringidos.

Page 37: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

31

Dominios restringidos El interés en sistemas de BR no es nuevo desde la perspectiva de la IA.

Sin embargo, hasta hace unos años la investigación se centró en el desarrollo

de sistemas que respondieran a preguntas realizadas sobre una base de

conocimiento estructurado. En este trabajo se investigó principalmente la

aplicación de herramientas de PLN en combinación con técnicas de IA tales

como demostración de teoremas para la extracción de respuestas de la base

de conocimientos.

El trabajo de Levine muestra con detalle este tipo de aproximaciones [Levine y

Fedder, 1989].

Recientemente, las investigaciones han derivado hacia el tratamiento de bases

de conocimiento no estructuradas, si bien, sólo se han obtenido resultados más

o menos satisfactorios en el caso particular del tratamiento de documentos de

dominios muy restringidos.

Dominios no restringidos La investigación en sistemas de BR en dominios no restringidos vive

actualmente momentos de gran auge. Gran parte del interés en estos sistemas

ha sido propiciado por la inclusión de una tarea específica para la evaluación

de sistemas de BR dentro de la serie de conferencias TREC patrocinadas por

NIST10, DARPA11 y ARDA12. Estas conferencias han dado un gran empuje a

esta línea de investigación no sólo como plataforma de evaluación,

comparación y difusión de los sistemas existentes (las actas y resultados de las

evaluaciones son públicas) sino, principalmente, por su apuesta decidida en

relación al fomento de la introducción de mejoras en los sistemas a través de la

continua introducción de nuevos retos a afrontar. Por ello, en sólo tres años,

estas conferencias se han convertido en el principal foro de discusión y

promoción de los sistemas de BR en todo el mundo y prueba de ello reside en

el crecimiento continuo del número de participantes convocatoria tras

convocatoria.

10 National Institute of Standars and Technology 11 Technology Office of the Defense Advanced Research Projects Agency 12 Advanced Research and Development Activity

Page 38: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

32

Las conferencias TREC y los sistemas de BR En 1999, en el seno de la conferencia (TREC, 1999), se presentó la

primera convocatoria de esta serie: “The first Question Answering track". Esta

convocatoria nació con el propósito de fomentar la investigación, evaluación y

comparación de las posibles aproximaciones existentes orientadas a la

construcción de sistemas automáticos que pudiesen proporcionar respuestas a

preguntas concretas a partir de una gran colección de documentos no

estructurados.

En esta primera convocatoria, se evaluó el rendimiento de los sistemas

participantes sobre 200 preguntas de test elaboradas por la organización con la

seguridad de que la respuesta se encontraba en algún documento de la

colección. Para cada pregunta, los sistemas deberían devolver una lista

ordenada con un máximo de 5 respuestas posibles. Cada respuesta consistiría

en un fragmento de texto extraído de la base documental en el que debería

aparecer la respuesta a la pregunta. Se diseñaron dos categorías en función

del tamaño máximo permitido del fragmento de texto respuesta (250 y 50

caracteres). Una descripción detallada de la tarea propuesta y del proceso de

evaluación puede encontrarse en [Voorhees, 1999] y [Voorhees y Tice, 1999].

Con la finalidad de fomentar la investigación en este campo y potenciar la

mejora de los sistemas existentes, en las siguientes convocatorias (TREC9,

2000) y (TREC10, 2001) se introdujeron progresivamente nuevos

requerimientos basados, sobre todo, en el incremento del tamaño de la base

documental y en la cantidad y complejidad de las preguntas de test realizadas.

En particular, el congreso TREC9 fue especialmente fructífero puesto que

abordó el análisis del problema de la BR desde una perspectiva a largo plazo.

Se definieron los objetivos a conseguir en el futuro y además, se diseñó un plan

a cinco años que permitió orientar las investigaciones futuras hacia la

consecución de dichos objetivos.

La descripción de las tareas a realizar propuestas en la convocatoria TREC10

reflejaron ya las primeras consecuencias de dicho plan. En primer lugar, el

tamaño máximo de texto permitido como respuesta se limitó a 50 caracteres

exclusivamente. En segundo lugar, no se garantizó la existencia de respuesta a

las preguntas en la base de datos documental, fomentando así la investigación

Page 39: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

33

en herramientas que permitiesen validar la existencia o no de una respuesta

correcta en la base de datos.

Además, se incrementó la complejidad de las preguntas de test. Se incluyeron

preguntas en las que se especificaba un número de instancias a recuperar

como respuesta y también se propusieron series de preguntas formuladas

sobre un mismo contexto. Estas series estaban formadas por preguntas

relacionadas entre sí de forma que la interpretación de cada pregunta

dependiera tanto del significado de las preguntas realizadas previamente como

de sus respectivas contestaciones.

En cuanto al tipo de usuarios de estos sistemas, podemos encontrar un

amplio espectro de usuarios que requieren diferentes capacidades del sistema

para satisfacer sus necesidades de información. Estas necesidades pueden

variar entre las solicitadas por un usuario casual, que interroga al sistema para

la obtención de datos puntuales, y las que puede necesitar un analista

profesional. Estos tipos representan los extremos de esa amplio espectro de

usuarios potenciales de un sistema de BR.

De acuerdo a “The Q&A Roadmap Committee” [Burguer et al., 2003] podemos

clasificar los diferentes usuarios de un sistema de BR en cuatro tipos generales

en función de la complejidad de sus requerimientos.

1. El usuario casual. Este tipo de usuario necesita información precisa acerca de hechos

concretos. (Realiza preguntas cuya respuesta puede encontrarse en un

documento expresada, generalmente, de forma simple). Este usuario realizaría

preguntas de este estilo: “¿Dónde está Gandía?" ,“¿En qué año nació el ex-

presidente Aznar?" o “¿Cuántos habitantes tiene Castellón?". La Figura 2.1

muestra gráficamente la relación entre dicha taxonomía de usuarios y los

diferentes niveles de complejidad de sus requerimientos.

Page 40: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

34

Figura 2.1 Niveles de usuarios según complejidad de las preguntas

2. El recopilador de información. A diferencia del anterior, este usuario realiza preguntas cuya respuesta

necesita de un proceso de recopilación de varias fuentes de información

indicadas en la pregunta. Veamos algunos ejemplos de preguntas de este tipo:

“¿Qué países tienen frontera con España?”, “¿Qué países visitó el Papa en

1998?", “¿Qué jugadores de fútbol han anotado mas de 4 goles en un partido

oficial de fútbol en México?".

Como puede observarse, este tipo de preguntas requiere de varias fuentes de

Información (probablemente en diferentes documentos) y su posterior

combinación como respuesta final.

Page 41: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

35

3. El periodista.

Es el tipo de usuario al que se le encarga la redacción de un artículo

relacionado con un evento determinado, por ejemplo un huracán que golpea la

costa del Golfo de México.

Para ello, el reportero necesitará recabar datos concretos del suceso

(intensidad del huracán, lugar del desastre, daños materiales,...), el sistema de

BR necesitaría tener en cuenta el contexto de la serie de preguntas que el

usuario interpondrá al sistema. Este contexto permitiría al sistema determinar la

amplitud de la búsqueda y la necesidad de profundizar en determinados

aspectos relacionados.

4. El analista profesional. El perfil de este usuario corresponde con el de un profesional de la

información experto en temas concretos. Por ejemplo, analistas financieros,

personal de agencias estatales de inteligencia especializadas en política

internacional, política económica, o en la investigación de determinados delitos

como el terrorismo, tráfico de drogas, etc.

Un ejemplo del tipo de preguntas que el sistema de BR debería de responder

sería el siguiente. Un analista de la policía intuye que puede haber cierta

conexión entre las actividades de un grupo de secuestradores y un grupo de

policías e intenta investigar la existencia de dicha conexión. Para ello, el

analista podría realizar al sistema las siguientes preguntas: “¿Hay alguna

evidencia de conexión, comunicación o contacto entre estos dos grupos?",

“¿Hay alguna evidencia de que estos grupos estén planeando alguna acción

conjunta?". Un sistema de BR que trabaje a este nivel debe poder aceptar

preguntas muy complejas cuyas respuestas pueden basarse en conclusiones y

decisiones realizadas por el propio sistema.

Estas respuestas necesitarán de la recopilación y síntesis de información

obtenida en diferentes fuentes y deberá ser presentada al usuario de una forma

adecuada a su forma de trabajo.

Como puede deducirse, los niveles de sofisticación de estos diferentes tipos de

usuarios estarán íntimamente relacionados con el nivel de complejidad de las

preguntas y respuestas que el sistema ha de ser capaz de procesar

satisfactoriamente.

Page 42: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

36

En consecuencia, el análisis del problema de la BR va a depender

fundamentalmente del correcto estudio de las dos partes principales del

problema: las preguntas y las respuestas.

Desde el punto de vista de la problemática de las preguntas, pueden

destacarse tres factores principales de los que depende el correcto

funcionamiento de un sistema de BR:

I. El contexto en el que se realizan las preguntas. Este contexto

determinará cómo debe interpretar el sistema la información requerida

en cada momento. Por ejemplo, sin un correcto análisis contextual, la

pregunta “¿Dónde está el Cesar Palace?" puede tener varias respuestas

que serán correctas o incorrectas en función de dicho contexto: (1) “Las

Vegas, Nevada", “Paris, Francia"" (donde está el casino Cesar Palace) o

incluso “Ciudad Madero, Tamaulipas" (donde se encuentra un hotel con

dicho nombre).

II. La intención de la pregunta. El análisis de la intención que refleja una

pregunta debe conducir el proceso de búsqueda de forma que los

elementos de juicio, motivos e intenciones reflejadas en ella puedan ser

correctamente abordados y resueltos en el proceso generación de la

respuesta. Por ejemplo, el análisis de la pregunta “¿Por qué las

relaciones diplomáticas entre México y Cuba se han visto deterioradas?"

debe detectar que el usuario requiere una respuesta que justifique las

razones de la afirmación expresada en la pregunta.

III. El alcance de la pregunta. El proceso de interpretación de la pregunta

debe poder determinar en cuál de las fuentes de información disponibles

se ha de realizar la búsqueda y también, el nivel de profundidad

requerido para generar la respuesta. De forma similar, desde el punto de

vista de la complejidad de las respuestas, un sistema de BR necesitaría

contemplar los siguientes aspectos:

a) Diversidad de las fuentes de datos. Un sistema de BR avanzado

ha de permitir la búsqueda de información en un amplio espectro

de fuentes de datos diferentes.

b) La integración de datos individuales. Se requiere que el sistema

sea capaz de integrar, combinar y resumir datos individuales

Page 43: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

37

extraídos de cualquier fuente de información para generar

aquellas estructuras de información compuestas que son

relevantes a la pregunta.

c) La interpretación de la información. Estos sistemas deben facilitar

una interpretación de la información relevante recuperada que se

ajuste a la interpretación de la pregunta original. Este proceso

permitiría que los motivos, intenciones y elementos de juicio

expresados en la pregunta se reflejaran en los procesos de

selección de información relevante y de generación de las

respuestas.

Queda claro que el abordar la detección y análisis de los factores

principales que afectan al problema de la BR no resulta una tarea trivial. Sin

embargo, este proceso ha permitido definir el problema desde una perspectiva

general facilitando así, el acotar el ámbito del problema, aproximar sus

objetivos, definir una base que permite situar el estado actual de las

investigaciones en este campo y sobre todo, centrar el interés en aquellos

aspectos hacia los que se deben orientar las investigaciones futuras.

2.2 Componentes principales de un sistema de BR

Tras analizar algunas de las publicaciones actuales más relevantes,

tales como [Prager et al. , 2000 ; Hovy et al. , 2001; Vicedo et al., 2003 ; Perez-

Coutiño et al., 2004; de Pablo et al., 2004], se puede establecer una división de

componentes de un sistema de BR tal y como sigue:

1. Análisis de la pregunta.

2. Recuperación de documentos.

3. Selección de pasajes relevantes.

4. Extracción de respuestas.

Page 44: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

38

La Figura 2.2 muestra gráficamente la secuencia de ejecución de estos

procesos y cómo se relacionan entre sí.

Figura 2.2 Módulos de ejecución en la BR a partir de documentos y sus pasajes relevantes

Los componentes mencionados están relacionados entre si procesando

información textual disponible en los distintos niveles hasta terminar el proceso

de BR mediante la devolución de un resultado.

En la primera parte del proceso, las cuestiones formuladas al sistema son

procesadas por el módulo “Análisis de la pregunta”. Este proceso es de vital

importancia puesto que de la cantidad y calidad de la información extraída en

este análisis dependerá en gran medida el rendimiento de los restantes

módulos y por consiguiente, el resultado final del sistema.

Una parte de la información resultado del análisis de la pregunta es utilizado

por el módulo “Recuperación de documentos” para realizar una primera

selección de textos. Dado el gran volumen de documentos a tratar por estos

sistemas y las limitaciones de tiempo de respuesta con las que trabajan, esta

tarea se realiza utilizando sistemas de RI o RP.

Page 45: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

39

Los sistemas de Recuperación de Pasajes (RP) utilizan los mismos modelos

tradicionales de RI pero sustituyendo al documento por el pasaje. Un pasaje se

define como una secuencia contigua de texto dentro de un documento.

El resultado obtenido es un subconjunto muy reducido de la base de datos

documental sobre los que se aplicarán los procesos posteriores. A

continuación, el módulo “Selección de pasajes” relevantes se encarga de

realizar un análisis más detallado del subconjunto de textos relevantes con el

objetivo de detectar aquellos fragmentos reducidos de texto que son

susceptibles de contener la respuesta buscada.

Finalmente, el módulo “Extracción de respuestas” procesa el pequeño conjunto

de fragmentos de texto resultado del proceso anterior con la finalidad de

localizar y extraer la respuesta buscada.

2.3 Situación actual

Los sistemas de BR actualmente en operación, afrontan la tarea de BR

desde la perspectiva del usuario casual. Un usuario que realiza preguntas

simples que requieren un hecho, situación o dato concreto como respuesta.

Estos sistemas utilizan un único tipo de fuente de información en la que se

realiza la búsqueda de respuestas: una base de datos textual compuesta por

documentos escritos en un único lenguaje (actualmente el idioma inglés es el

más utilizado). En algunos casos se ha avanzado un poco mas mediante el uso

de bases de datos léxico-semánticas (principalmente WordNet) y la integración

de algún tipo particular de ontología como SENSUS [Hovy et al. , 2000]. Desde

esta perspectiva, los sistemas existentes pueden contestar a preguntas simples

cuya respuesta aparece en un único documento y además, los conceptos

expresados en la pregunta están localizados en zonas del texto cercanas a

dicha respuesta.

Page 46: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

40

2.4 Clasificación de los sistemas de BR

La realización de una clasificación de los sistemas existentes resulta una

tarea bastante complicada. Ésta dificultad radica principalmente en la selección

de la perspectiva desde la que se desea realizar dicha clasificación.

Vicedo propone una clasificación detallada que muestra los diferentes niveles

de procesamiento del lenguaje natural que estos sistemas emplean [Vicedo,

2002].

2.4.1 Sistemas que no utilizan técnicas de PLN.

Estos sistemas tratan de aplicar únicamente técnicas de RI adaptadas a

la tarea de BR. La forma general de actuación de estos sistemas se basa en la

recuperación de extractos de texto relativamente pequeños con la suposición

de que dichos extractos contendrán la respuesta esperada.

Generalmente estos sistemas utilizan varias formas de seleccionar aquellos

términos de la pregunta que deben aparecer cerca de la respuesta.

Normalmente, se eliminan las palabras vacías y se seleccionan aquellos

términos con mayor “valor discriminatorio". Estos términos se utilizan para

recuperar directamente fragmentos relevantes de texto que se presentan

directamente como respuestas [Cormack et al., 1999] o bien, para recuperar

documentos que posteriormente serán analizados. Este análisis consiste en

dividir el texto relevante en ventanas de un tamaño inferior o igual a la longitud

máxima permitida como cadena respuesta. Cada una de estas ventanas se

valora en función de determinadas heurísticas para finalmente presentar como

respuestas aquellas ventanas que consiguen la mejor puntuación.

Esta valoración suele tener en cuenta aspectos como el valor de discriminación

de las palabras clave contenidas en la ventana, el orden de aparición de dichas

palabras en comparación con el orden establecido en la pregunta, la distancia a

la ventana de aquellas palabras clave que no se aparecen en la ventana, etc.

Page 47: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

41

Además del sistema de la universidad de Waterloo, citado previamente, se

puede incluir en este grupo el sistema utilizado por la universidad de

Massachusetts [Allan et al., 2001].

El rendimiento alcanzado por este tipo de sistemas es relativamente bueno

cuando la longitud permitida como respuesta es grande (del orden de 250

caracteres), sin embargo, decrece mucho cuando se requiere una respuesta

concreta a la pregunta (unos 50 caracteres de longitud máxima).

Un caso especial lo constituye el sistema diseñado por InsigthSoft [Soubbotin

and Soubbotin, 2001]. Este sistema es uno de los que mejor rendimiento

presenta aunque no utiliza ninguna herramienta de PLN. Se diferencia respecto

a las anteriores aproximaciones en el uso de patrones indicativos (combinación

determinada de caracteres, signos de puntuación, espacios, dígitos o palabras)

en el proceso de extracción final de la respuesta.

2.4.2 Sistemas que usan información léxico-sintáctica

En esta clase se pueden catalogar la mayoría de las aproximaciones

existentes. Al igual que los sistemas anteriores, estos sistemas utilizan técnicas

de RI para seleccionar aquellos documentos o pasajes de la colección

documental que son más relevantes a la pregunta. Las diferencias más

significativas estriban en el uso de técnicas de PLN para analizar las preguntas

y facilitar el proceso de identificación y extracción final de las respuestas.

Estos sistemas se caracterizan, en primer lugar, por la realización de un

análisis detallado de la pregunta que permite conocer o aproximar el tipo de

entidad que cada pregunta espera como respuesta. Estas entidades están

organizadas en conjuntos de clases semánticas como por ejemplo, “persona",

“organización", “tiempo', “lugar", etc. La identificación del tipo de respuesta

esperada se suele hacer mediante el análisis de los términos interrogativos de

la pregunta. Para realizar el análisis de la pregunta se suelen utilizar

etiquetadores léxicos y analizadores sintácticos inclusive métodos de

aprendizaje automático [Solorio and López, 2004].

Page 48: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

42

Por otra parte, el proceso de extracción de la respuesta combina el uso de

técnicas de RI para la valoración de extractos reducidos de texto, como las

utilizadas en los sistemas de la clase anterior, con el uso de clasificadores de

entidades [Neumann et al., 2004]. Estas herramientas permiten localizar

aquellas entidades cuya clase semántica corresponde con aquella que la

pregunta espera como respuesta. De esta forma, el sistema sólo tiene en

cuenta aquellos extractos de texto que contienen alguna entidad del tipo

requerido como respuesta.

La gran mayoría de los sistemas actuales utilizan esta aproximación [Kwok et

al.2001; Negri et al. 2003 ; Osenova et al., 2004]. De entre los sistemas que

adoptan esta estrategia general, cabe destacar algunas variantes interesantes.

El sistema utilizado por IBM [Prager et al., 2000] y el del INAOE, [Perez-

Coutiño et al., 2004] basan su aproximación en el concepto de anotación

predictiva. Este sistema utiliza un etiquetador de entidades para anotar en

todos los documentos de la colección, la clase semántica de aquellas entidades

que detecta. Dicha clase semántica se indexa junto con el resto de términos de

los documentos. Este proceso facilita la recuperación preliminar de los

extractos de documentos que contienen entidades cuya clase semántica

coincide con la esperada como respuesta.

Otras aproximaciones incluidas en este grupo realizan un uso más intensivo de

la información sintáctica. Algunos sistemas tienen en cuenta la similitud entre

las estructuras sintácticas de las preguntas y posibles respuestas como factor

importante en el proceso de extracción de la respuesta final [Buchholz 2001;

Lee et al., 2001].

Finalmente, cabe destacar algunas aproximaciones que pueden

considerarse próximas a la propuesta aquí presentada. De hecho este trabajo

final de carrera toma el enfoque desarrollado por Brill pero con ciertas

diferencias que mencionaremos mas adelante.

Los sistemas de la Universidad de Waterloo [Clarke et al., 2001] y Microsoft

[Brill et al., 2001] y más recientemente Linguateca [Costa et al., 2004] se

caracterizan principalmente por el uso de Internet (documentos Web) como

fuente de información añadida en el proceso de BR.

En el caso de la Universidad de Waterloo [Clarke et al., 2001], el sistema

realiza el proceso de búsqueda a través de la Web y recopila determinada

Page 49: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

43

información, como respuestas posibles encontradas y frecuencia de las

mismas. Posteriormente, el sistema realiza el mismo proceso sobre la base

documental sobre la que ha de extraerse la respuesta pero utilizando la

información obtenida a través de Internet para mejorar el proceso de

identificación y extracción de la respuesta correcta en la base documental. Los

experimentos realizados por este sistema demuestran que el uso de la

información extraída a través de la Web resulta de una importancia notable,

mejorando en gran medida el rendimiento final del sistema.

Por otra parte, Microsoft [Brill et al., 2001] no utiliza Internet como mero apoyo

al sistema, sino que su aproximación se fundamenta en el uso de la

información obtenida a través de la red. En resumen, este sistema trata de

aprovechar la gran densidad de información existente en la Web para encontrar

una respuesta que esté expresada mediante una combinación de los términos

de la pregunta. Por ejemplo, una posible respuesta a la pregunta “¿Cuándo fué

inventado el papel?", podría expresarse de esta forma: “El papel fue inventado

el <FECHA>". Este sistema, a partir de los términos de la pregunta, construye

de forma semi-exhaustiva todas las posibles combinaciones que incluyen los

términos de la pregunta y el tipo de respuesta esperado incluyendo también,

aquellas que son incorrectas “El papel se inventó el <FECHA>". Para realizar lo

anterior se identifica cuál es el verbo en la oración y se hace uso de

conocimiento externo para completar o modificar las preguntas (para el ejemplo

de arriba se usan sinónimos como crear, descubrir). A continuación, todas las

formulaciones generadas se lanzan a través de Internet. Este sistema basa su

funcionamiento en dos suposiciones:

(1) Que las formulaciones incorrectas es poco probable que vayan a

encontrarse.

(2) Que la gran densidad de información accesible a través de la red

hace muy probable que se pueda encontrar una respuesta

expresada de la misma forma que alguna de las reformulaciones

correctas.

Posteriormente, los resultados de estas búsquedas se filtran para detectar

todas aquellas posibles respuestas que coinciden con el tipo esperado. Estas

Page 50: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

44

respuestas se valoran principalmente, en función de su frecuencia de aparición

en los resultados de la búsqueda en Internet y se ordenan según dicho valor.

En este punto, el sistema ha generado una lista de las mejores respuestas a la

pregunta encontradas a través de la Web. El último paso consiste en buscar

dichas respuestas en la base documental para determinar cuáles de ellas se

encuentran en alguno de sus documentos. Finalmente, el sistema devuelve

aquellas respuestas mejor clasificadas y que aparecen en esta colección.

En el tercer caso, el sistema Esfinge de Linguateca [Costa et al., 2004] para la

tarea monolingüe en Portugués tiene un enfoque bastante parecido al de

Microsoft pero usando tres diferentes estrategias: En la primera, el sistema

investiga las respuestas en la colección de documentos del CLEF, en la

segunda, el sistema investiga las respuestas en la Web y usa la colección de

documentos del CLEF para confirmar estas respuestas. Y finalmente, en la

tercera estrategia el sistema solo investiga las respuestas en la Web. Es

importante hacer notar que Esfinge utiliza diversos recursos lingüísticos, por

ejemplo un analizador morfológico, para mejorar su rendimiento.

Estas tres últimas aproximaciones están incluidas en el grupo de sistemas de

BR que utilizan el enfoque de usar la Web como un complemento para el mejor

rendimiento de sus sistemas, de hecho es el paradigma mas usado por la gran

mayoría de los sistemas actuales [Negri et al., 2003 ; Echihabi et al., 2003 ;

Jijkoun et al., 2003; Vicedo et al. 2003 ; Bourdil et al. 2004 ; de Pablo et al.

2004 ; Pérez- Coutiño et al., 2004].

2.4.3 Sistemas que usan información semántica.

El uso de técnicas de análisis semántico en tareas de BR es escaso

debido fundamentalmente a las dificultades intrínsecas de la representación del

conocimiento. De hecho, sólo un grupo reducido de sistemas aplica

herramientas que realizan este tipo de análisis.

Estas técnicas se utilizan en los procesos de análisis de la pregunta y de

extracción final de la respuesta. De forma general, estos sistemas obtienen la

Page 51: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

45

representación semántica de la pregunta y de aquellas sentencias que son

relevantes a dicha pregunta.

A partir de lo anterior la extracción de la respuesta se realiza mediante

procesos de comparación y unificación entre las representaciones de la

pregunta y las frases relevantes.

El sistema de la Universidad de California del Sur [Hovy et al. 2000, 2001;

Echihabi et al., 2003] utiliza el concepto de tripletas semánticas (una entidad

del discurso, el rol semántico que dicha entidad desempeña y el término con el

que dicha entidad mantiene la relación) para representar dicha información.

Como ejemplo de uso eficaz de las técnicas de análisis semántico cabe

destacar los sistemas de la universidad Metodista [Harabagiu et al., 2000], LCC

[Harabagiu et al., 2001], el grupo de QA de tecnología de lenguaje de DFKI

[Neumann et al., 2004] y la Universidad de Ámsterdam [Jijkoun et al., 2003].

Estos sistemas utilizan el análisis semántico en el proceso de extracción final

de la respuesta. Para ello, tanto las preguntas como las frases que contiene las

posibles respuestas son representadas mediante fórmulas lógicas a las que se

aplica un proceso de unificación para localizarlas posibles respuestas. Estas

respuestas sirven de entrada a un módulo posterior de análisis contextual que

permite verificar si son correctas dichas respuestas, descartando aquellas que

resultan incorrectas.

2.4.4 Sistemas que usan información contextual

La aplicación de técnicas de análisis contextual en sistemas de BR se

restringe a la incorporación de conocimiento general del mundo asociado a

mecanismos inferenciales que facilitan el proceso de extracción de respuestas

y a la aplicación de procesos de resolución de correferencias.

Cabe destacar que los sistemas de la universidad Metodista del Sur [Harabagiu

et al., 2000], LCC [Harabagiu et al., 2001] y la universidad de Ámsterdam

[Jijkoun et al., 2003] son los que mejor rendimiento obtienen de la aplicación de

técnicas de este nivel de análisis del lenguaje natural.

Page 52: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

46

Estos sistemas parten de las respuestas posibles obtenidas como resultado del

proceso de unificación realizado a nivel de análisis semántico. A estas

respuestas, se añaden un conjunto de axiomas que representan el

conocimiento general del mundo (obtenidos de WordNet) junto con otros

derivados de la aplicación de técnicas de resolución de correferencias a través

de las respuestas posibles.

La resolución de correferencias constituye el conjunto de técnicas de

análisis contextual más utilizada en procesos de BR. Son varios los sistemas

que aplican alguna técnica de resolución de correferencias en el proceso de BR

[Hovy et al., 2001], [Harabagiu et al., 2001] y [Vicedo et al., 2002].

Generalmente, las técnicas de resolución de la anáfora se aplican en dos

etapas diferentes del proceso de BR: en la extracción de las respuestas y en el

análisis de las preguntas. En el primer caso, la resolución de correferencias se

realiza sobre aquellos documentos que son relevantes a la pregunta con la

finalidad de facilitar la localización y extracción de entidades relacionadas con

la pregunta y la respuesta. En el segundo caso, los sistemas utilizan estas

técnicas para seguir la pista de aquellas entidades del discurso referidas de

forma anafórica a través de series de preguntas individuales que interrogan al

sistema acerca de diferentes aspectos relacionados todos en un mismo

contexto.

2.5 Conceptos generales

Esta sección introduce algunos conceptos de RI muy utilizados y cuyo

conocimiento resulta recomendable para la correcta comprensión de capítulos

sucesivos.

Page 53: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

47

2.5.1 Palabras de parada y palabras clave

La representación de un documento depende del conjunto de palabras

que lo componen. Sin embargo, existe un conjunto de palabras, de uso muy

frecuente, que carecen de poder de discriminación puesto que aparecen en la

mayoría de los documentos. Este conjunto de palabras se denomina lista de

palabras de parada (stopword list). Estas palabras se suelen eliminar en el

proceso de indexación con la intención de reducir espacio de almacenamiento

y aumentar el rendimiento de los sistemas. Los siguientes términos en

castellano constituyen algunos ejemplos de este tipo de palabras:

“el",”lo",”para" y “con". Existen varias de estas listas que se han obtenido en

estudios específicos a tal efecto [Fox, 1992; Rijsbergen, 1979].

En contraposición, aquellas palabras que no aparecen en la lista de palabras

de parada, se consideran lo suficientemente discriminantes como para

representar el contenido de un documento y por tanto, son indexables. Estos

términos reciben la denominación de palabras clave (keywords).

2.5.2 Pesos de términos

Una de las consideraciones básicas de los sistemas de RI es que todas

las palabras clave no tienen el mismo valor discriminatorio. Son varias las

técnicas que se han desarrollado para calcular y asignar pesos a las palabras

clave en función de su “poder discriminatorio" intrínseco.

La técnica de asignación de pesos más utilizada es la desarrollada en

[SparckJones, 1972] donde a cada término se le asigna un peso calculado en

función del valor inverso de su frecuencia de aparición en el conjunto de

documentos de la colección (inverse document frequency).

Este valor se computa según la siguiente expresión:

=

tt df

Nidf log

Donde N es el número total de documentos de la colección y dft es el número

de documentos en los que aparece el término t.

Page 54: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

48

2.5.3 Obtención de raíces (stemming)

El proceso de obtención de raíces es una técnica que utilizan los

sistemas de RI para aumentar su efectividad y reducir el tamaño de los

archivos de indexación. Este proceso consigue obtener un único término a

partir de palabras con el mismo significado pero que difieren esencialmente en

su morfología. Este proceso obtiene una misma forma canónica para las

diferentes variantes morfológicas de un término que no tiene porqué ser

necesariamente, su raíz lingüística.

Existen diferentes tipos de algoritmos que realizan este proceso.

2.5.4 Expansión de preguntas

La mayoría de los modelos de RI detectan aquellos documentos

relevantes a una pregunta mediante la evaluación del nivel de co-ocurrencia de

términos entre la pregunta y los documentos de la colección. Puesto que esta

comparación se hace a nivel de términos, es fácil encontrar casos en los que el

sistema descarta documentos muy relevantes que utilizan para expresar su

contenido términos diferentes a los empleados en la pregunta.

Bajo la expresión expansión de preguntas (question expansion) se enmarcan

aquellos procesos automáticos que tratan de mejorar las preguntas iniciales

generadas por los usuarios, y cuyo objetivo es minimizar el número de

documentos relevantes descartados a propósito del uso de modelos de

recuperación basados en la co-ocurrencia de términos.

El proceso de expansión consiste en añadir, al conjunto de términos originales

de la pregunta, aquellos otros términos relacionados que pueden utilizarse para

expresar las mismas ideas o conceptos.

Existen diferentes métodos de selección de los términos a incorporar a la

pregunta. Desde la selección de variantes morfológicas de los términos

originales, pasando por la búsqueda de términos semánticamente relacionados

(sinónimos, hipónimos, hiperónimos, . . . ) en bases de datos léxico-semánticas

Page 55: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

49

como WordNet, hasta el uso de técnicas estadísticas para la determinación de

los términos a incluir (ejemplo: vecinos más frecuentes).

El uso de este tipo de técnicas ha sido muy beneficioso en términos de

rendimiento del sistema.

Los trabajos desarrollados por Donna Harman [Harman, 1988, 1992] suponen

un buen estudio comparativo de las diferentes técnicas de expansión

existentes.

2.5.5 Realimentación

El concepto de realimentación (relevance feedback) ha sido aplicado en

entornos de RI como técnica diseñada para mejorar la eficacia de estos

sistemas.

Esta técnica consiste en enriquecer la pregunta inicial realizada por el usuario

del sistema mediante la utilización de la información de aquellos documentos

que se han recuperado utilizando exclusivamente dicha pregunta inicial. La

información relevante incluida en estos documentos, se añade a la pregunta

complementando así, la información que ésta contiene y facilitando la detección

nuevos documentos relevantes en búsquedas posteriores.

Este proceso puede ser manual o automático. En el primer caso, el usuario

dirige el proceso de realimentación por ejemplo, seleccionando aquellos

documentos que le son relevantes de entre los recuperados con la pregunta

inicial. Este proceso puede realizarse también de forma automática mediante la

selección de los primeros n documentos recuperados.

Las técnicas de realimentación han demostrado ser muy eficaces en tareas de

RI. En [Harman,1992] se puede encontrar un estudio de las principales

aproximaciones existentes.

Page 56: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

50

Page 57: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

51

Capitulo 3. BR monolingüe: El sistema INAOE Como ya se ha dicho en los capítulos anteriores, un sistema de

búsqueda de respuestas es aquel sistema capaz de devolver respuestas

concisas a preguntas sobre hechos concretos. En este capítulo se verá un

ejemplo de este tipo de sistemas, el sistema del INAOE de búsqueda de

respuestas mediante tratamiento a nivel léxico y aprovechando la redundancia

existente en la web. El sistema originalmente se implementó para su utilización

en castellano. Veremos como adaptarlo a otros idiomas, y como afecta la

redundancia a los resultados obtenidos.

El presente capítulo ha sido extraído en gran parte del trabajo efectuado

por Alejandro Del Castillo Escobedo y reflejado en la tesis titulada “Búsqueda

de Respuestas mediante Redundancia en la Web” [Del Castillo, 2005].

3.1 Introducción

En el INAOE inician los trabajos sobre sistemas de BR en agosto de

2003. Se trabaja sobre dos ideas en paralelo:

1) Búsqueda de respuestas mediante anotación predictiva, con las siguientes

premisas iniciales de trabajo:

! Se efectúa un análisis léxico sintáctico.

! Se reconocen entidades.

! Se utilizan metadatos para expresar contenido relevante (posibles

respuestas) de los documentos.

! Las preguntas factuales se responden con entidades nombradas

(nombres de personas, lugares, fechas...)

! La hipótesis de trabajo sobre la que se basan es que si se extraen todas

las entidades nombradas en un documento, y se representan

Page 58: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

52

adecuadamente su contexto de ocurrencia, entonces podemos

responder a preguntas sin necesidad de recurrir al documento como tal.

2) Búsqueda de respuestas basadas en la web, a partir de las siguientes

premisas:

! Se realiza un tratamiento a nivel léxico de las preguntas y documentos.

! Se basa en la redundancia existente en la web: la misma información

está repetida en multitud de documentos.

! Sistema estadístico de BR capaz de responder preguntas factuales en

español a partir de la web.

! La idea central en la que se basa el sistema es que “las preguntas y las

respuestas de estas se expresan comúnmente usando las mismas

palabras”.

! Por los tanto, las respuestas se pueden encontrar mediante un simple

apareamiento de patrones léxicos, sin necesidad de aplicar recursos

lingüísticos sofisticados.

! La probabilidad de encontrar un ajuste de este tipo debería incrementar

con la redundancia de la colección destino, en nuestro caso la web.

Sobre la segunda línea de investigación, es sobre la que se ha trabajado

en este PFC. Por lo tanto, en este y sucesivos capítulos cuando hablemos de

sistema INAOE estaremos refiriéndonos a esta línea de investigación.

3.2 Arquitectura del sistema BR INAOE basado en la Web

El trabajo está basado en el enfoque desarrollado por Brill [Brill et al.

2001]. Esta metodología no depende de costosas herramientas con las que

tratar las entidades lingüísticas. La idea principal es que las preguntas y

respuestas se expresan comúnmente usando las mismas palabras. Por

ejemplo, en la pregunta “¿Quién es el autor de “El Quijote”?”, podríamos

encontrar como respuesta “El autor de “El Quijote es ..”.” como parte de la

respuesta. Por tanto, habrá que dotar al sistema de un módulo capaz de

Page 59: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

53

generar distintas combinaciones de palabras a partir de la pregunta. A partir de

ahí se realizarán las peticiones sobre la Web a través del buscador web

Google.

Este módulo será el módulo llamado “Reformulaciones”. Dada una pregunta, el

sistema genera una serie de reformulaciones con los términos usados en la

pregunta, estas reformulaciones son simples manipulaciones de palabras. O

dicho de otra forma, definimos reformulación como la expresión que,

probablemente, fue usada para escribir la respuesta deseada, dicha expresión

se construye a partir de la manipulación de las palabras de la pregunta original.

A partir de las reformulaciones, y tras haber enviado cada reformulación al

Google, este nos devuelve cadenas de palabras en las cuales se encuentra

parte de la petición formulada. Estos extractos son los llamados snippets. Se

define snippet, como aquellos extractos de texto que son devueltos por los

buscadores web, y que contienen las palabras introducidas en la búsqueda.

De los extractos devueltos, se obtendrá la respuesta clasificando por extractos

más frecuentes y asignado distintos pesos según los casos. Se verá con más

detalle la manera de extraer respuestas en los puntos siguientes.

Como ejemplo de reformulaciones generadas por el sistema, para la pregunta

“¿Cuál es la capital de España?”, se generarían:

- Es la capital de España

- “La capital” “de España”

- “De España” “la capital”

- “la capital de España es”

La respuesta se podría encontrar en un texto que podría ser “la capital de

España es”, siendo esta una de las reformulaciones generadas, solamente

combinando palabras o partes de la oración tratada. Se verán ejemplos de

otros tipos de reformulaciones en el punto dedicado exclusivamente a este

respecto.

Para una oración con 3 partículas preposicionales o conjunciones, y para el

caso de la reformulación “Constituyentes”, se obtendrían un total de 6

Page 60: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

54

reformulaciones que lanzaría el sistema como queries en el conjunto de

documentos de referencia, en nuestro caso el Google.

En algunos los casos, las reformulaciones obtenidas no producen resultados, o

lo que se obtiene no resulta útil para nuestros propósitos. Por ejemplo: “…es

capital para España…”, “…España jugará en la capital de…”. Por esto, será

necesario que para determinar la respuesta habrá que establecer criterios (a

nivel léxico) tanto para la manipulación de las palabras de la pregunta como

para seleccionar los mejores fragmentos a partir de los cuales se calculará la

respuesta. Por supuesto, mientras más grande sea la colección que se tiene

una mayor probabilidad de encontrar la respuesta correcta, mientras más

fragmentos tengamos más confiable será la respuesta calculada, ya que este

cálculo está en función de la palabra o palabras más frecuentemente

observados en estos fragmentos. De ahí la importancia de la redundancia

(múltiples ocurrencias de cierta información) existente en la web, y de por qué

es el escenario perfecto para este tipo experimental de sistemas que estamos

introduciendo. Es aquí donde se usa la explosión de información existente en

Internet, haciendo muy probable que haya varios fragmentos con la respuesta.

Cabe mencionar que esta idea también ha sido explorada por otros sistemas

de BR [Buchholz et al. 2001 ; Kwok et al. 2001] con pequeñas variantes y

siempre para el idioma inglés.

El presente trabajo final de carrera se basa en el enfoque de Brill, pero con una

salvedad, las reformulaciones de la pregunta. En el enfoque de Brill se usa un

lexicón para determinar las partes de la oración y las variantes morfológicas de

palabras claves. En el sistema INAOE, las reformulaciones no dependen de un

lexicón y se basan solamente en la manipulación de las palabras de la

pregunta, sin tener casi ningún conocimiento previo acerca de dichas palabras.

A diferencia del trabajo de Brill, no se hace uso de ningún conjunto de patrones

léxicos por tipo de pregunta, para extender las reformulaciones con palabras no

contenidas en la pregunta original. En nuestro sistema no se hace uso de

conocimiento externo, específico del idioma, sino que se manipulan

directamente las palabras de la pregunta, aplicando un método puramente

estadístico para la selección de las respuestas.

Page 61: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

55

Para adaptar el sistema a otros idiomas será necesario realizar algunos

cambios, que se comentarán brevemente en el punto 3.3 (Adaptación del

sistema INAOE a otros idiomas).

Dada la cantidad de información que está disponible en la Web, no debe

sorprender que sea una fuente ideal de respuestas a una amplia gama de

preguntas. En esto consiste la redundancia que hemos mencionado. Un

suceso, acontecimiento o noticia aparece descrito en la Web en diferentes

formas y estilos.

Los párrafos siguientes describen cada uno de los módulos del sistema de BR

propuesto (Figura 3.1). Nuestro enfoque incluye los siguientes módulos:

Análisis o tratamiento de la pregunta, la recuperación de los documentos y el

módulo de extracción de respuestas.

Figura 3.1

Page 62: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

56

3.2.1 Reformulaciones

Este módulo genera el conjunto de reformulaciones a partir de una

pregunta dada. Se introducen 5 tipos de reformulaciones, que son el resultado

de muchas pruebas en torno a definir qué combinaciones entre palabras de

una pregunta generarían mejores resultados.

Por tanto, podríamos definir reformulación como la expresión que, es

construida a partir de las palabras de la pregunta, y que con cierta

probabilidad es usada para escribir la respuesta buscada. La expresión

obtenida, es producto de la combinación de las palabras de la expresión en la

pregunta original, exceptuando la partícula interrogativa que es eliminada antes

del proceso de reformulación. Se definen 5 tipos de combinaciones,

correspondiendo cada una de ellas a un tipo de reformulación.

Así, para la pregunta: “¿Quién descubrió la penicilina?”, las siguientes podrían

ser algunas reformulaciones de la pregunta:

“descubrió la penicilina”

“la penicilina descubrió”

“la descubrió penicilina”

En los puntos siguientes veremos a través de un ejemplo los tipos de

reformulaciones empleadas y como se obtienen a partir de la pregunta.

Durante una primera etapa de experimentación en el equipo de

experimentación del INAOE probaron con todas las posibles reformulaciones

de las preguntas, es decir, todas las combinaciones de sus palabras.

Estos experimentos demostraron dos cosas:

(i) que el esquema no es funcional para analizar preguntas con más de

5 palabras;

(ii) que la gran mayoría de las reformulaciones construidas son

inadecuadas.

Page 63: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

57

A partir de estos resultados iniciales se seleccionó un conjunto de

reformulaciones, aquellas con mejores resultados. Las mejores reformulaciones

correspondieron a aquellas que presentaban una estructura sintáctica correcta.

En los siguientes puntos se presentan ejemplos de reformulaciones. En

todos ellos se muestran resultados a partir de la pregunta:

“¿Quién ganó el campeonato de fútbol español en 2004?”

En los algoritmos que se describen mas adelante, usamos la siguiente

notación:

Se representa la pregunta Q como un conjunto de palabras:

Q = { W0, W1 , .., Wn-1},

donde W0 representa la palabra del tipo Cuándo, Dónde, Quién, etc. y n

representa el número de palabras en la pregunta.

Para cada pregunta se representan las reformulaciones de ésta, R, como una

cadena (string).

Esta cadena está formada por palabras, espacios y dobles comillas (“”), y

además satisface el formato de consulta de los motores de búsqueda

tradicionales.

Así, la reformulación R = W1 W2 corresponde a la consulta W1 AND W2 y la

reformulación R = “W1 W2 ” corresponde a la consulta “W1 W2” .

3.2.1.1 Reformulación: “Bolsa de palabras”

Básicamente con esta reformulación obtenemos los mismos resultados

que con un sistema de RI, así la búsqueda de extractos usa todas las palabras

de la pregunta excluyendo las palabras vacías: (“ganó”, “campeonato”, “fútbol”,

“España”, “2004”).

Page 64: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

58

Las palabras vacías son el conjunto de palabras de uso muy frecuentes y que

carecen de poder de discriminación para determinar el contenido de un

documento ya que aparecen en la mayoría de los documentos, ejemplos de

dichas palabras son: a, el, de.

El algoritmo de esta reformulación (Tabla 3.1) considera todas las palabras de

la pregunta, sin incluir palabras vacías (preposiciones, conjunciones, artículos).

3.2.1.2 Reformulación: “Manipulación del verbo”

Entre las primeras observaciones al examinar una lista de preguntas

factuales, el equipo investigador del INAOE se percató de que, con frecuencia,

inmediatamente después del pronombre o adverbio interrogativo se encuentra

el núcleo verbal. Al colocar el verbo en posición final (o eliminarlo) es posible

transformar la frase interrogativa a su forma declarativa. Es de suponer que

dicha forma declarativa será abundante en los documentos analizados.

Dado que no se desea utilizar ningún recurso lingüístico para determinar el

verbo, se generan una serie de reformulaciones manipulando la primera

palabra de la pregunta (después de eliminar la partícula interrogativa) La Tabla

3.2 muestra el algoritmo utilizado.

Tabla 3.1 Algoritmo Reformulación Bolsa de palabras

1. PARA CADA Wi Є Q | i ≥1

2. SI Wi no es palabra vacía ENTONCES

3. R0 ← R0 U Wi

4. FIN SI

5. FIN PARA

6. GUARDAR R0

Page 65: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

59

Para la pregunta ejemplo y con esta reformulación obtendríamos las siguientes

reformulaciones:

“ganó el campeonato de fútbol español en 2004”

“el campeonato de fútbol español en 2004””

“el campeonato de fútbol español en 2004 ganó”

“campeonato de fútbol español en 2004”

“campeonato de fútbol español en 2004 ganó el”

Y como en ciertas ocasiones es posible encontrar verbos auxiliares también se

generarán reformulaciones manipulando la segunda palabra.

Tabla 3.2 Algoritmo Reformulación Movimiento del verbo

1. W1=””

2. R0=”W1 W2….Wn”

3. GUARDAR R0

4. PARA i desde 1 a 2

5. RtE=”Wi+1 Wi+2.......Wn-1”

6. GUARDAR

7. RtM=”Wi+1 Wi+2...Wn-1 Wi-1 Wi”

8. GUARDAR RtM

9. FIN PARA

Notación Rn representa todas las palabras de la pregunta (sin la partícula interrogativa) Rt

E como R0 pero eliminando la primera palabra(i-1) o, eliminando la primera palabra (i-2) Rt

M como R0 pero moviendo a primera palabra (i-1) o, moviendo la primera y segunda palabra (i-2)

Page 66: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

60

3.2.1.3 Reformulación: “Componentes”

En este caso, la pregunta es segmentada en componentes. Un

componente es interpretado aquí como una expresión delimitada por

preposiciones. A partir de combinaciones de estos componentes se construirán

nuevas reformulaciones.

Es evidente que en algunos casos la reformulación no tiene sentido ("en 2004

español campeonato ") y no habrá extractos resultantes, sin embargo en otros

casos ("en 2004 ganó el campeonato de fútbol español"), la reformulación

probablemente producirá la recolección de extractos relevantes.

Una pregunta que tiene m preposiciones se representa por un conjunto de

componentes C = { C1 , C2 . . . Cm+1 }. Cada componente Ci es una subcadena

de la consulta original.

A continuación se muestra las reformulaciones producidas por el tipo

componentes:

“ganó el campeonato” “de fútbol español” “en 2004”

“ganó el campeonato de fútbol español en 2004”

“ganó el campeonato en 2004 de fútbol español”

“de fútbol español ganó el campeonato en 2004”

“de fútbol español en 2004 ganó el campeonato”

“en 2004 ganó el campeonato de fútbol español”

“en 2004 de fútbol español ganó el campeonato”

Tabla 3.3 Algoritmo Reformulación componentes

1. Determinar conjunto de componentes C de Q

2. RQ= “C1” “C2”....”Cn-1”

3. GUARDAR

4. PARA cada permutación C’ de C

5. RQ=”C’1 C’2 ...C’n-1”

6. GUARDAR

7. FIN PARA

Page 67: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

61

donde las 3 componentes de partida son:

1) ganó el campeonato español

2) de fútbol

3) en 2004

3.2.1.4 Reformulación: “Componentes excluyendo la primera palabra”

Este tipo de reformulación es una combinación de las dos anteriores.

Como vimos en la segunda reformulación, generalmente la primera palabra es

un verbo. En este caso repetimos la tercera reformulación pero eliminando la

primera palabra.

Las reformulaciones por componentes excluyendo la 1ª palabra resultantes con

el ejemplo son:

“el campeonato” “de fútbol español” “en 2004”

“el campeonato de fútbol español en 2004”

“ el campeonato en 2004 de fútbol español”

“de fútbol español el campeonato en 2004”

“de fútbol español en 2004 el campeonato”

“en 2004 el campeonato de fútbol español”

“en 2004 de fútbol español el campeonato”

donde las 3 componentes de partida son:

1) el campeonato español

2) de fútbol

3) en 2004

Page 68: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

62

3.2.1.5 Reformulación: “componentes excluyendo las dos primeras palabras”

En este caso, se supone la presencia de un verbo auxiliar, por esa razón

se eliminan las dos primeras palabras. Como puede observarse, las

reformulaciones son sencillas manipulaciones de los términos de la pregunta,

que finalmente tratan de aprovechar cierta estructura sintáctica presente en las

preguntas factuales. Por supuesto, estas reformulaciones son ciegas y se

aplican de manera indiscriminada. Esto provoca que muchas reformulaciones

no tengan sentido, en cuyo caso es poco probable la recopilación de extractos

de interés. Sin embargo, en otros casos la reformulación coincidirá con alguno

o varios documentos con la consecuente recopilación de extractos apropiados.

Las reformulaciones por componentes excluyendo la 1ª y 2ª palabra:

“campeonato” “de fútbol español” “en 2004”

“campeonato de fútbol español en 2004”

“campeonato en 2004 de fútbol español”

“de fútbol español campeonato en 2004”

“de fútbol español en 2004 campeonato”

“en 2004 campeonato de fútbol español”

“en 2004 de fútbol español campeonato”

donde las 3 componentes de partida son:

1) campeonato español

2) de fútbol

3) en 2004

3.2.2 Recolección de Snippets

Este módulo toma las reformulaciones anteriores y lanza las búsquedas

sobre la Web apoyándose en algún motor de búsqueda ya existente. En

Page 69: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

63

nuestro caso, está recopilación de extractos se realiza mediante un programa

que hace uso de las especificaciones de las API (Application Programming

Interface) de Google©10.

Para nuestros experimentos se ha escogido Google como motor de búsqueda

porque tiene una gran de cantidad de documentos indexados, es muy rápido,

soporta expresiones booleanas y permite la extracción de snippets con co-

ocurrencias. El sistema almacena un conjunto de snippets, los primeros

devueltos por Google.

Google fue fundado en 1997 por Serge Brin y Larry Page en la Universidad de

Stanford. Su arquitectura está optimizada para un rendimiento de alta velocidad

y una búsqueda a gran escala [Brin et al., 1998].

Una de las características más importantes de Google es su algoritmo de

ordenamiento de páginas Web llamado PageRank© [Brin et al., 1998] el cual

hace uso intensivo de la estructura de grafo hipertexto de la Web.

PageRank© clasifica las páginas de acuerdo al número y a la autoridad de los

links que hacen referencia a ellas. La estructura hipertexto también es

explotada considerando el texto de los links. Cuando un documento de texto es

indexado, el texto de los links en otras páginas que apuntan a ese documento

también son considerados como parte del documento mismo.

Cuando el algoritmo investiga por documentos relevantes en una consulta,

toma en cuenta la frecuencia y la posición de los términos de la consulta, así

como su fuente y su capitalización. Además, las páginas donde los términos de

la consulta aparecen más cercanos son consideradas más relevantes. Google

prefiere extraer snippets donde la co-ocurrencia toma lugar ignorando pasajes

donde solo una palabra clave (keyword) aparece.

Veamos un ejemplo ilustrativo de cómo Google devuelve una respuesta

correcta ante una petición en forma de un ejemplo de reformulación mediante

la interfaz Web habitual del Google.

Ante la pregunta “¿Quién descubrió la penicilina?”, una de las reformulaciones

sería “descubrió la penicilina” que obtendría el siguiente resultado:

Page 70: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

64

Como podemos observar en el resultado experimental, en los primeros

snnipets devueltos se repiten varias palabras: “descubrió”, “penicilina”, palabras

vacias como artículos, preposiciones y adverbios y Fleming. Sin entrar en

consideraciones estadísticas (que se abordarán en el punto 3.2.3) de cómo se

calcula la respuesta, el sistema desecharía como posibles respuestas las

palabras vacías y las que formen parte de la pregunta.

En este caso nos quedaría como candidata perfecta Fleming, que casualmente

correspondería con la respuesta correcta.

3.2.3 Cálculo de la respuesta

Después de obtener, para el conjunto de las cinco reformulaciones

presentadas anteriormente, un conjunto de extractos, se calculan las

frecuencias de los términos contenidos en cada uno de ellos. Para ello se

Figura 3.2 Ejemplo de sninpets devueltos por el Google

Page 71: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

65

calculan los primeros 5 n-gramas considerando los signos de puntuación como

límites de frase y eliminando las palabras vacías.

Posteriormente se obtiene una lista con cinco respuestas candidatas

ordenadas en función de su frecuencia, es decir, el término o términos con

mayor presencia será el primero en considerarse como la respuesta correcta.

Por supuesto, es necesario aplicar una serie de criterios para determinar con

mayor precisión la respuesta correcta. Con este fin se han desarrollado tres

métodos diferentes: frecuencia relativa, expresiones regulares, y frecuencia

compensada con expresiones regulares.

Antes de explicar los diferentes métodos de extracción de la respuesta se

muestra la notación utilizada para los algoritmos de dichos métodos:

x(i) representa al i-grma x

x*j(k) representa al j-esimo k-grama contenido en x

Gi representa al conjunto de todos los i-gramas en la colección

Fx(i) representa la frecuencia del i-grama x

Fxj(k) representa la frecuencia del j-esimo k-grama contenido en x

Px(n) representa la frecuencia relativa del n-grama x

Para clarificar el concepto de n-grama, sirva de muestra el siguiente ejemplo:

Page 72: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

66

3.2.3.1 Método de frecuencias relativas

El método de frecuencias relativas consiste en extraer los veinte uni-

gramas más frecuentes obtenidos de la colección de snippets, y a partir de

ellos se obtienen los penta-gramas, cuatri-gramas, tri-gramas y bi-gramas que

los contengan.

La razón principal para considerar sólo veinte uni-gramas es que al analizar, las

respuestas de las preguntas, en los experimentos preliminares, se encontró

que, de existir la respuesta correcta, las palabras que conformaban dicha

respuesta siempre se encontraban dentro de ese rango. Este conjunto de n-

gramas se ordena de acuerdo a su frecuencia relativa. Para observar el

comportamiento del método mostramos los cinco mejores n-gramas para

nuestra pregunta ejemplo.

Este método favorece las expresiones cortas.

Lo anterior provoca algunos problemas cuando se trata de obtener como

respuesta n-gramas más largos; por ejemplo, al momento de obtener la

respuesta a la pregunta “¿Cuándo fue lanzado el Apolo 11?”, las mejores

Tabla 3.4 Algoritmo extracción frecuencias relativas

1. Extraer los veinte unigramas más frecuentes 2. Calcular la frecuencia relativa de cada unigrama x(1)G1

Px(1)=∑ ∈ )1()1(

)1()1(

Gyfy

fx

3. Determinar todos los n-gramas, desde los bigramas hasta los pentagramas ,

que contengan exclusivamente los unigramas más frecuentes 4. Ordenar los n-gramas en forma decreciente basados en su frecuencia

relativa. Calcular la frecuencia relativa de cada n-grama x(n), donde n>1, así:

∑=

∞=

N

iixn

nPx1

)1(1)(

5. Mostrar al usuario los primeros cinco n-gramas como posibles respuestas

Page 73: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

67

respuestas son “luna”, “espacio” y “hombre”. Ocupando la cuarta y quinta

posición aparecen las respuestas “julio” y “1969”. Lo anterior motivó a

desarrollar otro tipo de método de extracción que al filtrar (mediante ciertos

criterios tipográficos) los n-gramas más frecuentes resolviera la problemática

mencionada.

3.2.3.2 Método de expresiones regulares

Este método también filtra los 20 uni-gramas más frecuentes pero bajo

criterios tipográficos (mes del año, palabras con mayúscula inicial, números,

etc.). A partir de estos uni-gramas se obtienen todos los posibles n-gramas. Los

n-gramas son ordenados por número de palabras en orden descendente

obteniéndose de aquí las respuestas. La Tabla 3.10 muestra el algoritmo usado

en este método:

El método favorece las expresiones largas ya que después de extraer los

unigramas más frecuentes se buscarán los pentagramas que contengan dichos

unigramas, posteriormente los cuatrigramas y así sucesivamente.

Tabla 3.5 Algoritmo extracción expresiones regulares

1. Se extraen los veinte unigramas más frecuentes que satisfacen un cierto criterio tipográfico (palabras que inician con mayúscula, números y nombres de meses)

2. Se determinan todos los n-gramas, desde los bigramas a los pentagramas, que contengan, exclusivamente los unigramas más frecuentes

3. Se ordenan los n-gramas en forma decreciente basados en su número de palabras

4. Se muestran al usuario los primeros cinco n-gramas como posibles respuestas

Page 74: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

68

3.2.3.3 Método de frecuencia compensada con expresiones regulares

El método de frecuencia compensada utiliza las ideas de expresiones

regulares y de frecuencia relativa. Este será el método utilizado en los

experimentos del Capítulo 5 dedicado a mostrar los resultados experimentales

del sistema y sus adaptaciones a los idiomas valenciano e inglés.

Este método extiende el cálculo de la frecuencia relativa a los bi, tri y tetra-

gramas de los cuales se compone una expresión. De esta manera, a una

expresión de cinco términos que claramente por su longitud tendrá una

frecuencia relativa pobre se verá mejorada al compensarla con las frecuencias

relativas de los bi, tri y tetra-gramas que la conforman. Este método es el que

mejores resultados proporcionó en los diferentes experimentos realizados.

El método de frecuencia compensada con expresiones regulares filtra los 20

unigramas más frecuentes bajo criterios tipográficos (mes del año, palabras

con mayúscula inicial, números, etc.) usando expresiones regulares. A partir de

estos uni-gramas se obtienen todos los n-gramas, con n={2..5}, compuestos de

estos unigramas.

Posteriormente las frecuencias de los n-gramas se suman.

Tabla 3.6 Algoritmo de extracción frecuencia compensada con expresiones regulares

1. Se extraen los veinte unigramas más frecuentes que satisfacen un cierto criterio tipográfico (palabras que empiezan por mayúscula, números y nombres de meses)

2. Se determinan todos los n-gramas, desde los bigramas a los pentagramas que contengan exclusivamente los unigramas más frecuentes

3. Se ordenan los n-gramas en forma decreciente basados en su frecuencia relativa compensada. Calcular la frecuencia relativa compensada de cada n-grama x(n), donde n>1, así:

∑ ∑ ∑=

+−

=∈∀

=n

i

in

jGiy

iy

jix

ff

nnPx

1

1

1 )(

*)(1)(

4. Mostrar al usuario los primeros cinco n-gramas como posibles respuestas

Page 75: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

69

Un peso alto significa que se tiene una mayor presencia de dicha secuencia de

palabras, así como las subsecuencias de palabras contenidas.

De esta manera, una expresión de cinco términos que claramente por su

longitud tendrá una frecuencia relativa pobre se verá mejorada al compensarla

con las frecuencias relativas de los 2, 3 y 4-gramas que la conforman.

3.3 Adaptación del sistema INAOE BR a otros idiomas

El sistema de BR INAOE, originalmente, estaba configurado para la

búsqueda de respuestas en castellano en la web utilizando como recolector de

información el buscador Web Google.

En la fase de adaptación a otros idiomas (en nuestros experimentos

utilizaremos inglés y valenciano) se debe considerar lo siguiente:

• En plena ejecución de la aplicación, no cambiaremos el modo en que el

Google busca en la web, es decir, las búsquedas se realizarán en toda

la web. Esto es relevante, porque como veremos en los experimentos,

hay ocasiones en las que la información devuelta por le Google quizá

esté en otro idioma distinto al de la búsqueda lanzada. Esto se debe a

que hay palabras que coinciden en distintos idiomas. Como ejemplo

mencionar que durante la fase de experimentación se obtuvieron

snippets en castellano de queries lanzadas en valenciano. Veremos con

más detalle esta cuestión en el punto de experimentación.

• Se deben cambiar las palabras de paro dependiendo del idioma que

estemos utilizando.

• Es necesario sustituir las palabras empleadas por los módulos en java

para realizar las distintas reformulaciones. Estas palabras serán

preposiciones, conjunciones y artículos.

• Sustituir las partículas interrogativas por la traducción al idioma

empleado en los experimentos.

Page 76: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

70

Por tanto, en la fase de adaptación del sistema original, se obtendrán dos

sistemas derivados adaptados al valenciano y al inglés, que realizarán las

mismas acciones que el sistema INAOE de partida.

Page 77: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

71

Page 78: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

72

Capítulo 4. Búsqueda de respuestas multilingüe: El problema de la traducción

Los experimentos realizados han demostrado que la recuperación

translingüe es perfectamente realizable y con un nivel de eficiencia cercano a

una búsqueda monolingüe.

La tarea de obtener una lista de documentos en un mismo idioma ordenada

según la relevancia que tengan para una consulta escrita en un idioma

diferente, ya ha sido ampliamente resuelta, aunque la eficiencia de los sistemas

depende de la pareja de idiomas que se considere.

Sin embargo esto sólo es un componente de la tecnología completa, aún

quedan diversos problemas que no han sido completamente resueltos. Algunos

de ellos se mencionaron en el Workshop “CLIR: a research roadmap" en el

ámbito del SIGIR13 2002:

! Dominio: la mayoría de las técnicas empleadas han sido probadas sólo

sobre noticias de periódicos (en las colecciones TREC, CLEF y NTCIR)

y no se sabe si serían efectivas fuera de él.

! Eficiencia: el coste computacional que supone una traducción adecuada

de las consultas puede resultar excesivo para un entorno real de

búsqueda, aparte que la calidad de las traducciones aún no es óptima.

! Unificación: actualmente los sistemas de recuperación translingüe de

información presentan dos claras separaciones:

o Traducción y búsqueda: los procesos de traducción y búsqueda

se realizan, normalmente, por separado. De esta forma la

incertidumbre de las traducciones no influye en el proceso de

búsqueda.

o Diferentes idiomas: cuando se realiza una búsqueda multilingüe,

el problema de fusionar los resultados de cada una de las

búsquedas monolingües en una única lista ordenada aún no ha

sido resuelto. Algunos autores proponen la integración de estas

diferencias en un único modelo de manera que se pueda abordar

13 Special Interest Group on Information Retrieval

Page 79: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

73

la recuperación multilingüe de información de una manera similar

a la recuperación monolingüe.

! Interacción: los usuarios reales de los sistemas de búsqueda están

interesados en la información contenida en los documentos, no en la

lista ordenada que proporcionan los sistemas. La presentación de la

información contenida en documentos que están en un idioma que no es

el del usuario es algo sobre lo que apenas se ha investigado, y es una

posible razón para la escasa existencia de motores de búsqueda

translingües en la red. De igual manera, tampoco se han estudiado los

procesos interactivos de formulación y refinamiento de las consultas en

un entorno multilingüe.

4.1 Introducción

El auge de Internet en la llamada Sociedad de la Información, supone la

disponibilidad de cantidades prácticamente ilimitadas de información accesible,

principalmente, a través de la World Wide Web. Para que toda esa información

sea realmente accesible y útil, los motores de búsqueda o sistemas de

recuperación de información juegan un papel fundamental.

Tradicionalmente, la recuperación de información se ha entendido como el

proceso, totalmente automático, en el que, dada una consulta (expresando las

necesidades de información del usuario) y una colección de documentos, se

devuelve una lista ordenada de documentos supuestamente relevantes para la

consulta. Un motor de búsqueda ideal recuperará todos los documentos

relevantes (lo que implica una cobertura completa) y sólo aquellos documentos

que son relevantes (precisión perfecta).

Este modelo tradicional lleva consigo muchas restricciones implícitas; entre

ellas, la suposición de que la consulta y el documento están escritos en el

mismo idioma.

Algunos motores de búsqueda incorporan sistemas de traducción automática,

que sólo resultan útiles cuando los documentos ya han sido localizados, pero

Page 80: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

74

no facilitan un medio efectivo para salvar la barrera del idioma en el proceso de

búsqueda.

Por este motivo, la información a la que facilitan el acceso estos motores de

búsqueda queda limitada a la escrita en idiomas en los que el usuario sea

capaz de expresar sus consultas. Esto puede suponer un problema más o

menos grave según el idioma del que se trate, en general, cualquier usuario de

Internet que no pueda formular consultas en inglés con fluidez tendrá

dificultades a menudo para realizar sus búsquedas. Incluso para hablantes

nativos de inglés, el volumen de datos inaccesible por causa de las barreras

idiomáticas crece cada año, si no porcentualmente, si en términos absolutos.

En la siguientes tablas se muestra la evolución de la utilización de idiomas en

Internet :

Utilización de Internet según el idioma

1999 2001 2003 2005

Usuarios de habla

inglesa

(porcentaje)

91.969.151

54%

108.282.662

51%

124.265.453

46%

147.545.824

43%

Usuarios de habla no

inglesa

(porcentaje)

79.094.449

46%

104.480.528

49%

143.733.527

54%

198.008.511

57%

Total en el mundo

171. 168.600 212.889.190 268.150.180 345.735.835

Fuente: Computer Economics

Tabla 4.1 Evolución de la utilización de idiomas en Internet

Por los datos reflejados en la Tabla 4.1 se observa el gran crecimiento

de usuarios en términos globales que utilizan Internet y por otro lado que en los

últimos años el crecimiento de usuarios de habla distinta a la inglesa es mayor

que el de usuarios de habla inglesa.

Page 81: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

75

En la Tabla 4.2 se muestran la clasificación de los 10 lenguajes más

utilizados en la Web:

TOP TEN LANGUAGES IN THE INTERNET

Internet Users, by Language

Penetration (% Population)

Estimate for Language World Population

Language as % of Total Internet Users

Inglés 296,439,411 26.8 % 1,107,807,851 31.6 %

Chino 124,014,713 9.3 % 1,329,801,131 13.2 %

Japonés 78,050,000 60.9 % 128,137,485 8.3 %

Español 60,471,125 15.5 % 389,587,559 6.4 %

Alemán 55,129,733 57.3 % 96,141,368 5.9 %

Francés 38,295,745 10.2 % 374,555,140 4.1 %

Coreano 31,600,000 43.3 % 73,044,495 3.4 %

Italiano 28,610,000 48.8 % 58,608,565 3.0 %

Portugués 28,575,400 12.6 % 227,628,673 3.0 %

Holandés 14,655,328 60.5 % 24,224,721 1.6 %

TOP TEN LANGUAGES 755,841,455 19.8 % 3,809,536,987 80.5 %

Rest of the

Languages 182,869,474 7.0 % 2,610,565,735 19.5 %

WORLD TOTAL 938,710,929 14.6 % 6,420,102,722 100.0 %

Fuente: Computer Economics Tabla 4.2 Clasificación de los 10 lenguajes más utilizados en Internet año 2004

El término acceso multilingüe a la información hace referencia a un

concepto más amplio, aunque más adaptado a la realidad de Internet, que el

concepto clásico de recuperación de información: ayudar al usuario a buscar

información (no ya documentos) procedente de fuentes heterogéneas

Page 82: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

76

(textuales o de contenido multimedia) por encima de las barreras idiomáticas.

Diversas líneas de investigación abordan los distintos aspectos que se

engloban en este concepto incluso dentro del mismo marco del procesamiento

del lenguaje natural: recuperación multilingüe de información, recuperación de

información multimedia (ya sea sobre video, audio o imágenes digitales),

recuperación interactiva de información, sistemas de pregunta y respuesta...

etc.

En este documento se plantean las dificultades que se plantean para el acceso

a información escrita en idiomas desconocidos para el usuario.

La recuperación multilingüe de información engloba, a su vez, varios

escenarios diferentes:

! Recuperación translingüe de información (también llamada Bilingüe),

que estudia la recuperación de documentos escritos en un único idioma

diferente del utilizado para expresar la consulta. Un turista buscando

información local, por ejemplo, realizará una búsqueda translingüe de su

idioma nativo al del país que visita.

! Recuperación multilingüe de información, que estudia la recuperación

de documentos escritos en varios idiomas a partir de una consulta

expresada en un idioma determinado. Por ejemplo, el caso de un

periodista que quiere conocer el enfoque de un cierto tema en variaos

idiomas pertenece a este escenario.

En este sentido existen dos problemas que apenas han sido estudiados desde

la perspectiva de la recuperación multilingüe:

1. ¿Cómo reconocer la información realmente relevante para nuestra

necesidad de información de entre toda la información ofrecida por un motor de

búsqueda?

2. ¿Cómo podemos refinar nuestra consulta teniendo en cuenta los resultados

obtenidos?

La razón de que no se hayan estudiado a fondo es la presunción implícita de

que:

1. Los sistemas comerciales de traducción automática pueden ser utilizados

para traducir los documentos al idioma nativo del usuario.

Page 83: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

77

2. Las tareas de selección documental translingüe y de refinamiento de la

consulta pueden ser realizadas empleando estas traducciones.

Sin embargo, estas suposiciones están lejos de ser verificadas

experimentalmente, y de hecho hay razones para cuestionarlas. Por un lado,

las traducciones automáticas distan mucho de ser perfectas, como se mostrará

en los distintos experimentos de BR translingüe del Capítulo 5.

Se incluyen como anexos (Anexo I y Anexo II) dos artículos que muestran

experimentos de búsqueda de respuestas en modo translingüe.

4.2 RI multilingüe

En 1969 Salton planteó por primera vez el problema de encontrar

documentos escritos en un idioma diferente al de la consulta y propuso una

aproximación consistente en la utilización de un tesauro bilingüe (creado

manualmente) entre alemán e inglés [Salton, 1970]. Los resultados obtenidos

fueron prácticamente iguales a los realizados con una búsqueda monolingüe,

debido a que el tesauro utilizado era manual y la correspondencia entre los

términos de indexación entre ambos idiomas era perfecta.

Pero no fue hasta 1996 cuando, con la creación de las primeras campañas de

evaluación comparada sistemática de este tipo de sistemas, se inicia como un

área de investigación propia. Este año se organizó un workshop

específicamente dedicado a la recuperación translingüe de información en el

SIGIR. A partir de este evento se organizan con carácter regular las siguientes

actividades internacionales:

! Desde 1997 se creó un “track" especial en el marco del TREC para la

evaluación de este tipo de sistemas.

Inicialmente la evaluación se limitó a un sistema bilingüe (involucrando

dos idiomas de entre inglés, francés o italiano) para, posteriormente ser

extendida a una evaluación en un entorno totalmente multilingüe. El

resultado de los tracks de recuperación de información translingüe del

Page 84: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

78

TREC es la primera gran colección para la evaluación de sistemas de

recuperación translingüe de información.

! En 1998 se crea el workshop NTCIR14, donde se evalúan sistemas

translingües entre el inglés y el chino, japonés o coreano, adoptando

muchas de las ideas en las que el TREC fue pionero.

! En el año 2000 el track de recuperación translingüe se separó del TREC

creándose el CLEF, donde se realiza el estudio de sistemas

translingües de recuperación de información que utilicen idiomas

europeos, mientras que en el TREC se mantuvo un pequeño track de

recuperación de información translingüe específicamente dedicado a

idiomas asiáticos.

En este capítulo vamos a analizar las diversas técnicas que han venido

utilizándose para contrarrestar la dificultad del idioma en una búsqueda

translingüe de información.

Comenzaremos viendo diversas técnicas que son utilizadas para mejorar la

recuperación de información monolingüe en idiomas que no presentan las

características del inglés.

En el siguiente punto se verán los diferentes enfoques que se han

utilizado para traducir las consultas introducidas por el usuario a los diferentes

idiomas en los que están escritos los documentos (esta es la aproximación más

utilizada, ya que traducir la consulta es mucho más eficiente que traducir los

documentos). Estos enfoques dependen, sobre todo, de los recursos que se

utilicen (aisladamente o en combinación): diccionarios bilingües, corpora,

programas de traducción automática, tesauros...

A continuación, veremos los principales enfoques alternativos a la traducción

de la consulta: traducción de los documentos, traducción bidireccional e

indexación conceptual.

14 Text Collection for IR Systems

Page 85: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

79

4.2.1 Aspectos monolingües

A lo largo de la investigación en recuperación de información se han

aplicado con éxito diversos modelos (como el modelo de espacio vectorial, la

Realimentación mediante Pseudo-Relevancia o la Indexación mediante

semántica latente) a búsquedas realizadas sobre consultas y documentos

escritos en inglés.

Al enfrentarnos a idiomas que presentan características distintas al inglés

(idiomas más flexivos, idiomas aglutinativos o incluso idiomas que no marcan

una separación explícita entre las palabras) es necesario mejorar la búsqueda

monolingüe sobre esos idiomas para poder realizar una búsqueda translingüe

efectiva.

Veamos diferentes técnicas que son utilizadas en el momento de la indexación

de los documentos para mejorar las búsquedas:

4.2.1.1 Stemming

Una de las técnicas que ha demostrado ser de gran ayuda en la

recuperación de información monolingüe es el stemming. Consiste en la

obtención de la raíz de las palabras, de forma que el proceso de indexación se

lleve a cabo sobre ellas en lugar de sobre las palabras originales. Asumiendo

que dos palabras que tengan la misma raíz representan el mismo concepto,

esta técnica permite a un sistema de recuperación de información relacionar

términos presentes en la consulta y en los documentos que pueden aparecer

bajo diferentes variantes morfológicas.

Existen diversos stemmers para inglés basados en la eliminación de sufijos

derivacionales. También existen stemmers para otros idiomas. Estos algoritmos

no llevan a cabo ningún análisis morfológico, sino que se basan en un conjunto

sencillo de reglas que truncan las palabras hasta obtener su raíz.

Una alternativa es el aprendizaje de las reglas de truncamiento a partir de

grandes corpora. Un ejemplo en este sentido es [Bacchin et al., 2002] donde se

Page 86: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

80

evalúa SPLIT: un algoritmo de stemming independiente del idioma basado en

métodos estadísticos.

Analizando un conjunto de palabras, que forman parte del idioma, SPLIT

detecta los sufijos y prefijos que las forman y selecciona como raíz de cada

palabra el prefijo más probable.

Para realizar la evaluación del algoritmo, se aplicó a un conjunto de

documentos en italiano y se comparó la precisión de la búsqueda utilizando

SPLIT y un stemmer específicamente diseñado para este idioma disponible en

la página web de Snowball [Porter,2001]. Los resultados mostraron que la

eficiencia de SPLIT era comparable a la del stemmer de italiano.

4.2.1.2 Segmentación de compuestos

En los idiomas aglutinativos, como alemán y holandés, se unen palabras

para formar otras más largas. Por ejemplo la palabra holandesa

“wereldbevolkingsconferentie" está compuesta por “wereld" (mundo),

“bevolking" (población) y “conferentie" (conferencia), y se traduce como

“Conferencia sobre la población mundial".

Diversos estudios muestran que la descomposición de estas palabras produce

un significativo aumento de la eficiencia de las búsquedas en este tipo de

idiomas.

Una alternativa a la descomposición empleando métodos lingüísticos (que

exigen disponer de herramientas adecuadas en precisión, cobertura y

eficiencia) es el uso de métodos estadísticos. En [McNamee and Mayeld, 2001]

se presenta una aproximación a la recuperación multilingüe de información

utilizando recursos independientes del idioma. Los documentos de cada uno de

los idiomas son indexados utilizando 6-gramas.

Las consultas son traducidas al idioma de los documentos y se realizan dos

búsquedas, una empleando los 6-gramas y otra con palabras (sin ningún tipo

de procesamiento adicional), cuyos resultados se combinan para ofrecer una

única lista de documentos.

Los resultados obtenidos fueron los mejores sobre idiomas aglutinativos en el

Page 87: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

81

CLEF2000, quedando incluso por delante de otros sistemas que utilizaban

algoritmos específicos para descomponer las palabras.

Esta estrategia que mezcla ambas indexaciones también ha sido probada con

otros idiomas como el árabe [Mayeld et al., 2001], llegando a alcanzar una

eficiencia superior al 90% de la búsqueda monolingüe equivalente utilizando 4-

gramas.

4.2.1.3 Segmentación de palabras

En los idiomas asiáticos, como japonés, coreano y chino, los límites de

las palabras no se marcan de manera explícita en el texto escrito. Por ello es

necesario identificar las palabras individuales para mejorar el proceso de

búsqueda.

A la hora de indexar los textos escritos en estos idiomas existen dos

aproximaciones principales:

! Indexación basada en texto segmentado: que incluye la indexación de

palabras y/o de sintagmas.

! Indexación de caracteres: basada en n-gramas. Fundamentalmente se

utilizan bigramas, ya que en japonés, chino y coreano, la longitud media

de las palabras es de, aproximadamente, dos caracteres al ser,

fundamentalmente, idiomas silábicos.

Algunos estudios han mostrado que las búsquedas textuales en chino y

coreano basadas en la indexación mediante bigramas obtienen resultados

comparables (y, en ocasiones, incluso mejores) a las basadas en indexación

mediante.

En [Ozawa et al., 1999] se argumenta que los bigramas son insuficientes

cuando se indexan documentos conteniendo lenguaje técnico, donde la

longitud de las palabras es superior a la media. Se comprueba que un método

adaptativo de segmentación que produce n-gramas de varias longitudes,

supone una mejora substancial con respecto a la utilización de bigramas.

A pesar de los resultados anteriores no parece existir un claro consenso acerca

de cual de las dos aproximaciones (n-gramas o palabras) es mejor para la

Page 88: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

82

indexación de textos en este tipo de idiomas. En muchas ocasiones la

combinación de ambas demuestra una clara mejora sobre ambas.

4.2.2 Enfoques basados en la traducción de la consulta

A la hora de realizar una búsqueda translingüe de información, nos

enfrentamos a la siguiente situación: la consulta y los documentos no están

escritos en el mismo idioma.

Es, por tanto, necesario realizar una traducción para poder realizar una

búsqueda en la que tanto consulta como documentos se encuentren en el

mismo idioma.

La traducción de la consulta es la opción más frecuente. Por ejemplo los 9

participantes que realizaron experimentos en recuperación translingüe en el

TREC-10 emplearon esta técnica [Gey and Oard, 2001]. Esto es debido,

principalmente, a que la consulta es sensiblemente más pequeña que los

documentos y, por ello, el coste computacional de su traducción es mucho

menor [Hull and Grefenstette, 1996].

Los tres problemas principales a los que se enfrenta un sistema de búsqueda

translingüe de información al traducir la consulta:

1. Saber cómo un término escrito en un idioma puede ser expresado en

otro idioma.

2. Decidir cuales de las posibles traducciones de cada término son las

adecuadas en ese contexto.

3. Saber cómo pesar la importancia de las diferentes traducciones que

son consideradas adecuadas.

Los dos primeros retos son compartidos por los sistemas de traducción

automática.

Sin embargo, un sistema de traducción automática debe dar una única

traducción para cada término, mientras que un sistema de recuperación

translingüe de información puede asignar varios y asignarles distintos pesos.

Page 89: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

83

En esta sección veremos diferentes recursos que se utilizan a la hora de

traducir las consultas. Estos recursos no son utilizados por separado, cada uno

puede aportar información complementaria al problema de la traducción.

4.2.2.1 Diccionarios

La utilización de versiones electrónicas de diccionarios bilingües como

recurso de traducción palabra por palabra, ha sido ampliamente estudiada en la

literatura. Sin embargo su uso directo no resuelve por completo el problema de

encontrar las traducciones de los términos, debido a las siguientes razones:

! La cobertura del diccionario puede no ser completa, por lo que algunos

términos no son traducidos. Esto sucede frecuentemente con los

términos técnicos que no son de uso común. La terminología específica

de un determinado dominio del conocimiento no suele estar

contemplado en los diccionarios de uso común.

! No contemplan todas las posibles variantes morfológicas de una

palabra. Por ejemplo un diccionario puede contener el término

“asintótico" pero quizá no contenga “asintóticamente". Este problema

puede ser mitigado empleando la técnica de stemming comentada en la

sección anterior.

! En ocasiones es necesario traducir los nombres propios de personas (el

nombre “Yeltsin" se escribe “Eltsine" en francés) o localizaciones

(“Letonia" se escribe “Latvia" en inglés) y estas traducciones pueden no

estar contempladas en el diccionario. Este problema se conoce con el

nombre de “reconocimiento de entidades".

! Para cada contexto, sólo algunas traducciones son apropiadas. Por

ejemplo la palabra inglesa “spring" tiene diversas traducciones en

castellano con significados muy distintos entre sí: “muelle", “primavera",

“manantial"... La polisemia de las palabras dificulta la traducción y no se

cuenta con métodos automáticos que puedan resolverla.

! La traducción errónea de los términos es particularmente perjudicial en

los conceptos representados por expresiones multipalabra. Por ejemplo

Page 90: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

84

la palabra castellana “banco" se traduce frecuentemente por “bank" en

inglés. Sin embargo la expresión ”banco de peces" ha de traducirse por

“school of fish".

Por todas estas razones la utilización de un diccionario como único recurso de

traducción reduce drásticamente la efectividad de las búsquedas translingües.

Diversos estudios comprueban que substituyendo cada término por todas las

traducciones ofrecidas por el diccionario se reduce la efectividad entre un 40 y

un 60% respecto de la misma búsqueda realizada en un contexto monolingüe.

Con respecto a la polisemia [Davis, 1997] propone utilizar la categoría

gramatical de las palabras de la consulta para elegir entre las posibles

traducciones de los términos: por ejemplo la palabra inglesa “object" puede

actuar como nombre y ser traducida al castellano como “objeto", “objetivo" o

“complemento", mientras que si actúa como verbo puede traducirse por

“objetar" u “oponerse". Utilizando un diccionario bilingüe con información sobre

la categoría gramatical para traducir las consultas, Davis comprobó que esta

estrategia incrementaba en un 37% la precisión con respecto a la estrategia de

sustituir cada término por todas las traducciones ofrecidas por el diccionario.

[Pirkola, 1998] estudia los efectos de diferentes factores:

! Tipo de consulta: comparó consultas en lenguaje natural con consultas

formadas únicamente por las palabras y sintagmas más relevantes de la

consulta. La precisión de las búsquedas fue mayor con las consultas

expresadas en lenguaje natural.

! Proceso de traducción: utilizó dos diccionarios bilingües para realizar la

traducción: uno de propósito general y otro con información específica

sobre el dominio de la medicina y la salud. Probó varias formas de

combinar estos diccionarios, comprobando que la que mejores

resultados daba era la de utilizar las suma de todas las traducciones

proporcionadas por ambos diccionarios (eliminando traducciones

duplicadas).

! Estructura de la consulta tras la traducción: comparó la utilización de

consultas sin ningún tipo de estructura (una simple lista de todas las

traducciones) con el uso de consultas estructuradas mediante los

operadores proporcionados por el motor de búsqueda Inquery [Callan et

al., 1992]. Las traducciones provenientes de un mismo término se

Page 91: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

85

agruparon mediante un operador de sinonimia y los términos

multipalabra se identificaron con un operador de proximidad.

La estructuración de la consulta resultó ser el factor que incrementó en

mayor medida la precisión de las búsquedas, superando en algunos casos el

50% de incremento.

Otras tendencias, proponen la utilización de un diccionario bilingüe

estructurado en el que las traducciones de cada término se encuentran

agrupadas en conjuntos con un significado claramente similar. No existen

muchos diccionarios bilingües que presenten esta estructura, por lo que los

autores desarrollan, además, un método que permite dotar de esta estructura a

cualquier diccionario bilingüe empleando criterios lingüísticos (similaridad entre

las palabras según WordNet), morfológicos (agrupar las palabras que

comparten la misma raíz) y ortográficos (agrupar las palabras que se

diferencien en un único carácter).

Compararon la estructuración de la consulta propuesta por [Pirkola, 1998] con

otras alternativas, empleando para ello diferentes operadores del lenguaje de

consulta de Inquery y los conjuntos de traducciones agrupadas. Los resultados

mostraron que la traducción de las consultas con la estructuración propuesta

por Pirkola obtenía una mayor precisión que la traducción utilizando los

diccionarios estructurados.

Otro método, es el que propone utilizar dos idiomas pivote para realizar la

traducción cuando no se dispone de un diccionario directo.

Los resultados demuestran que utilizar un idioma pivote para traducir entre dos

idiomas provoca una mayor pérdida de eficiencia que la utilización de un

diccionario directo.

Otro enfoque, es la realización de una selección de las traducciones

empleando las traducciones inversas: sólo aquellas traducciones que pueden

volver a traducirse al término de partida son seleccionadas. Los resultados

muestran que esta simple estrategia puede ser más efectiva que otras más

complejas como la desambiguación de traducciones empleando corpora

paralelo.

Page 92: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

86

4.2.2.2 Programas de traducción automática

Otro recurso ampliamente utilizado para la traducción son los programas

comerciales de traducción automática, siempre que exista uno disponible para

el par de idiomas considerados. En la octava edición del TREC, al menos la

mitad de los grupos participantes emplearon el sistema de traducción

automática Systran de alguna forma en sus experimentos. Sin embargo otros

métodos basados en la combinación de corpus y diccionarios obtuvieron

mejores resultados.

Los experimentos acerca de la efectividad de estos programas a la hora de

traducir la consulta no aportaron datos concluyentes. Se extrajeron las suientes

conclusiones:

o La efectividad puede depender de la longitud de las consultas: para

consultas cortas (entre 1 y 3 términos) no parece haber diferencia entre

esta aproximación y la utilización de diccionarios para la traducción.

Para consultas largas (formadas por varias frases) se aprecia

diferencia.

o Para las consultas basadas en frases, la traducción mediante Systran da

mejores resultados en las búsquedas que otros métodos de traducción

basados en diccionarios o corpus.

Esto es debido a que los sistemas de traducción automática hacen uso de la

estructura sintáctica del texto. Si las consultas están formadas por frases, los

sistemas de traducción consiguen una traducción mejor que si la consulta está

formada por términos independientes sin estructura.

Aparte de este problema, el uso de sistemas de traducción automática depende

de la existencia de un traductor entre los idiomas considerados. La creación de

estos traductores es costosa, y por eso sólo existen para los pares de idiomas

más demandados por el mercado.

Algunos participantes utilizaron un sistema comercial para la traducción de

consultas en francés, alemán, italiano, castellano, chino y japonés al inglés.

Vieron que las diferencias entre la búsqueda monolingüe y las translingües

Page 93: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

87

dependían bastante del idioma de partida oscilando entre un 2.3% de pérdida

en el caso del francés y un 29.5% para el chino.

Se realizó una comparación sistemática de tres tipos de recursos para la

traducción de las consultas en una búsqueda translingüe: diccionarios, corpora

paralelo (obtenido de la web utilizando el sistema PTMiner) y traducción

automática (utilizando Babelfish15). Los resultados mostraron que los tres

métodos alcanzaron, al menos, el 90% de la eficiencia de una búsqueda

monolingüe. Además encontraron que la diferencia de eficiencia dependía

bastante del par de idiomas considerados.

4.2.2.3 Tesauros

Un tesauro está formado por la colección de términos o palabras clave

que se utilizan para realizar la indexación de los documentos (ya sea ésta

manual o automática), así como las relaciones semánticas que los unen.

La utilización de tesauros en el campo de la recuperación de información se

centra en el enriquecimiento de la consulta con términos relacionados que

aparecen realmente en los documentos, aunque hay otros muchos aspectos en

los que pueden ser utilizados [Soergel, 1997]:

! Proporcionan un vocabulario controlado para expresar las consultas, por

lo que se elimina el problema del desconocimiento por parte del usuario

de los términos que aparecen realmente en los documentos.

! Permiten dar una mejor estructuración a los resultados. Por ejemplo la

construcción de un resumen temático estructurado del documento,

describiendo los temas principales del mismo así como los diferentes

subtemas tratados, empleando para ello conjuntos de términos

semánticamente relacionados.

! Su estructuración jerárquica hacen posible su utilización en un entorno

de búsqueda interactivo. Los usuarios pueden identificar los diferentes

conceptos navegando por la jerarquía y, de esta forma, precisar su

búsqueda.

15 http://babelfish.altavista.com

Page 94: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

88

! Un tesauro multilingüe sobre un dominio determinado permite la

traducción de términos específicos de ese dominio que quizá no puedan

encontrarse en un diccionario bilingüe. Un ejemplo de tesauro

multilingüe sobre el dominio médico es el metatesauro de UMLS 16.

Los tesauros construidos para la indexación manual de los documentos

describen un idioma artificial (basado en uno real) sobre un dominio específico,

incluyendo información adicional con anotaciones para los indexadores sobre

los términos que lo componen. Estos tesauros no resultan apropiados para ser

utilizados en un entorno automático de indexación, al carecer de la información

necesaria que aporta el sentido común de las personas que realizan la

indexación manual.

Los tesauros multilingües fueron el primer tipo de recursos específicamente

diseñados para la recuperación de información translingüe. Los requisitos que

han de tenerse en cuenta a la hora de desarrollar estos tesauros para el

procesado automático de documentos textuales pueden ser:

! Describir de forma precisa las diferentes variantes de un mismo

concepto en diferentes idiomas. Algunos conceptos se describen con

una palabra en un idioma, mientras que en otros son necesarias varias

(por ejemplo la palabra rusa “dissident" es equivalente a “political

“dissident" en inglés).

! Describir extensos conjuntos de sinónimos para cada concepto

analizado en cada uno de los idiomas considerados.

! Detallar la mayor cantidad posible de términos multipalabra que definan

un concepto determinado. De esta forma se podrían utilizar como base

para realizar una desambiguación léxica.

Otro tipo de tesauros son los llamados “tesauros de similaridad",

construidos de forma automática a partir del vocabulario de la colección a

indexar.

De esta manera se identifica conocimiento específico del dominio de la

colección, basándose en las similitudes de los términos que la componen. La

16 Unified Medical Language System

Page 95: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

89

utilización de estos tesauros para realizar expansiones de la consulta puede

suponer una mejora sustancial en la eficiencia de las búsquedas monolingües.

Esta técnica, por tanto, basa su funcionamiento en el análisis del corpus que

forman los documentos.

La utilización de tesauros en la recuperación de información translingüe

queda supeditada a disponer de un tesauro multilingüe que cubra el dominio de

las colecciones documentales que van a ser utilizadas. En el caso de los

tesauros de similitud es necesario disponer de corpora paralelo (o comparable)

para poder construir uno multilingüe.

4.2.3 Otros enfoques: Traducción bidireccional

La traducción de los documentos al idioma de la consulta y la traducción

de la consulta al idioma (o idiomas) de los documentos, representan dos

enfoques opuestos de combinar las técnicas de recuperación de información

con las de traducción automática.

Según [McCarley, 1999] estos dos enfoques no tienen por qué ser mutuamente

exclusivos.

Para comprobarlo realizaron dos experimentos de recuperación translingüe

entre francés e inglés (uno en cada sentido).

Se compararon los resultados obtenidos con la traducción de las consultas, la

traducción de los documentos y un sistema híbrido que combinó los resultados

producidos por ambas aproximaciones de la siguiente forma: la relevancia de

un documento es la media de la relevancia obtenida con la traducción de la

consulta y la relevancia obtenida con la traducción de los documentos (previa

normalización de ambas).

Se observó lo siguiente:

! Las búsquedas que involucraban una traducción en el sentido francés-

inglés obtuvieron mejores resultados con independencia de si se

realizaba la traducción de los documentos o la de las consultas. Esto

nos indica que aunque la traducción de los documentos presente

Page 96: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

90

ventajas teóricas, éstas van a depender de la calidad de la traducción

entre el par de idiomas considerados.

! Los resultados del sistema híbrido fueron superiores a los de las dos

aproximaciones individuales, no influyendo el sentido en el que se

realizan las traducciones.

4.3 Arquitectura del sistema INAOE multilingüe

El interés de un sistema de búsqueda en la Web es encontrar las

respuestas en una gran colección de documentos. Debido a que no existe sólo

un lenguaje en la Web, los sistemas de BR multilingüe, son de gran relevancia.

Un sistema de BR multilingüe, es aquel sistema donde el lenguaje de la

pregunta es diferente al lenguaje del documento en el que se encuentra la

respuesta.

En la actualidad los trabajos desarrollados en este contexto, usan

diferentes recursos lingüísticos, como etiquetadores POS, extracción de

entidades, relaciones semánticas, analizadores sintácticos, diccionarios, etc.;

para, de este modo, entender la pregunta y las secciones concordantes en los

documentos.

Esta propuesta se basa en un sistema prototipo de búsqueda de respuestas

monolingüe para la Web, desarrollado en el laboratorio de Tecnologías del

Lenguaje de la Coordinación de Ciencias Computacionales del INAOE [Castillo

et al., 2004]. Este sistema únicamente procesa preguntas formuladas en

español, y la búsqueda se realiza en documentos en español. El sistema sólo

se fundamenta en la redundancia de información en la Web [Brill et al., 2001].

La idea básica es adecuar este prototipo, para poder realizar búsquedas

multilingües.

La arquitectura del sistema sería muy parecida a la del sistema INAOE original,

pero a diferencia de este, se introduce un módulo de traducción. Ésta consiste

en cuatro módulos principales:

1. Traducción de las preguntas

2. Búsqueda en la Web

Page 97: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

91

3. Cálculo de respuestas candidatas

4. Selección de la respuesta correcta.

Traducc ión

Reformulac ión

Recoleccion Snippets

Calculo derespuestas

respuestascandidatas

Web

Buscador

Sistemade BR

Preguntasfac tuales

Traducción

Figura 4.1 Esquema de un sistema de BR translingüe

4.4 Tareas translingües

En el punto de experimentación (Capítulo 5) se presentan los resultados

de los experimentos realizados. Estos, en cuanto a la tarea translingüe (no

multilingüe), se pueden describir brevemente mediante los siguientes pasos:

1. Adaptación del sistema a la búsqueda translingüe .

2. Se traducen las preguntas al idioma sobre el que queremos realizar

búsquedas.

3. Se lanza el sistema y se recuperan los snippets.

4. Cálculo de respuestas.

Page 98: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

92

Los idiomas empleados para tales experimentos serán el valenciano, el

castellano y el inglés. Aunque el presente trabajo se centra en los idiomas

castellano y valenciano, se mencionan otros resultados experimentales

obtenidos con preguntas en inglés.

Se incluyen como anexos (Anexo I y Anexo II), los artículos publicados

en diferentes foros de investigación referentes a tareas translingües realizadas

durante la fase de experimentación del trabajo que aquí se presenta.

Veremos la influencia que tiene la presencia de estos idiomas en la web

para encontrar respuestas.

Otra conclusión sobre la que podremos indagar será el error derivado

que puede introducir un traductor para obtener una respuesta correcta.

Page 99: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

93

Page 100: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

94

Capítulo 5. Experimentos Multilingües

El principal objetivo es demostrar que el sistema INAOE es funcional,

obteniendo respuestas con mínimos recursos lingüísticos. Además, se

pretenden conseguir distintas implementaciones del sistema en distintos

idiomas para demostrar que la presencia de un idioma en Web es importante a

la hora de encontrar respuestas. Se realizarán varias tareas translingües con el

castellano y valenciano, comentando los resultados obtenidos. Durante el

proceso de experimentación para los idiomas valenciano-castellano surgió la

necesidad de incluir otra prueba con el idioma inglés. Se incluyen como

Anexos (Anexo I y Anexo II) los artículos publicados durante la realización del

PFC, y que presentan experimentos de BR translingües.

5.1 Introducción

En los apartados 2 y 3 de este capítulo se expondrán los resultados de

los experimentos realizados con el sistema INAOE de BR en la web (con las

características ya detalladas en el Capítulo 3) y poniendo en funcionamiento el

mismo con las preguntas del CLEF 2003 y 2005. Esto nos facilitará la

comparación con los sistemas participantes (sólo para el CLEF 2005). Estas

pruebas nos conducirán a demostrar la viabilidad de este tipo de sistemas que

se basan en de la redundancia web. Además se demostrará que dependiendo

de la presencia en este medio de un determinado idioma, se obtendrán mejores

o peores resultados. La cantidad de documentos de un idioma hará que la

redundancia sea mayor. Sobre esta premisa se apoyan los experimentos

realizados con el sistema INAOE. La principal novedad introducida en este

texto es la consecución de sistemas derivados preparados para funcionar en

valenciano y en inglés a partir del sistema de BR INAOE original. Esta

adaptación a otros idiomas y la comparación de resultados entre idiomas con

las mismas preguntas y entre los resultados obtenidos por el sistema y otros

sistemas en el CLEF será otro punto de resultados a analizar.

Page 101: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

95

En los experimentos realizados con el sistema INAOE y sus

adaptaciones (5.2 y 5.3) se recolectarán 50 snippets por petición lanzada (cada

pregunta puede devolver cientos de resultados, se tomarán los 50 primeros),

para cada reformulación y pregunta. Para el ranking de las posibles respuestas

se ejecutará el programa Extract_Pesado_Compensado.pl para cada

reformulación y pregunta. La tarea final será la de lanzar el programa

Extrae_Respuesta. En la evaluación de resultados, tomaremos en cuenta que

la respuesta esté entre las 5 con coeficiente más alto.

Los resultados se presentan con el cálculo de tres medidas distintas: el número

de respuestas correctas, la precisión y el MMR (Mean Reciprocal Rank).

La precisión es el número de respuestas correctas en porcentaje.

El MMR se calcula con la siguiente formula:

n

rMRR

n

ii∑

== 1

Donde n es el número total de preguntas y ri es el recíproco del rango de la

primera respuesta correcta en el conjunto ordenado de repuestas candidatas

para la pregunta i.

5.2 Corpus del CLEF 2003

En el CLEF 2003, se sigue con línea de investigación de años

anteriores, introduciendo algunas novedades y dificultades adicionales al

proceso de búsqueda.

Solo admitiremos respuestas correctas o incorrectas, por lo que

eliminaremos las cuestiones que en el CLEF se introdujeron y debían obtener

como respuestas nulo. Lo hacemos por facilitar el trabajo, en cuanto a que

deberíamos buscar estas respuestas no proporcionadas por los organizadores

Page 102: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

96

del CLEF para poder lanzar el sistema con las 200 preguntas iniciales, un

trabajo adicional que no se estimó necesario al tener un corpus de preguntas y

respuestas suficiente de 180.

En los comentarios que se hacen a cada tabla de resultados, se utilizará

la siguiente notación para referirnos a las reformulaciones:

Bolsa de palabras: ANDS

Componentes: CONS

Componentes sin la 1ª palabra: CONS1

Componentes sin la 1ª y 2ª palabra: CONS2

Movimiento del verbo: VERBO

5.2.1 Tarea monolingüe Castellano-Castellano

En esta tarea monolingüe se lanza el sistema sobre el corpus CLEF2003

para la recolección de snippes en castellano. Las preguntas también están en

castellano. A continuación se presentan los resultados obtenidos. Los

clasificaremos por reformulación.

ANDS CONS CONS1 CONS2 VERB

Correctas 71 21 43 57 58

Precisión 39.45% 11.67% 23.89% 31.67% 32.22%

MMR 0.27 0.0935 0.1883 0.2261 0.2187

Tabla 5.1 Resultados del sistema de BR INAOE para el caso Castellano-Castellano con

preguntas del CLEF 2003

Page 103: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

97

5.2.1.1 Discusión sobre los resultados

Los mejores resultados se han obtenido con la reformulación ANDS con

un porcentaje de respuestas correctas de un 39.45% y un MMR de 0.27. Las

reformulaciones CONS2 y los VERB obtienen unos resultados casi idénticos

con un porcentaje del 31.67% y un 32.22%.

Es interesante mencionar que de las 180 preguntas que componen

nuestro corpus, 91 obtuvieron respuesta en una o varias reformulaciones. Por

lo tanto el porcentaje final de obtención de respuestas del sistema será del

50.55%.

5.2.2 Tarea translingüe Castellano-Valenciano

Se traducen las preguntas al valenciano utilizando el traductor de

valenciano SALT17 y se lanza el sistema. El sistema ha sido adaptado para la

ejecución de búsquedas con las preguntas en valenciano. Aclarar antes de

nada, que la búsqueda en Google se realiza en toda la web (no se selecciona

ningún idioma). Esto es necesario mencionarlo porque el valenciano y el

castellano tienen muchas palabras en común, por tanto, habrá ocasiones en las

que haya snippets coincidentes.

ANDS CONS CONS1 CONS2 VERB

Correctas 15 8 20 31 33

Precisión 8.33% 4.44% 11.11% 17.22% 18.33%

MMR 0.0564 0.0368 0.0762 0.1112 0.1342

Tabla 5.2 Resultados del sistema de BR INAOE para el caso Castellano-Valenciano con

preguntas del CLEF 2003

17 http://www.cult.gva.es/salt/

Page 104: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

98

5.2.2.1 Discusión sobre los resultados

En este experimento, todas las reformulaciones reducen sus

porcentajes. A primera vista, este resultado sería lógico, en cuanto a que se

reduce la obtención de respuestas con la utilización del lenguaje valenciano

con respecto al castellano. Era de esperar, ya que es menor la presencia del

valenciano en la Web, y por tanto habrá menos redundancia.

Decir también, que en los resultados obtenidos, todas las respuestas correctas

se deben a la descarga de snippets en castellano, debido a la similitud de

muchas palabras entre ambos idiomas.

Llama la atención el descenso de rendimiento de la reformulación ANDS.

Todas las reformulaciones se ven penalizadas por la utilización del valenciano

en la búsqueda. Las preguntas que obtienen respuestas, son aquellas que más

semejanza guardan con el castellano y que obtuvieron respuesta en el

experimento con preguntas en castellano. Entre el 90-95% de los snippets

descargados son en idioma castellano, el resto en valenciano. El sistema

devolvió en tres casos la respuesta en valenciano, y en los tres casos erró.

En cuanto al número total de preguntas con respuesta encontrada en

alguna reformulación, es de 39. El porcentaje se queda en el 21.66%.

5.2.3 Tarea monolingüe Valenciano-Valenciano

En este caso, las preguntas no se han traducido con el traductor SALT,

sino que se traducen por una persona de habla valenciana. Con esta variación,

se quiere eliminar los posibles fallos en la traducción automática.

Page 105: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

99

ANDS CONS CONS1 CONS2 VERB

Correctas 17 8 19 29 30

Precisión 9.44% 4.44% 10.55% 16.11% 16.66%

MMR 0.056 0.0342 0.0642 0.1091 0.1217

Tabla 5.3 Resultados del sistema de BR INAOE para el caso Valenciano-Valenciano con

preguntas del CLEF 2003

5.2.3.1 Discusión sobre los resultados

Los resultados obtenidos son casi idénticos al caso de castellano-

valenciano utilizando traductor. La conclusión que sacamos tras el examen de

los snippets y respuestas devueltas en los casos de búsqueda en valenciano,

es que las respuestas encontradas se deben a la redundancia del castellano, o

dicho de otra manera, no existe suficiente redundancia del valenciano para

producir respuestas a partir de los snippets descargados, que como ya dijimos

en el punto anterior son en castellano.

Con respecto a la tarea translingüe y el traductor, podemos decir que

no ha introducido grandes errores en la traducción, que hayan llevado a un

descenso en los porcentajes. De todas maneras, visto que los resultados se

deben a la redundancia del castellano a partir de preguntas en valenciano con

similitud entre muchas palabras, es difícil precisar la bondad del traductor.

Sobre el dato total de preguntas que encuentran respuesta en alguna

reformulación, obtenemos 40 preguntas sobre el total de 180, o lo que es lo

mismo un 22.22%

Page 106: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

100

5.2.4 Tarea translingüe Valenciano-Castellano

Se traduce con el SALT las preguntas del valenciano del punto 5.2.3 al

castellano , se lanza el sistema de BR y se obtienen los siguientes resultados:

ANDS CONS CONS1 CONS2 VERB

Correctas 53 6 15 30 28

Precisión 29.44% 3.33% 8.33% 16.67% 15.55%

MMR 0.2074 0.014 0.0655 0.1286 0.102

Tabla 5.4 Resultados del sistema de BR INAOE para el Valenciano-Castellano con preguntas

del CLEF 2003

5.2.4.1 Discusión sobre los resultados

En este apartado, el proceso translingüe nos muestra una perdida de

efectividad en los resultados con las preguntas obtenidas como resultado de la

traducción al castellano con el SALT. Una de las causas podría ser debido al

SALT. También podría deberse a que al provenir las preguntas de origen del

valenciano de una persona y no de un traductor automático, este haya hecho la

traducción de forma coloquial, perdiendo rigurosidad en la traducción. En

resumen, después de haber traducido manualmente las preguntas originales en

castellano al valenciano, y haciendo automáticamente el proceso inverso con

estas preguntas obtenidas, al lanzar el sistema de BR se obtienen pérdidas de

efectividad del sistema en todas las reformulaciones del orden de entre el 40-

70%.

El proceso de traducción penaliza el funcionamiento del sistema. Hacen

falta herramientas adecuadas para habilitar el uso de sistemas de BR

Page 107: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

101

translingües con resultados factibles. En el Capítulo 4 se vieron algunas de

estas herramientas o subsistemas.

Con respecto al uso de traductores en el proceso de BR, también se

hicieron pruebas experimentales con una serie de preguntas en ingles, y las

mismas obtenidas desde el idioma origen árabe a través de un traductor árabe-

inglés. Los resultados que en este anexo se muestran, prueban la perdida de

prestaciones del sistema en su conjunto. Los resultados se muestran en el

Anexo II.

A continuación analizaremos los experimentos llevados a cabo con el

corpus del CELF 2003 para extraer unas primeras conclusiones.

Los mejores resultados se obtienen para el castellano y con la

reformulación “Bolsa de palabras”. Como primera conclusión podríamos decir

que una pregunta cuya búsqueda se realiza en castellano (de origen o con el

traductor) obtiene mejores resultados que una pregunta lanzada en valenciano

(de origen o traductor). Por tanto, la redundancia de la web, mayor para el

castellano que para el valenciano, se traduce en mejores resultados para

búsqueda de respuestas. Es necesario aquí mencionar la ganancia que

obtendría un usuario que no hablara castellano y que utilizara el sistema

lanzando una petición en su idioma original (valenciano), obteniendo la

respuesta a través del sistema realizando la búsqueda en castellano. También

se podría traducir la respuesta al idioma original de la petición.

Sería necesario desarrollar una interfaz de aplicación y preparar el sistema

para la ejecución por parte de usuarios no especializados.

5.3 Clasificación de resultados atendiendo a la tipología de la pregunta

Durante la evaluación del sistema, se observó que ciertos tipos de

pregunta obtenían mejores resultados. Los tipos de preguntas que se

comparan son “Qué”, “Cómo”, “Dónde”,”Cuándo”, “Cuántos” y “Cuál”. Se

engloban dentro de cada tipo las variantes de género y número.

Page 108: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

102

El análisis se realizó para las preguntas del CLEF 2003 en castellano.

Es importante mencionar que las preguntas cortas nos llevaron a mejores

resultados. Las preguntas que obtuvieron peores resultados fueron las que la

respuesta esperada era del tipo numérico o fecha, las del tipo cuántos y

cuando.

Las preguntas del tipo “¿Cuál es la capital…?” obtuvieron los mejores

resultados, encontrando las tres preguntas introducida en el CLEF 2003

respuesta. En general, las preguntas “Cuál” y “Cómo” obtuvieron los mejores

porcentajes. En la tabla que se muestra a continuación se comparan los tipos

de preguntas y sus porcentajes de respuestas obtenidos para el CLEF 2003.

Cual/

Cuales Qué Donde Cuando

Cuanto/s

Cuanta/s Quién Por qué Cómo

Correctas 10 4 3 2 0 10 0 2

Total 13 15 8 6 15 17 1 4

Precisión 77% 27% 37% 33% 0% 59% 0% 50%

Tabla 5.5 Porcentaje de resultados según tipos de preguntas del CLEF 2003.

En la tabla no se incluye las 21 preguntas sobre las 100 del CLEF que no

utilizan las partículas interrogativas cual, que, donde, cuanto, quien, por qué, y

cómo.

El mejor porcentaje se obtuvo con las preguntas del tipo cual, seguido por las

del tipo quién y cómo.

El sistema, en su conjunto, sufrió una penalización por las preguntas del tipo

cuanto, ya que en los resultados examinados sobre un total de 100 preguntas

de las cuales 15 eran de este tipo, no se consiguió respuesta válida alguna.

Por lo tanto, hay que mejorar los resultados de los sistemas de BR. Es

necesario mejorar los resultados, sobre todo para los tipos de preguntas en los

que se obtienen peores resultados.

Page 109: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

103

En el Capítulo 6, se presenta un sistema de RP para la BR. Se mostrarán los

resultados obtenidos en una serie de casos de estudio, para ver si podemos

obtener mejores resultados con los tipos de preguntas con peores porcentajes

mostrados en los experimentos anteriores.

5.4 El corpus del CLEF 2005

En el CLEF 2005, se sigue con línea de investigación de años

anteriores, introduciendo algunas novedades y dificultades adicionales al

proceso de búsqueda.

Lógicamente, en cada CLEF se introducen nuevos retos. En el

CLEF2005 se introdujeron una serie de cambios en cuanto a la complejidad de

la pregunta y a la respuesta requerida. Por ejemplo, en el CLEF2003 se

tomaba como buena una respuesta que estuviera entre las tres primeras de las

devueltas. Por contrario, en el CLEF2005, sólo se admite la primera. En

nuestros experimentos hemos tomado como buena hasta la quinta, aunque

bien es verdad que en la mayoría de los casos la respuesta se devolvía en

primer o segundo lugar.

En este caso, tenemos un corpus de 200 preguntas de las cuales 18 no tenían

respuesta en el contexto del CLEF. Por tanto, eliminamos estas 18 sin

respuesta y obtuvimos los siguientes resultados:

ANDS CONS CONS1 CONS2 VERB

Correctas 49 6 29 35 39

Precisión 26.92% 3.29% 15.83% 19.23% 21.42%

MMR 0.179 0.0258 0.1065 0.12 0.1201

Tabla 5.6 Resultados del sistema de BR INAOE Castellano con preguntas del CLEF 2005

Page 110: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

104

Resultado de combinar reformulaciones. De las 182 preguntas efectuadas, 58 obtuvieron respuesta correcta al menos

en un tipo de reformulación, o sea un porcentaje de 31.86%.

A la vista de los resultados obtenidos, al igual que en los experimentos con el

CLEF 2003, la reformulación ANDS es la que obtiene mejores resultados.

5.4.1 Comparativa entre el sistema UPV y el sistema INAOE en el CLEF 2005

En la Tabla 5.6 se muestra la comparativa entre los resultados obtenidos

por el sistema INAOE y los resultados obtenidos por el sistema que

representaba a la UPV (sistema QUASAR) en el CLEF de ese año que se

describirá brevemente en el Capítulo 6:

ANDS CONS CONS1 CONS2 VERB UPV

(1ª-5ª resp)

Precisión 26.92% 3.29% 15.83% 19.23% 21.42%

33.518

Tabla 5.7 Comparación con los resultados de la UPV con la 1ª-5ª respuesta

ANDS CONS CONS1 CONS2 VERB UPV

(1ª resp)

Precisión 11.53% 2.19% 7.14% 7.14% 7.14%

33.5

Tabla 5.8 Comparación con los resultados de la UPV con la 1ª respuesta

18 Los resultados del CLEF2005 no recogen porcentajes de devolución de respuesta entre las cinco primeras. Por tanto, en la casilla de la Tabla5.7 de resultado global, tomamos como dato el obtenido en la evaluación del sistema de la Tabla 5.8 de resultados obtenidos en devolución por primera respuesta.

Page 111: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

105

En las Tablas 5.6 y 5.7 se han comparado los resultados obtenidos en

nuestros experimentos con las distintas reformulaciones (columnas ANDS,

CONS, CONS1,CONS2 y VERB) y los obtenidos por el sistema QUASAR

implementado en la UPV para el CLEF2005 (columna UPV). Fusionando los

resultados de todas las reformulaciones se obtiene un 31.86% de respuestas.

Los resultados obtenidos por el QUASAR [Gomez et al., 2005] fueron de un

33.5%. Estos resultados tienen mucho más valor al tratarse como respuestas

correctas las devueltas en primer lugar.

Es probable que los mejores resultados obtenidos por el QUASAR se deban

principalmente al módulo del sistema de recuperación de pasajes que, al igual

que los mejores sistemas de BR en la tarea monolingüe del castellano en el

CLEF 2005 (véase Tabla 5.8) están basados en el sistema de BP JIRS que se

describirá en el Capítulo 6.

Tabla 5.9 Resultados de los sistemas en tarea monolingüe en el CLEF 2005

La Tabla 5.9 muestra también recoge los resultados del sistema TOVA. Este

es un sistema INAOE-UPV basado en la integración de los dos. Los detalles

del sistema se detallan en [Montes et al., 2006].

Conclusión preliminar después de los experimentos.

Con un módulo de recuperación de pasajes como JIRS, se deberían obtener

mejores resultados en la tarea monolingüe del valenciano. Esta conclusión nos

sitúa en la necesidad de estudiar las prestaciones del JIRS.

Spanish ----------------------------------> Spanish

inao051eses 42.00% tova051eses 41.00% upv051eses 33.50% alia051eses 33.00%

Page 112: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

106

Page 113: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

107

Capítulo 6. El componente de búsqueda de pasajes

Los sistemas más recientes de búsqueda de respuestas están

normalmente implementados sobre sistemas de recuperación de pasajes.

El primer sistema de Recuperación de Pasajes (RP) que aquí se presenta

(JIRS) se basa en la suposición de que las palabras que forman la pregunta

también lo harán en la respuesta. Esta es la misma suposición que utiliza el

sistema de búsqueda de respuestas implementado por el INAOE y ya

analizado en el Capítulo 3 de este documento.

El segundo (sistema QUASAR) se basa en la redundancia y en RP,

suponiendo que en una cantidad suficiente de documentos encontraremos la

respuesta buscada en diferentes formas.

En el primer sistema que presentamos en este capítulo se utiliza el concepto de

n-gramas para la búsqueda de los pasajes como posibles respuestas. Veremos

los módulos del sistema que utilizan este modelo. Antes de esto se definirá

propiamente el JIRS. Los buenos resultados obtenidos en el CLEF 2005, en

sistemas de recuperación de pasajes orientados a búsqueda de respuestas,

fueron determinantes para incluirlo en este trabajo. Se realizarán experimentos

simples para comprobar si se obtienen mejores resultados que los obtenidos

anteriormente, sobre todo en los tipos de cuestiones en los que se obtuvieron

peores porcentajes.

6.1 Introducción

Una línea de investigación dentro de la recuperación de información (RI)

son los llamados sistemas de Recuperación de Pasajes (RP). Estos sistemas

miden la relevancia de un documento con respecto a una pregunta en función

de fragmentos contiguos de texto. Estos fragmentos de texto son los llamados

pasajes. De esta forma, se facilita la detección de extractos que pueden ser

relevantes para el usuario y que en el supuesto de estar presentes en

documento grandes no serían localizados y catalogados como relevantes

porque la aportación total de relevancia del documento donde aparecen.

Page 114: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

108

Estos sistemas resultan computacionalmente más costosos que los sistemas

de RI tradicionales, pero los resultados obtenidos justifican esta mayor

complejidad. En este capítulo presentamos dos sistemas implementados en la

UPV, el sistema JIRS y el sistema QUASAR, definiendo en cada caso su

arquitectura y mostrando los conceptos en los que se apoyan.

Los sistemas de BR, se pueden dividir en los siguientes componentes:

análisis de la pregunta, recuperación de documentos relevantes, extracción de

pasajes relevantes y extracción de respuestas.

Para poder extraer la respuesta correctamente, es muy importante trabajar

sobre un conjunto de fragmentos de texto lo más reducido posible que incluyan

la respuesta. Debido a esto, las últimas implementaciones de sistemas BR

están basados directamente en sistemas de RP en lugar de sistemas de RI.

El componente de RP tiene una importancia vital porque reduce la colección

original de documentos a un conjunto de pasajes en los cuales la respuesta

debe ser buscada. Por lo tanto, si el componente RP no es capaz de recuperar

pasajes relevantes, el proceso fallará y no se encontrará respuesta alguna.

Llegados a este punto, debemos subraya una diferencia importante entre la RI

tradicional y los sistemas RP orientados a BR. En el primer caso, la etapa de

recuperación de documentos tiene el mayor coste computacional. Mientras que

en el segundo caso, la clave y el mayor esfuerzo se realiza en la etapa de

recuperación de los segmentos de texto (pasajes) que deben contener la

respuesta.

Métodos para medir la relevancia

Existen diferentes métodos para determinar la similitud entre el pasaje del

espacio de búsqueda y la pregunta efectuada.

Los métodos más representativos se caracterizan por lo siguiente:

1) La relevancia depende del acople pasaje con la pregunta.

2) La relevancia depende de la densidad de los términos de la pregunta en

el pasaje.

Page 115: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

109

La comparación de resultados obtenidos por sistemas de RP usados en el

TREC hecho por [Tellex S.,2003] demuestran que los mejores sistemas de RP

están basados en densidad de términos presentes en el pasaje.

6.2 El sistema de búsqueda de pasajes JIRS

En los siguientes apartados se describirá el sistema de BP JIRS y su

arquitectura. Esta información ha sido consultada en los trabajos de [Gómez et

al., 2005].

6.2.1 Definición de JIRS

El Sistema de Recuperación de Información basado en JAVA (JIRS), es

un sistema de RP orientado a BR que utiliza el método de densidad para el

cálculo de la similitud entre el pasaje y la pregunta. JIRS busca similitud entre

el pasaje y la pregunta. JIRS busca estructuras que contienen términos de la

pregunta para así extraer los pasajes que son más relevantes en función de la

densidad de términos con respecto a la pregunta.

JIRS se basa en la misma hipótesis de partida que el sistema BR INAOE: “Los

términos que componen la pregunta, formarán parte o estarán cerca de la

respuesta”

JIRS utiliza el concepto de n-grama durante el proceso. Una sola palabra

coincidente en pregunta y respuesta es un 1-grama. Dos palabras de la

pregunta que aparecen en pregunta y respuesta consecutivas forman un bi-

grama. Y así sucesivamente. En este sentido esta es otra similitud en cuanto al

procedimiento de operación del sistema JIRS con respecto al sistema INAOE.

Para evaluar la importancia de cada n-grama, se desarrollaron tres

modelos. Cada modelo se usa para obtener el peso del n-grama a partir del

Page 116: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

110

número de palabras que lo componen, el peso de los palabras y la distribución

de los distintos n-gramas en el pasaje.

Otra característica importante de JIRS es su independencia del idioma. Se

puede adaptar fácilmente para la RP orientado a BR en otros idiomas. De

hecho, en este capítulo se dedica una parte a la explicación de cómo adaptar

JIRS a otro idioma (valenciano) y se realizan algunos experimentos sobre un

corpus en este idioma.

6.2.2 Arquitectura del sistema JIRS

JIRS es un sistema de IR que se adaptó específicamente para recoger

pasajes. El resultado es un sistema RP que se basa en buscar estructuras de

la pregunta en lugar de buscar palabras clave. JIRS es capaz de encontrar

estructuras de la pregunta en una colección de documentos rápida y

eficientemente utilizando diferentes modelos basados todos ellos en n-gramas.

JIRS utiliza un sistema de RP tradicional como primer paso y entonces busca

todos los posibles n-gramas de la pregunta entre los pasajes recuperados. Con

estos pasajes realiza la clasificación dependiendo del número y el peso de los

n-gramas aparecidos en estos pasajes.

La pregunta del usuario, finalmente, es pasada a un motor de búsqueda que

devuelve una lista de sus pasajes con las palabras a las que se les ha

asignado un valor según su peso. La estructura del sistema JIRS se muestra

en la figura siguiente:

Page 117: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

111

Figura 6.1 Arquitectura JIRS

Por otra parte, mencionar que las estructuras de n-gramas de la

pregunta, sin la partícula interrogativa, son extraídos por el módulo de

extracción de n-gramas.

En el siguiente ejemplo, se muestra el proceso de extracción de los n-gramas

de la pregunta. Utilizaremos para el ejemplo la siguiente pregunta: “¿Cuál es la

capital de España?”

¿Cuál es la capital de España? 1 5-grama

2 cuatri-gramas

3 tri-gramas

es la capital de

la capital de España

es la capital

la capital de

capital de España

Page 118: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

112

4 bi-gramas

5 uni-gramas

Una vez finalizada la obtención de los n-gramas de la pregunta,

hacemos lo mismo para cada pasaje devuelto por el módulo motor de

búsqueda. En este paso sólo se tienen en cuenta los términos que forman la

pregunta. Finalmente, con los n-gramas de la pregunta y los n-gramas de los

pasajes obtenidos se hace una comparación para calcular la similitud entre

ambos.

En el siguiente ejemplo se muestran los n-gramas que se extraerían de dos

pasajes devueltos por el motor de búsqueda. Estos ejemplos serán los mismos

que utilizaremos para introducir los diferentes modelos de calcular la similitud

entre pasaje y pregunta.

Pasaje1 Pasaje2

1 4-gramas

2 3-gramas 1 3-gramas

es la

la capital

capital de

de España

es

la

capital

de

España

Ayer, la delegación visitó Madrid, la capital de España, y después estuvo en Valencia hasta que se desplazó a Barcelona

Chirac invitó a Rajoy a la capital de Francia para encontrar una solución política a los conflictos de España en el País Vasco

la capital de España

la capital de

capital de España

la capital de

Page 119: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

113

3 2-gramas 2 2-gramas

4 1-gramas 4 1-gramas

A continuación se presentan los tres modelos estudiados para averiguar la

similitud entre pregunta y pasajes. Tanto el modelo n-grama de densidad de

distancias como el n-grama peso de términos se basan en el modelo n-grama

simple [Gómez et al., 2005a].

El modelo n-grama simple Con este modelo la similitud entre la pregunta y el pasaje devuelto se

calcula con la siguiente fórmula:

expresión (1)

Donde Sim(p,q) es la función que mide la similitud de los conjuntos de n-

gramas de la pregunta q con los conjuntos de n-gramas del pasaje p. Qj es un

conjunto de j-gramas que son generados de la pregunta q. Pj es un conjunto de

j-gramas generados del pasaje p para compararlos con los generados a partir

de la pregunta.

la capital de

capital de

de España

la

capital

de

España

la capital

capital de

la

capital

de

España

Page 120: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

114

El modelo n-grama de peso de términos El modelo n-grama simple tiene el problema de que todos los n-gramas

tienen el mismo peso. Esto puede causar que pasajes con n-gramas

irrelevantes pueden ser más relevantes que otros con n-gramas más

importantes. Para solventar esta carencia se desarrolló el modelo n-grama de

peso de términos. Con este modelo el peso dado de los n-gramas está

determinado como la suma de los pesos de los términos que contiene.

La expresión de cálculo que determina este valor es la misma que la del

modelo n-grama simple con la diferencia de que la función h(x,Pj) se cambia po

la siguiente:

expresión (2)

El modelo n-grama de densidad de distancias En los anteriores métodos de n-gramas más largos continúan siendo

más relevantes que los cortos, independientemente de los términos que

contenga. Esto se debe a que el peso de los pasajes está calculada sumando

todos los n-gramas que contiene.

El modelo n-grama de densidad de distancias se basa en la búsqueda de los n-

gramas con un valor más alto. El resto de los n-gramas recuperados se

multiplicará por un factor de distancia el cual tiene en cuenta la distancia con

respecto al n-grama con el valor más alto. El peso de cada n-grama se obtiene

de la expresión (2) pero sus pesos se modifican por la siguiente expresión:

expresión (3)

si no

Page 121: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

115

Donde L es el número de términos entre el n-grama xmax (xmax es el n-grama

con el peso más alto calculado con la expresión (2) y el n-grama x del pasaje.

El valor de similitud viene determinado por la siguiente expresión:

expresión (4)

Donde D es el conjunto de los n-gramas con valor más alto con respecto a la

pregunta q, los cuales corresponden con el pasaje p, y cuyos términos no están

repetidos. wi es el peso del término enésimo de la pregunta y n es el número

de términos de la pregunta. h(x,D) es la función definida por la expresión (2)

6.3 El sistema de búsqueda de respuestas QUASAR

El sistema de búsqueda de pasajes JIRS ha sido desarrollado para

posteriormente poderlo integrar en el sistema de recuperación de respuestas

QUASAR realizado por el Laboratorio de Ingeniería del Lenguaje Natural de la

UPV. A continuación se describen las principales características de dicho

sistema, tal y como han sido detalladas en [Gomez et al., 2006].

Como idea de partida, suponemos que en una colección de documentos lo

suficientemente extensa, encontraremos la respuesta a una pregunta dada.

Además esta pregunta se encontrará expresada de distintas formas.

El sistema emplea Máquinas de Vectores Soportados y Ajuste de Patrones

para identificar el tipo de respuesta y posteriormente extraerla, una vez que el

sistema JIRS devuelve los pasajes relevantes.

Page 122: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

116

6.3.1 Introducción

Dentro de las funciones globales de un sistema BR podríamos

mencionar: clasificación de la pregunta, recuperación de documentos o

pasajes relevantes y extracción de respuestas. Estas tres funciones marcan la

división en módulos del sistema.

La Clasificación de la Pregunta se define como la tarea de asignar un tipo (de

entre unos tipos predefinidos) a cada pregunta enviada al sistema. El sentido

de esta clasificación, viene del hecho de que a distinto tipo de preguntas se les

aplicarán distintas estrategias. Por ejemplo, a la pregunta “¿Quién descubrió

América?”, se espera una respuesta en forma de nombre propio y la forma de

obtenerla será distinta de la pregunta “¿Qué es la Goma-2 eco?”. En este

segundo caso, la respuesta esperada debe ser una definición.

La clasificación de la pregunta, es importante como veremos más adelante, ya

que focaliza la búsqueda y reduce el error en la respuesta obtenida. Esto

queda patente por numeroso estudios, entre los cuales destacamos el de

Moldovan en el año 2003 en el que cuantifica en más de un 36% los errores

producidos directamente por la clasificación errónea de la pregunta en el CP

[Moldovan, et al., 2003].

6.3.2 Arquitectura del sistema

En la Figura 6.2 se muestra la arquitectura del sistema Quasar.

Page 123: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

117

Figura 6.2 Arquitectura del sistema QUASAR

A partir de una pregunta dada, esta se pasará a los módulos de “Análisis

de la pregunta” y “Recuperación de pasajes”. Después, el módulo “Extracción

de la respuesta” permitirá obtener la respuesta.

6.4 Casos de estudio con el valenciano

Aunque el corpus sobre el que realizamos la búsqueda proviene de la

colección CLiC-TALP versión 3.0, de la Universidad Politécnica de Cataluña en

idioma catalán, y las preguntas utilizadas en los casos de estudio han sido

construidas en valenciano, las diferencias entre ambos (considerando que hoy

en día, existe una gran polémica entre si son o no el mismo idioma) a nivel

léxico-sintáctico no son muy apreciables. Por tanto, a partir de ahora, nos

referiremos al idioma empleado para los casos de estudio como valenciano.

JIRS es un sistema altamente configurable y adaptable para distintos

idiomas. Una de las tareas realizadas en este PFC ha sido la de adaptar JIRS

para la BP en documentos en valenciano. La búsqueda se realizará sobre un

Page 124: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

118

documento en valenciano-catalán de 100.000 palabras. La adaptación conlleva

la inclusión de una lista de stopwords en valenciano. Para tener una primera

idea de sus prestaciones, se probará el sistema JIRS para cuatro cuestiones,

dos del tipo “Cuántos” y otras dos del tipo “Quién”. Se espera mejorar los

resultados en comparación con los obtenidos en los experimentos del Capítulo

5 con las preguntas del tipo “Cuántos”.

Los pasos para la instalación, configuración y ejecución del sistema

están explicados en el manual descargable junto con la aplicación desde la

pagina Web del JIRS. Por tanto, solo se exponen los resultados obtenidos junto

con las preguntas de prueba de dos tipos ¿Quién…? y ¿Cuántos…?

(traducidas al valenciano Qui… y Quatns…?).

Las preguntas de prueba serán:

1. Qui és el president de la Generalitat?

2. Qui és el secretary general d'ERC?

3. Quants desplaçaments a l' any es produeixen a la Regió Metropolitana

de Barcelona?

4. Quants millions de tones tin de transit el port de Tarragona en l'any

1999?

5. Qui ha presentat una proposició no de llei en el Parlament on s'insta al

Govern de la Generalitat a obrir una oficina del departament d'agricultura

ganaderia i pesca?

6. Quantes activitats ha acollit el Palau Firal els primers cinc mesos en

l'any 1999?

7. Que va proposar ERC en relació al Pla Hidrologico Nacional PHN?

8. Qui és el sotsdirector de la entitad bancària Deutsche Bank a Espanya?

Tras lanzar el sistema, se obtuvieron los siguientes resultados (se muestran

gráficamente algunos de los resultados obtenidos):

1. Qui és el president de la Generalitat?

Page 125: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

119

2. Qui és el secretary general d'ERC?

Page 126: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

120

3. Quants desplaçaments a l' any es produeixen a la Regió Metropolitana

de Barcelona?

4. Quants millions de tones tin de transit el port de Tarragona en l'any

1999?

Page 127: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

121

6.4.1 Discusión sobre los resultados

Las ocho preguntas de prueba han obtenido respuesta dentro de las

primeras cinco devueltas por el sistema. Los resultados de este

experimento y los realizados en el Capítulo 5, tanto en la tarea monolingüe

como en la translingüe no son directamente comprables, dado que se han

realizado sobre corpus totalmente distintos. Pero si podemos sacar algunas

conclusiones, salvando las distancias entre los corpora de búsqueda e

incidiendo sobre la metodología de búsqueda:

• El sistema de RP JIRS, ha devuelto los pasajes donde se encuentra

la respuesta buscada en el 100% de los casos, si se toman como

buenos los 5 primeros pasajes devueltos.

• Si se toman como válidas sólo las ocasiones en las que el sistema

devuelve el pasaje donde se encuentra la respuesta en primer lugar,

el porcentaje bajaría al 50%.

• Sobre los tipos de preguntas empleados, solo habiendo

experimentado con los ”Quién” y “Cuántos”, si comparamos los

resultados obtenidos por el sistema de BR del INAOE,

independientemente del idioma empleado, se obtenía 0% de

respuestas correctas para las preguntas del tipo “Cuántos”. Con

JIRS, en las tres cuestiones de este tipo hemos obtenido, para el

caso de tomar como válidos los primeros 5 pasajes un 100%, y un

66.6% si se toma como válido solo el devuelto en primer lugar.

Por tanto, después de los experimentos realizados, podemos justificar la

utilización del sistema de RP JIRS, aprovechando la eficacia demostrada en los

pocos experimentos realizados. Se podría plantear la integración del sistema

JIRS en el sistema de BR como un módulo aparte que facilitaría la clasificación

y extracción de la respuesta, así como se hizo por el sistema Quasar.

Page 128: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

122

Page 129: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

123

Capítulo 7. Conclusiones

Después de la realización de estudios con los sistemas presentados y el

análisis de los resultados hemos llegado a las siguientes conclusiones:

I. Los sistemas de búsquedas de respuestas implementados,

independientemente del idioma empleado, son capaces de obtener respuestas

a preguntas factuales utilizando la Web con recursos lingüísticos simples.

II. El idioma empleado en la búsqueda, tendrá gran relevancia a la hora de

cuantificar resultados sobre el mismo conjunto de preguntas traducido a los

distintos idiomas empleados. Se obtienen mejores resultados sobre el conjunto

de preguntas en castellano que sobre el conjunto de preguntas en valenciano,

debido a la redundancia del documento en Castellano con respecto al

Valenciano.

III. En cuanto a los tipos de reformulaciones empleadas en el sistema INAOE y

sus derivados, podemos decir que “Bolsa de palabras” y “Verbos” son las que

mejores resultados obtienen.

IV. Las cuestiones con respuesta de tipo numérico, tienen una dificultad

adicional no resuelta en los experimentos expuestos. De ahí que los

porcentajes finales de respuestas correctas bajen. Será esta una de las tareas

de mejora del sistema.

V. Las cuestiones más cortas se respondieron con un mayor porcentaje de

acierto.

VI. En los casos de preguntas largas, con ambigüedades o mal formuladas, no

se devolvió la respuesta correcta.

VII. Probar otros modelos para evaluar la similitud de términos y pasajes

Page 130: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

124

VIII. Conclusión final sobre sistema INAOE y adaptaciones: con muy pocos

recursos lingüísticos, es posible desarrollar sistemas de BR utilizando la Web y

su redundancia. Los resultados obtenidos, dependerán en gran medida del

idioma empleado. Para idiomas con más presencia en la Web será más

probable encontrar respuestas correctas.

Page 131: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

125

Page 132: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

126

Bibliografía

[Allan J. ,Connel M., Croft W., Feng F., Fisher D. and Li X. (2000)]. INQUERY

and TREC-9. In Proceedings of the Ninth Text REtrieval Conference (TREC

2000, Gaithersburg, Maryland, 13-16 November).

[Bacchin, M., Ferro, N., and Melucci, M. (2002)]. Experiments to evaluate a

statistical stemming algorithm. In Proceedings of CLEF 2002.

[Baeza-Yates, R. and Ribeiro-Neto, B. (1999)]. Modern information retrieval.

New York:ACM Press; Harlow: Addison-Wesley, 1999.

[Ballesteros, L. and Croft, W. B. (1997)]. Phrasal Translation and Query

Expansion Techniques for Cross-language Information Retrieval. In Research

and Development in Information Retrieval, pages 84-91.

[Bourdil Guillaume, Elkateb Faza, Grau Brigitte, Illouz Gabriel, Monceaux Laura,

Robba Isabelle and Vilnat Anne. (2004)]. How to Answer in English to

Questions Asked in French: by Exploiting Results from Several Sources of

Information. In Proceedings of Cross Language Evaluation Forum, (CLEF 2004,

Workshop, Bath, UK, 15-17 September 2004).

[Brill E., Lin J., Banko M., Dumais S. and Ng A. (2001)]. Data-intensive question

answering. In Proceedings of the Tenth Text REtrieval Conference, (TREC

2001. Gaithersburg, Maryland, 13-16 November 2001. Pages 393-400).

[Brin S. and Page, L (1998)]. The anatomy of a Large-Scale Hypertextual Web-

Search Engine. In Proceedings of the Seventh International World wide Web

Conference, (Brisbane, Australia, 1998. Pages 107-117).

[Buchholz S. (2001)]. Using grammatical relations, answer frequencies and the

World Wide Web for TREC Question Answering. In Proceedings of the Tenth

Page 133: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

127

Text REtrieval Conference, (TREC 2001. Gaithersburg, Maryland, 13-16

November 2001).

[Burger John, Cardie Claire, Chaudhri Vinay, Gaizauskas Robert, Harabagiu

Sanda, Israel David, Jacquemin Christian, Lin Chin-Yew, Maiorano Steve, Miller

George, Moldovan Dan, Ogden Bill, Prager John, Riloff Ellen, Singhal Amit,

Shrihari Rohini, Strzalkowski Tomek, Voorhees Ellen, Weishedel Ralph.

(2003)]. Issues, Tasks, and Program Structures to Roadmap Research in

Question Answering (Q&A). In Proceedings of Cross Language Evaluation

Forum (CLEF 2003 Workshop, Trondheim, Norway, 21-22 August 2003).

[Callan, J., Croft, W., and Harding, S. (1992)]. The Inquery Retrieval System. In

Proceedings of the Third International Conference on Database and Expert

Systems Applications, pages 78-83. Springer-Verlag.

[Chang, G. (2001)]. Mining the World Wide Web: an information search

approach. Norwell, Massachusetts: Kluwer Academic Publishers, 2001.

[Clarke C., Cormarck G. and Lynam T. (2001)]. Exploting redundancy in

question answering. Proceedings of the Special Interest Group on Information

Retrieval. (SIGIR 2001, New Orleans, LA, 9-13 September 2001).

[Cormack G., Clarke C., Palmer C. and Kisman D. (1999)]. Fast Automatic

Pasaje Ranking (MultiText Experiments for TREC-8). In Proceedings of the

Eighth Text REtrieval Conference (TREC 1999, Gaithersburg, Maryland, 17-19

November 1999).

[Costa Luís (2004)]. First Evaluation of Esfinge - a Question Answering

System for Portuguese. In Proceedings of Cross Language Evaluation Forum

(CLEF 2004 Workshop, Bath, UK, 15-17 September 2004).

[Davis, M. (1997)]. New Experiments in Cross-Language Text Retrieval at

NMSU's Computing Research Lab. In Proceedings of the 5th Text Retrieval

Conference (TREC 5, Gaithesburg, pages 447-454).

Page 134: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

128

[Del Castillo Escobedo, A. (2005)]. Búsqueda de Respuestas mediante

redundancia en la Web. Tesis para la obtención del título de “Maestro en

Ciencias Computacionales” en el Instituto Nacional de Astrofísica, Óptica y

Electrónica. México (2005).

[De Pablo C. , Martínez-Fernández J.L. , Martínez P. , Villena J. , García-

Serrano A.M. , Goñi J.M. and González J.C. (2004)]. miraQA: Inicial

Experiments in Question Answering. In Proceedings of Cross Language

Evaluation Forum (CLEF 2004 Workshop, Bath, UK, 15-17 September 2004).

[Echihabi Abdessamad, Oard Douglas W. ,Marcu Daniel and Hermjakob Ulf

(2003)]. Cross-Language Question Answering at the USC Information Sciences

Institute. In Proceedings of Cross Language Evaluation Forum (CLEF 2003

Workshop, Trondheim, Norway, 21-22 August 2003).

[Gey, F. C. and Oard, D. W. (2001)]. The TREC-2001 Cross-Language

Information Retrieval Track: Searching Arabic using English, French or Arabic

Queries. In Proceedings of the 10th Text Retrieval Conference (TREC10).

National Institute of Standards and Technology (NIST), Gaithesburg, MD.

[Gómez J.M., Montes M., Sanchis E., Rosso P. (2005)]. JIRS: Un Sistema de

Recuperación de Pasajes Orientado a Búsqueda de Respuestas. In Proc.

Avances en la Ciencia de la Computación, VI ENCuentro Int. de Computación

(ENC05, Puebla, Mexico, pp. 143-144).

[Gómez J., Buscaldi D., Bisbal E., Rosso P., Sanchís E. (2006)]. QUASAR: The

Question Answering System of the Universidad Politécnica de Valencia. In

Accessing Multilingual Information Repositories, Revised Selected Papers

(CLEF 2005, Springer-Verlag, LNCS(4022), Vienna, Austria).

[Harabagiu S., Moldovan D., Pasca M., Mihalcea R., Surdeanu M., Bunescu R.,

Girju R., Rus V. and Morarescu P. (2000)]. FALCON : Boosting knowledge for

Page 135: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

129

Question Answering. In Proceedings of the Tenth Text Retrieval Conference.

(TREC 2001, Gaithersburg, Maryland, 13-16 November, 2001).

[Harabagiu S. M. and Pasca M. A. (2001)]. High performance QUESTION

answering. In Proceedings of the Special Interest Group on Information

Retrieval. (SIGIR 2001, New Orleans, LA, 9-13 September 2001).

[Hovy E., Gerber L., Hermajakob U., Junk M. and Lin C. (2000)]. Question

answering in Webclopedia . In Proceedings of the Ninth Text Retrieval

Conference. Proceedings of the Tenth Text REtrieval Conference. (TREC 2000,

Gaithersburg, Maryland, 13-16 November, 2000).

[Hovy E., Hermajakob U. and Lin C. (2001)]. The use of external knowledge in

factoid QA. In Proceedings of the Tenth Text Retrieval Conference (TREC

2001, Gaithersburg, Maryland, 13-16 November, 2001).

[Hull, D. A. and Grefenstette, G. (1996)]. Querying across languages: A

dictionarybased approach to multilingual information retrieval. In Proceedings of

the 19th International Conference on Research and Development in Information

Retrieval, pages 49-57.

[Jijkoun Valentin, Mishne Gilad and de Rijke Maarten. (2004). The University of

Amsterdam at QA@CLEF2004. In Proceedings of Cross Language Evaluation

Forum (CLEF 2004 Workshop, Bath, UK, 15-17 September 2004).

[Kwok et al., 2001] Kwok C. K. , Etzioni O. and Weld D. (2001). Scaling

Question answering to the Web. Tenth International World Wide Web

Conference (May 2001).

[Larosa S., Peñarrubia J., Rosso P., Montes M. (2005)]. Cross-language

Question Answering: The Key Role of Translation. In Proc. Avances en la

Ciencia de la Computación, VI ENCuentro Int. de Computación (ENC05),

Puebla, Mexico, pp. 131-135.

Page 136: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

130

[Mayeld, J., McNamee, P., Costello, C., Piatko, C., and Banerjee, A. (2001)].

JHU/APL at TREC 2001: Experiments in Filtering and in Arabic, Video, and

Web Retrieval. In Proceedings of the 10th Text Retrieval Conference

(TREC10). National Institute of Standards and Technology (NIST), Gaithesburg,

MD.

[McCarley, J. S. (1999)]. Should we Translate the Documents or the Queries in

Crosslanguage Information Retrieval? In Proceedings of the 37th Annual

Meeting of the Association for Computational Linguistics, pages 208-214.

Association for Computational Linguistics.

[McNamee,P. and Mayeld, J. (2001)]. A Language-Independent Approach to

EuropeanText Retrieval. In Peters, C., editor, Cross-Language Information

Retrievaland Evaluation, Workshop of Cross-Language Evaluation Forum,

CLEF2000, Lisboa, Portugal, September 21-22, 2000, Revised Papers, volume

2069 of Lecture Notes in Computer Science, pages 129-139. Springer.

[Meadow, C. T. (1992)].Text information retrieval systems. San Diego: Acdemic

Press, 1993.

[Montes M., Villaseñor L., Pérez M., Gómez J., Sanchís E., Rosso P. (2006)].

A Full Data-Driven System for Multiple Language Question Answering. In

Accessing Multilingual Information Repositories, Revised Selected Papers

(CLEF05, Springer-Verlag, LNCS(4022), Vienna, Austria).

[Negri Matteo, Tanev Hristo and Magnini Bernardo (2003)]. Bridging Languages

for Question Answering: DIOGENE at CLEF 2003. In Proceedings of Cross

Language Evaluation Forum (CLEF 2003 Workshop, Trondheim, Norway, 21-22

August 2003).

[Neumann Günter and Sacaleanu Bogdan (2004)]. Experiments on Robust NL

Question Interpretation and Multi-layered Document Annotation for a Cross-

Language Question/Answering-System. In Proceedings of Cross Language

Evaluation Forum (CLEF 2004 Workshop, Bath, UK, 15-17, September 2004).

Page 137: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

131

[Nie,J.-Y.(2002)].Towards a Unified Approach to CLIR and Multilingual IR. In

Proceedings of Workshop on Cross-Language Information Retrieval: A

ResearchRoadMap. (SIGIR 2002).

[Osenova Petya, Simov Alexander, Simov Kiril, Tanev Hristo and Kouylekov

Milen. (2004)]. Bulgarian-English Question Answering: Adaptation of Language

Resources. In Proceedings of Cross Language Evaluation Forum (CLEF 2004

Workshop, Bath, UK, 15-17 September 2004).

[Ozawa, T., Yamamoto, M., Umemura, K., and Church, K. (1999)]. Japanese

word segmentation using similarity measure for IR. In Proceedings of the First

NTCIR Workshop on Research in Japanese Text Retrieval and Term

Recognition, pages 89-96.

[Pérez-Coutiño Manuel, Solorio T., Montes-y-Gómez Manuel, López-López

Aurelio, Villaseñor-Pineda Luis. (2004)]. The Use of Lexical Context in Question

Answering for Spanish. In Proceedings of Cross Language Evaluation Forum

(CLEF 2004 Workshop, Bath, UK, 15-17 September 2004).

[Pirkola, A. (1998)].The Efects of Query Structure and Dictionary Setups in

Dictionary-Based Cross-Language Information Retrieval. In Proceedings of

SIGIR 98, 21st ACM International Conference on Research and Development in

Information Retrieval, pages 55-63.

[Porter, M. (2001)]. Snowball: A language for stemming algorithms.

http://snowball.sourceforge.net.

[Prager J., Brown E., Coden A. and Radev D. (2000)]. Question answering by

predictive annotation. In Proceedings of the Special Interest Group on

Information Retrieval. (SIGIR 2001, Athens, Greece, 24-28 July 2000).

[Rijsbergen, C. V. (1979)]. Information Retrieval (second edition). Butterworths.

Page 138: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

132

[Salton, G. (1970)]. Automatic Processing of Foreign Language Documents. In

Journal of American Society for Information Sciences, 21:187-194.

[Soergel, D. (1997)]. Multilingual thesauri in cross-languate text and speech

retrieval. In Hull, D. and Oard, D., editors, AAAI Symposium on Cross-

Language Text and Speech Retrieval.

[Sperer, R. and Oard, D. W. (2000)]. Structured Translation for Cross-Language

Information Retrieval. In Proceedings of SIGIR 2000, 23rd ACM International

Conference on Research and Development in Information Retrieval, pages 120-

127.

[Rosso P., Lyhyaoui A., Peñarrubia J., Montes y Gómez M., Benajiba Y.,

Raissouni N. (2005)]. Arabic-English Question Answering. In Proc. Conf.

Information Communication Technologies Int. Symposium (ICTIS-05), Tetuan,

Morroco, pp. 36-41.

[Solorio, T. and López López A. (2004)] Learning Named Entity Classifiers

using Support Vector Machines, Lecture Notes in Computer Science. In

Computational Linguistics and Intelligent Text Processing, pages 158-166,

Springer-Verlag, 2004.

[Soubbotin M. and Soubbotin S. (2001)]. Patterns of Potential Answer

Expresions as Clues to the Right Answers. In TREC-10 2001. (TREC 2001,

Gaithersburg, Maryland, 13-16 November, 2001).

[Tellex S., B. Katz, J. J. Lin, A. Fernandes, G. Marton (2003)]. Quantitative

evaluation of passage retrieval algorithms for question answering. In SIGIR,

2003.

[José Luis Vicedo González (2002)]. SEMQA: Un Modelo Semántico aplicado a

los Sistemas de Búsqueda de Respuestas. Tesis Doctoral, Universidad de

Alicante, España, 2002.

Page 139: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

133

[Vicedo. J.L., Izquierdo R., Llopis F., and Muñoz R. (2003)]. Question

Answering in Spanish. In Proceedings of Cross Language Evaluation Forum

(CLEF 2003 Workshop, Trondheim, Norway, 21-22 August 2003).

[Vicedo. J.L., Saiz M. and Izquierdo R. (2004)]. Does English help Question

Answering in Spanish?. In Proceedings of Cross Language Evaluation Forum

(CLEF 2004 Workshop, Bath, UK, 15-17 September 2004).

[Villaseñor-Pineda L., Montes-y-Gómez M. and Del-Castillo A. (2004)].

Búsqueda de respuestas basada en redundancia : un estudio para el

Español y el Portugués. In 9th Ibero-American Conference on Artificial

Intelligence. (IBERAMIA 2004, Workshop Herramientas y recursos lingüísticos

para el español y el portugués, p. 188-195)

[Villena Román, J. (1999)]. Sistemas de Recuperación de Información.

Departamento Ingeniería y Sistemas Telemáticos. Universidad de Valladolid.

España.

Page 140: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

134

Page 141: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

Cross-language Question Answering: The Key Role of Translation

S. Larosa1, J. Peñarrubia2, P. Rosso3, M. Montes-y-Gomez4 1Dipartimento di Informatica e Scienze dell’informazione

Università degli Studi di Genova, Italy [email protected]

2Facultad de Informática, Universidad Politécnica Valencia, Spain [email protected]

3Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia, Spain

[email protected] 4Laboratorio de Tecnologias de Lenguaje

Instituto Nacional de Astrofisica, Óptica y Electrónica, Mexico [email protected]

Abstract

The goal of a Question Answering (QA) system is to provide inexperienced users with a flexible access to the information allowing them for writing a query in natural language and obtaining a concise answer. Cross-language QA systems allow the user for querying in a language different than the language in which documents are written. In this paper, we illustrate a case study to understand how much the translation of the questions may reduce the accuracy of a QA system. The main goal is to investigate whether more machine translators could be used in order not to rely just on one translation and to choose the best one on a statistical basis. 1. Introduction

Nowadays, the Web has become our main information repository: nearly all kind of information (digital libraries, newspapers collections, etc.) is available in electronic format. These documents may satisfy almost every information need. Therefore, rather than Question Answering (QA) systems which are based on sophisticated linguistic analyses of both questions and candidate answers, it makes sense to use a language-independent approach, which is supported by the data redundancy of the Web [1]. The main idea is that questions and answers are commonly expressed using the same words, and that the probability of finding a simple (lexical) matching between them increases with the redundancy of the Web [2, 3, 4].

In recent years, the combination of the Web growth and the explosive demand for better information access

has motivated the interest in developing QA systems. Many are the efforts made both by academic institutions as well as well known research companies like IBM, which recently developed the prototype of the Piquant (Practical Intelligent Question Answering Technology) search engine [5].

Documents on the web are written in more than 1,500 languages. Therefore, it is useful to provide an inexperienced user with a flexible access to the information allowing for writing a question in her mother tongue, and obtaining a concise answer [6].

In this paper, we illustrate a study for a Cross-Language Question Answering in which the questions are made in a certain language whereas the documents are written in a different one. In order to tackle the problem of the translation of the questions, a combination of translators should be used. The paper is structured as follow. Section 2 describes the Cross-language Web-based QA system and the experiments we carried out. Section 3 illustrates the language-independent approach we have been investigating and the section 4 shows some preliminary results. Finally, some conclusions are drawn in the section 5. 2. Cross-Language Web-Based QA System

The system we used was developed at the Language Technologies laboratory of the INAOE at Mexico [7]. Given a question, the QA system makes combinations of its words, searching for these new queries on the Web through a search engine’s browser (e.g. Google). For each of the new query reformulations (obtained manipulating the order of the words of the question), the system collects a certain number of snippets (the

jlpenar
Anexo I
jlpenar
jlpenar
jlpenar
jlpenar
Publicado en: Proc. Avances en la Ciencia de la Computación, VI ENCuentro Int. de Computación (ENC05), Puebla, Mexico, pp. 131-135.
Page 142: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

snippet is the part of a relevant document that the browser retrieves which contains almost all the words of the query). Finally, possible answers are extracted on a statistical basis, and a final ranking of candidates is returned. Therefore, the main steps of the QA system are: query reformulation (verb movement, bag of words, components [7]), snippets recollection, and answer extraction. In case of Cross-language QA, a translation preprocess is needed in order to translate the questions from the source language into the target language of the documents. In order to extract the most frequent n-grams (sequences of n words) from the snippets (each n-gram is defined as a possible answer to the given question), we used a statistical criterion which ranks them by decreasing likelihood of being the correct answer. The method which is used for the n-gram extraction and ranking is based on regular expressions. A compensation factor is applied in order to avoid favoring short n-grams with respect to large ones. The method extracts the twenty most frequent unigrams which satisfy a given typographic criteria (i.e., words starting with an uppercase letter, numbers and names of months), determines all the n-grams (from bigrams to pentagrams, built from the set frequent unigrams), ranks the n-grams based on their compensated relative frequency, and finally selects the top five n-grams (candidates as possible answers).

The compensated relative frequency of a n-gram g(n) = (w1…wn) is computed as follows [7]:

∑∑ ∑=

=∈∀

=n

i

in

jGx

ix

ijng

i

ff

P1 1 )(

)()(

where Gi is the set of n-grams of size i, |Gi| indicates the cardinality of this set, j(i) is the n-gram j of size i contained in g(n), and fj(i) is the frequency of occurrence of this n-gram. The QA system has been tested in monolingual (Spanish, Portuguese and Italian) [7,8] as well as in Cross-language (Catalan-Spanish and Arabic-English) tasks [9]. For the Catalan-Spanish and Arabic-English QA Cross-language experiments, the original corpus of the Cross-Language Evaluation Forum (CLEF)-2003 [10] (mainly focused on answering factual queries, i.e., those having a simple named entity as the answer) was manually translated into Catalan and Arabic. Thereafter, the translation of the questions was made using the SALT Valencian-Spanish translator [11] and the TARJIM Arabic-English translator [12], respectively. The precision of correct answers obtained with the questions translated from Catalan into Spanish was

approximately half of that obtained directly with the Spanish questions. It has to be mentioned that both languages have many similar words, and in some cases even searching on the Web with the question in Catalan, the retrieved snippet was in Spanish. In the Arabic-English Cross-language experiments, we compared the results obtained querying the QA system with the original corpus in English and with that one obtained automatically after the Arabic-English translation. In Table 1 it is possible to appreciate that the number of questions correctly answered decreased of more than one third (in the best case of the verb movement reformulation). The table gives an idea of how much the accuracy of the results may decrease due to the translation process of the questions.

Table 1. Precision and MRR measures

Questions Bag words Comp.

Comp no 1st word

Comp no 1st

and 2nd words

Verb mov.

English (original)

17.1% 0.12

24.4% 0.19

26.7% 0.20

22.0% 0.16

39.5%0.31

English (from Arabic)

6.0% 0.04

2.4% 0.02

7.4% 0.06

8.4% 0.06

10.7% 0.08

The Mean Reciprocal Rank (MRR) measure was also used to fully evaluate the performance of the system:

∑=

=n

iirn

MRR1

1

The MRR measure takes into account what is the

ranking of the extracted answer (the contribution of a question, which is not obtained an answer for, is 0): n is the total number of test questions and ri is the reciprocal of the rank (position in the answer list) of the first correct answer. For instance, if the correct answer is in the second position, ri = 0.5, whereas if it is in the third then ri = 0.33. In the case the correct answer does not occur in the list of the top five n-grams, then ri =0.

At the moment of writing this paper, some other Cross-language experiments have been carrying out (Urdu-English, Persian-English, and Italian-Spanish) in order to study how much the translation pre-process of the questions may decrease the performance of the QA system for other language combinations. No matter how much exactly the accuracy decreases in each Cross-language task: it is no doubt that the translation has a key role in the final performance of the system. Therefore, the way to improve the quality

Page 143: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

of the translation of the questions needs to be investigated. In the next section a first statistical attempt is described. 3. Combining Translations

A very important step for a Cross-language QA system is the translation of a question from a language source to a destination one. Generally, majority of QA systems use online translators, but the quality of their translations is often not very good and this has a negative impact on the QA system efficiency. We suggest an approach which uses more than one translator and selects the best translation. Two methods were implemented: Word-Count and Double Translation. Word-Count exploits the redundancy of terms in all the translations, and the translation with the highest number words in common (in other words the most similar) will be chosen. To establish the number of common words and calculate the similarity among the translations, two formulae have been chosen: the Dice and the Cosine formulae. With Word-Count and the Dice formula we make an intersection of the translations to find the number of common words.

In order to illustrate the two language-independent approaches, we describe them using the following examples of translated question from Italian into Spanish with four different translators [13]: “Che cosa significa la sigla CEE?” (“What does the acronym EEC mean?”)

1. ¿Qué significa la sigla CEE? 2. ¿Qué cosa significa siglas el EEC? 3. ¿Qué significa la CEE de la abreviación? 4. ¿Qué cosa significa la pone la sigla CEE?

Therefore, the Dice formula is used to establish the degree of similarity among the translations in order to rank them:

( )( ) ( )ji

jiji tlentlen

ttlenttsim

=I2

),(

where: - ti and tj are the two different translations; - len(ti∩tj) indicates the number of common words of both translations; - len(tk) represents the number of words of translation tk. To get a corresponding similarity value for every translation, the similarity between a translation and the others has to be calculated using the previous formula (the partial results will be added together in order to

obtain its similarity value). For instance, to get the similarity of the first translation we do: sim(t1,t2)+ sim(t1,t3) + sim(t1,t4). The translation with the highest value is chosen. To increase the accuracy of the choice of the best translation, n-grams are used (an n-gram is a sequence of n words). If for instance there are two translations which have the same identical words but with a different order, n-grams allows for calculating their similarity values. Examples of 2-grams of the sentence below are: “Qué significa la sigla CEE?” (“What does the acronym EEC mean?”) “Qué significa” “significa la” “la sigla” “sigla CEE” The Word-Count method was implemented also using the cosine formula to calculate the similarity degree. In this model, translations are represented as vectors in a t-dimensional space (t is the general number of index terms or keywords). The keywords weights are calculated using a scheme-like Term Frequency – Inverse Document Frequency (tf-idf) [14]. Examples of translated question with four different translators are: “Qual’ è la capitale della Repubblica del Sud Africa?” (“What is the capital of the Republic of South Africa?”) 1. ¿Cuál es la capital de la República de la Sur África? 2. ¿Cuál es entendido ellos de la república de la África del sur? 3. ¿Cuál es la capital de la República del Sur una Africa? 4. ¿Cuál es el capital de la república del sur Africa? The list of keywords is: “cuál”, “es”, “la”, “capital”, “de”, “república”, “sur”, “áfrica”, “entendido”, “ellos”, “del”, “una”, “africa”,“el” We get the list of keywords of all translations (in order to define the dimensionality of the vector space), and then measure the weight of every keyword for every translation using the following formula:

)1log(Nnft i

ijij +×=

where: - tij indicates the weight of word i at translation j; - fij is the normalized frequency of word i in the translation j; - N is the total number of translations;

Page 144: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

- ni is the number of translations containing the word i. Once the vectors have been found, the next step is the calculation of the similarity degree among all the translations by using the following formula:

( ) ( )∑∑

∑∀∀

×

×=

k jkk ik

jkk ikji

tt

ttttsim

22,

In the formula tik and tjk represent two generic vector weights. The translation with the highest value is chosen. The final calculation is done as follows: Translation1 = sim(t1,t2) + sim(t1,t3) + sim(t1,t4) Translation2 = sim(t2,t1)+ sim(t2,t3) + sim(t2,t4) Translation3 = sim(t3,t1)+ sim(t3,t2) + Sim(t3,t4) Translation4 = sim(t4,t1)+ sim(t4,t2) + Sim(t4,t3) With the Double Translation method, every question in Italian is translated into Spanish and then retranslated back into Italian. Four translators are used and the translation whose results are more similar to the original question will be chosen. The Dice and the Cosine formulae are used in this case as well. The algorithms used are those previously illustrated. Example of original question and double translations are: “Che cosa significa la sigla CEE?” (“What does the abbreviation EEC mean?”) 1. ¿Che cosa significa la sigla CEE? 2. ¿Che cosa significa le abbreviazioni il EEC? 3. ¿Che significa il CEE dell'abbreviazione? 4. ¿Che cosa ha importanza la mette la sigla di CEE? As we already mentioned, the methods are totally statistical, and therefore language-independent. At the moment of writing this paper, the application of the methods to other pairs of language other than Italian-Spanish is under investigation (e.g. Catalan-Spanish and Arabic-English [9]). The only limitation to these methods derives from the availability of translators in the source language. 4. Experiments In the experiments we carried out, we translated 450 factual question derived from the CLEF 2003 competition. Four different translators were used (only two of these allow a direct translation from Italian to Spanish). The following tables show the percentage of success and the number of question which were properly translated in every experiment.

Table 2. Word-count, Dice formula

Table 3. Double-Translation, Dice formula

Table 4. Word-count, Cosine formula

Table 5. Double-Translation, Cosine formula

From these experiments we have observed that some translators made bad translations (in particular those that not allow a direct translation from the source language into the target one). The machine translator which obtained the best results is PowerTranslationPro (55.33%). This baseline was better than our best results (51.55%) which were obtained with the Word-Count method. Nevertheless, the preliminary results we obtained seem to be promising. In fact, an optimal combination among the Word-count and Double Translation methods could increase the percentage of success. We estimate that it should be possible to obtain approximately an increase of up to 20% of the system’s performance. This is due to the fact that the choices obtained from two methods are not the same. Finally, we carried out another experiment in order to investigate how to combine the methods. In this last experiment we make a comparison between the methods and the baseline. The questions were separated into the following categories: Date, Person, Organisation, Location, and Measure. The table 6 shows the best results obtained by the methods, in comparison with the baseline machine translator (PowerTranslationPro). For every method appear only the best percentage among the methods. The numbers in bold means that a method was capable to reach a better performance then a baseline. For the Person category, our approach obtains the same results of the baseline, whereas for the Organisation and the Measure categories, the percentage of the correctly translated questions is higher. Probably, with the help of these results, we can make a good combination

1-Gram 2-Grams 3-Grams

51.33% 51.11% 51.55% 231/450 230/450 232/450

1-Gram 2-Grams 3-Grams

46.66% 49.11% 50.22% 210/450 221/450 226/450

1-Gram 2-Grams 3-Grams

48.66% 49.33% 50.00% 219/450 222/450 225/450

1-Gram 2-Grams 3-Grams

45.77% 48.44% 49.11% 206/450 218/450 221/450

Page 145: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

between Word-Count and Double Translation and improve the percentage of success.

Table 6. Questions separated for categories

5. Conclusions In this paper we investigated the possibility of improving the question translation preprocess of a Cross-language QA system. Two totally statistical and language-independent methods were described. The preliminary results seem to be promising an for some of the studied categories were better than those obtained by the baseline. Further experiments are needed to find an optimal combination among the methods and, therefore, increase the percentage of success. As further work, it would be also interesting to use the JIRS passage retrieval system [15] in order to fully take advantage of the redundancy of the Web during the validation of the translations. Acknowledgments The work was partially supported by the R2D2 (CICYT TIC2003-07158-C04-03), ICT EU-India (ALA/95/23/2003/077-054) research projects and CONACYT 43990. References [1] E. Brill, J. Lin, M. Banko, and S. Dumais, “Data-intensive question answering”, Proc. TREC-10, 2001.

[2] E. Hovy, L. Gerber, U. Hermajakob, M. Junk, and C. Lin, “Question answering in Webclopedia”, Proc. TREC-9, 2000. [3] C. Kwok, O. Etzioni, and D. Weld, “Scaling question answering to the Web”, Proc. of the WWW Conference, 2001. [4] J. Lin, J., “The Web as a resource for question answering: perspectives and challenges”, Proc. of the 3r

d Int. Conf. on

Language Resources and Evaluation (LREC), 2002. [5] IBM Piquant Question Answering system, at: http://www.research.ibm.com/compsci/spotlight/nlp/ [6] J. Vicedo, “Los Sistemas de Búsqueda de Respuestas desde una Perspectiva Actual”, Revista Iberoamericana de Inteligencia Artificial, 2004. [7] M. Del Castillo, M. Montes y Gómez, and L. Villaseñor, “QA on the web: A preliminary study for Spanish language”, Proc. of the 5

th Mexican Int. Conf. on Computer Science

(ENC), Colima, Mexico, 2004.

[8] L. Villaseñor-Pineda, M. Montes-y-Gómez and A. del Castillo, “Búsqueda de respuestas basada en redundancia: un estudio para el Español y el Portugués”, Proc. Taller de Herramientas y Recursos Lingüísticos para el Español y el Portugués, IX Ibero-American Conf. on Artificial Intelligence IBERAMIA 2004, Puebla, Mexico, November, 2004.

[9] P. Rosso, A. Lyhyaoui, J. Peñarrubia, M. Montes y Gómez , Y. Benajiba, and N. Raissouni, “Arabic-English Question Answering”, Proc. of Information Communication Technologies Int. Symposium (ICTIS), Tetuan, Morocco, June 2005. [10] Cross-Language Evaluation Forum (CLEF) European consortium: http://www.clef-campaign.org [11] SALT Valencian-Spanish Translator, available at: http:// www.cult.gva.es/salt/salt_programes_salt2.htm [12] TARJIM Arabic-English Translator, available at: http://tarjim.ajeeb.com/ajeeb/default.asp [13] S. Larosa, M. Montes y Gómez, P. Rosso and S. Rovetta, “Best Translation for an Italian-Spanish Question Answering System”,Proc. Of Information Communication Technologies Int. Symposium (ICTIS), Tetuan, Morocco, June 2005. [14] R. Baeza-Yates and B. Ribeiro-Neto, Modern Information Retrieval, Addison-Wesley, 1999. [15] J. Gómez, M. Montes y Gómez, E. Sanchis and P.Rosso, “A Passage Retrieval System for Multilingual Question Answering Answering”, LNCS, Springer Verlag, TSD Int. Conf, Brno, Check Republic, September 2005 (accepted; to be published).

Date Person Organization Location Measure

Number of Questions 44 71 26 61 77

WordCount Dice and 1-gram

-- -- 46% 59% 58%

WordCount Dice and 2-gram

-- -- -- -- 58%

Double Trans

Dice and 2-gram

61% -- -- -- --

Double Trans

Dice and 3-gram

61% 64% -- -- --

Double Trans

Cosine and 3-gram

61% -- -- -- --

Baseline 70% 64% 42% 72% 40%

Page 146: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

Arabic-English Question Answering

P. Rosso1, A. Lyhyaoui2, J. Peñarrubia3, M. Montes y Gómez4 , Y. Benajiba2, and N. Raissouni2

1 Dpto. Sistemas Informáticos y Computación, Universidad Politécnica Valencia, Spain

2 Abdelmalek Essaadi University, Ecole Nationales de Sciences Appliquées de Tanger, Morocco

3 Facultad de Informática, Universidad Politécnica Valencia, Spain 4 Laboratorio de Tecnologías del Lenguaje, Instituto Nacional de Astrofísica, Óptica y

Electrónica, Mexico

Emails: [email protected]; [email protected]; [email protected]; [email protected]; [email protected]; [email protected]

ABSTRACT - The goal of a Question Answering (QA) system is to provide inexperienced users with a flexible access to the information allowing them for writing a query in natural language and obtaining a concise answer. QA systems are mainly suited to English as the target language. In this paper we will investigate how much the translation of the queries, from the Arabic into the English language, could reduce the accuracy of the QA task.

1. INTRODUCTION

Nowadays, the Web has become our main information repository: nearly all kind of information (digital libraries, newspapers collections, etc.) in more than 1,500 languages is available on the Web in electronic format. These documents may satisfy almost every information need. Nevertheless, without suitable tools which could help the user, the great amount of retrieved information is nearly useless.

In Information Retrieval (IR) the user is interested in finding the most relevant documents which partially match a certain request (Baeza, 1999). Therefore, IR addresses the problems associated with the retrieval of documents from a collection in response to a user query and its goal is to search into a text collection (e.g. the Web) in order to return as result a subset of documents ordered by decreasing likelihood of being relevant to the given query. The most popular IR systems are the search engines for the Web (e.g. Google, Altavista and Yahoo). The aim of Cross-Language Information Retrieval is instead to retrieve documents written in a certain language (e.g. English) when the user query is written in another specific language (e.g. Arabic) (Y. Benajiba, 2004). In fact, if for instance the user is interested in investigating documents which are written in English, it would be nearly impossible to translate all of them into Arabic.

The goal of a Question Answering (QA) system is to provide inexperienced users with a flexible access to the information allowing them

for writing a query in natural language and obtaining not the documents which contain the answer, but the concise answer itself (Vicedo, 2004). In recent years, the combination of the Web growth and the explosive demand for better information access has motivated the interest in Web-based QA systems. Due to the difficulty of the task, the last developments in QA (e.g. the prototype of the Piquant1 (Practical Intelligent Question Answering Technology) IBM search engine) are mainly focused on answering factual queries (i.e., those having a simple named entity as the answer) (Del Castillo, 2004).

QA systems are often suited to English as the target language. Cross-Language Question Answering allows for querying the system in a language (e.g. Arabic) which is not the language of the documents (e.g English). In this paper we approach the challenging Arabic-English QA task. The main goal is to investigate how much the translation of the queries, from the Arabic into the English language, could reduce the accuracy of a QA system.

2. THE QA WEB-BASED APPROACH

The language-independent approach we used is supported by data redundancy (Brill, 2001) rather than sophisticated linguistic analyses of both questions and candidate answers. The main idea of the system we used, which is primarily based

1 http://www.research.ibm.com/compsci/spotlight/nlp/

jlpenar
Anexo II
jlpenar
jlpenar
jlpenar
Publicado en: Proc. Conf. Information Communication Technologies Int. Symposium (ICTIS-05), Tetuan, Morroco, pp. 36-41
Page 147: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

on (Del Castillo, 2004), is that the questions and their answers are commonly expressed using the same words, and that the probability of finding a simple (lexical) matching between them increases with the redundancy of the Web (Hovy, 2000), (Kwok, 2001), (Lin, 2002).

2.1. Query Reformulation

Given a question, the system first generates several query reformulations manipulating the order of the words of the question. The possible reformulations are illustrated for the question: Where is the ICTIS Conference in 2005?

• Bag of words: the set of words of the question different than prepositions, conjuntions and article (i.e., stopwords); e.g. “is ICTIS Conference 2005”

• Verb movement: in order to transform an

interrogative sentence into a declarative one is necessary to eliminate the verb, or to move it to the final position of the sentence (a second word movement to the end was also investigated to consider the cases when an auxiliar verb exists), e.g. “the ICTIS Conference in 2005 is”

• Components: the question is divided in

components (each component is an expression delimited by a preposition) and new reformulations are defined combining these components; e.g. “is the ICTIS Conference” “in 2005” “in 2005 is the ICTIS Conference”

• Componenets without the first word: in

order to construct this set of reformulations we eliminate the main verb of the question, and then we apply the method of reformulations by components; e.g. “in 2005 the ICTIS Conference” “the ICTIS Conference” “in 2005”

• Componenets without the first and the

second words: we suppose the presence of an auxiliar verb (not in the above example) and then we apply the method of reformulations by components.

Some of the above reformulations may not be syntactically correct and, therefore, not so likely to be found on the Web. On the contrary, the right ones will have a higher redundancy on the Web. 2.2. Snippets Recollection and Answer Extraction

After the query reformulation, the QA system sends each reformulation to a search engine (e.g.

Google), and collects the returned snippets (document summaries) which were retrieved from the Web. This is an example of a snippet retrieved with the reformulation “the ICTIS Conference in 2005”: MyBusinessCommunities ... 11th international Conference on Concurrent Enterprising - ICE 2005 (103 ... ICTIS’2005 (131 visitors) Tetuan - Morocco, 2005-06-03 till 2005-06-06 ... www.prolearn-online.com/events.php?sort1=1& sort2=1&offset=60&newlanguage=1 - 24k - Cached - Similar pages The right answer (Tetuan – Morocco) is in the retrieved snippet and it is only a matter to extract it. To extract the most frequent n-grams (sequences of n words) from the snippets (each n-gram is defined as a possible answer to the given question), we used a statistical criterium which ranks them by decreasing likelihood of being the correct answer. The method which is used for the n-gram extraction and ranking is based on regular expressions A compensation factor is applied in order to avoid favoring short n-grams with respect to larges ones. The method extracts the twenty most frequent unigrams which satisfy a given typografic criteria (i.e., words starting with an uppercase letter, numbers and names of months), determines all the n-grams (from bigrams to pentagrams, built from the set frequent unigrams), ranks the n-grams based on their compensated relative frequency, and finally selects the top five ngrams (candidates as possible answes).

The compensated relative frequency of a n-gram g(n) = (w1…wn) is computed as follows (Del Castilo, 2004):

∑∑ ∑=

=∈∀

=n

i

in

jGx

ix

ijng

i

ff

P1 1 )(

)()(

(1)

where Gi is the set of n-grams of size i, |Gi| indicates the cardinality of this set, j(i) is an –gram j of size i contained in g(n), and fj(i) is the frequency of occurrence of this n-gram.

3. PRELIMINARY EXPERIMENTS

3.1. The CLEF-2003 Query Corpus

Some preliminary experiments were carried out using the queries corpus of the CLEF2-2003 competition. The Cross-Language Evaluation Forum (CLEF) is a European consortium that

2www.clef-campaign.org

Page 148: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

organises an international competition regarding of IR and QA systems, operating on European languages in both monolingual and cross-language contexts. In our case, we used the questions in English and compared the answers with those obtained after the translation process into English from an Arabic corpus which was manually created by a linguist. For the Arabic-English translation process, an automatic machine translator was used. 3.2. The Query Translation Process One of the nowadays challenge is writing a question in a language (e.g. Arabic) and query a collection of documents which are written in another language (e.g. English). In fact, it would be technically impossible to translate all the target documents into the query’s source language. The main aim of our preliminary experiments was to investigate how much the translation of the queries, from the Arabic into the English language, could reduce the accuracy of the QA task. For the translation of the questions the TARJIM3 Arabic-English machine translation system was used. 3.3. Experimental Results

For each question we generated the five different kinds of query reformulations, and for each reformulation we collected, if posible, 50 snippets. Table 1 shows the precision (i.e., the proportion of the questions which were correctly answered) of the preliminary experiments we carried out comparing the performance of the QA system when the original English questions and those obtained after the Arabic-English translation were used. The best results were generally obtained with the “verb movement” reformulation. Nevertherless, a more detailed analysis of the results showed us that there are cases (e.g. questions like “What is the capital of…” or “In what year…”) in which other reformulations (e.g. the components ones) allow to obtain the right answer.

Table 1. Precision of correct answers (over 450).

In the further experiments, we took into consideration the top five better answers for each question. In order to fully evaluate the performance of the QA system, the precision measure was used together with the Mean

3http://tarjim.ajeeb.com/ajeeb/default.asp

Reciprocal Rank (MRR) of the first correct answer (see Table 2). The MRR is computed as follow:

∑=

=n

iirn

MRR1

1

(2)

where n is the total number of test questions and ri is the reciprocal of the rank (position in the answer list) of the first correct answer. For instance, if the correct answer is in the second position, ri = 0.5, whereas if it is in the third then ri = 0.33. In the case the correct answer does not occur in the list of the top five n-grams, then ri =0.

Table 2. Precision and MRR measures.

In every query reformulation, the translation process caused a decreasing of even more than 30% in the performance. Tables 3 and 4 show a couple of bad translations (in the first one the proper name “Nirvana” was also wrongly translated).

Table 3. Example in which also a proper name was badly translated.

original What was the name of the singer and head of Nirvana?

Arabic ما اسم المغني و رئيس نرفانا ؟ translation What is the name of the main singer of

Nirfana?

Table 4. Example of bad translation.

original How many European countries form part of the G7?

Arabic آم عدد الدول األوربية المكونة لمجموعة السبع؟ translation Quantity of an European country

belongs to the group of seven? On the other hand, in quite unusual cases (see Tables 5 and 6) with the translated question we obtained a right answer whereas, we did not obtain any (first case) or we obtained a wrong one (second case) with the original one.

Table 5. Example of wrong translation and right answer (California).

original Which American state has the strictest environmental laws?

Arabic ما هي الوالية األمريكية ذات القانون البيئي األآثر صرامة؟

translation What she is the American state for which the environmentallaws with more stricness?

Questions

Bag words Comp.

Compno 1st word

Comp no 1st

and 2nd words

Verb mov.

English (original)

9.1% (41)

17.1% (77)

14.9% (67)

10.4% (47)

24% (108)

English (from Arabic)

3.8% (17)

1.6% (7)

4.9% (21)

4.9% (21)

7.2% (31)

Questions

Bag words Comp.

Compno 1st word

Comp no 1st

and 2nd words

Verb mov.

English (original)

17.1% 0.12

24.4% 0.19

26.7% 0.20

22.0% 0.16

39.5%0.31

English (from Arabic)

6.0% 0.04

2.4% 0.02

7.4% 0.06

8.4% 0.06

10.7% 0.08

Page 149: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

Table 6. Example of wrong translatrion and right answer (February)

original During what month do almond trees blossom?

Arabic متى تزهر أشجار اللوز؟ translation During any month the almonds trees

bloom ? 4. CONCLUSIONS AND FURTHER WORK

The performance of a cross-language Arabic-English QA system is very much affected by the translation process. In the experiments we carried out the QA performance decreased of more than 30%. More machine translators should be used at the same time in order not to rely just on one translation and to choose the best one on a statistical basis (Larosa, 2005). It should be also interesting to use the query reformulation technique directly to the Arabic language without the necessity to go through the Arabic-English translation process for each query.

Acknowledgments

This work was made possible “sucran” (thanks) to the R2D2 (CICYTTIC2003-07158-C04-03), ICT EU-India (ALA/95/23/2003/077-054) research projects and Conacyt (J43990-Y).

References

Baeza, R., and Ribeiro, B., 1999, Modern Information Retrieval. ACM Press, New York, Addison-Wesley.

Brill, E., Lin, J., Banko, M., and Dumais, S., 2001, Data-intensive question answering. In TREC-10 2001.

Del Castillo, M., Montes y Gómez, M., and Villaseñor, L. 2004, QA on the web: A preliminary study for Spanish languege. Proceedings of the 5th Mexican International Conference on Computer Science (ENC04), Colima, Mexico.

Hovy, E., Gerber, L., Hermajakob, U., Junk, M., and Lin, C., 2000, Question answering in Webclopedia. In TREC-9 2000.

Kwok, C., Etzioni, O., and Weld, D. 2001, Scaling question answering to the Web. Proceedings of the WWW Conference, 2001.

Larosa, D., et. al., 2005, Best Translation for an Italian-Spanish Question Answering System. Proceedings of Information Communication Technologies International Symposium - ICTIS’05, Tetuan, Morocco, 3-6 June 2005.

Lin, J., 2002, The Web as a resource for question answering: perspectives and challenges”. Proceedings of the 3rd

International Conference on Language Resources and Evaluation (LREC-2002).

Y. Benajiba, M. S. Kasttet, and A. Lyhyaoui, 2004, Bilingual Information Retrieval. Internal Report. Abdelmalek Essaadi University, Ecole nationals des sciences appliqués de Tanger, Morocco.

Vicedo, J., 2004, Los Sistemas de Búsqueda de Respuestas desde una Perspectiva Actual. In Revista Iberoamericana de Inteligencia Artificial. (in Spanish).

Page 150: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

144

Anexo III

Preguntas CLEF2003 M SPA 0001 ¿Cuál es la capital de Croacia?

M SPA 0002 ¿Qué país invadió Kuwait en 1990?

M SPA 0003 ¿Cómo se llama el servicio de seguridad nacional de Israel?

M SPA 0004 ¿Cuántas personas murieron ahogadas al zozobrar y hundirse el

"Estonia"?

M SPA 0005 ¿Dónde está el Muro de las Lamentaciones?

M SPA 0006 ¿Cuándo decidió Naciones Unidas imponer el embargo sobre

Irak?

M SPA 0007 ¿Cuántos habitantes hay en Irak?

M SPA 0008 ¿Dónde se celebró la cumbre del G7?

M SPA 0009 ¿Qué país ganó la Copa Davis?

M SPA 0010 ¿Cuántas personas fueron rescatadas por los equipos de socorro

tras el naufragio del ferry Estonia?

M SPA 0011 ¿A qué país se dirigían las ayudas del programa Turquesa?

M SPA 0012 ¿Cuál es la capital de Haití?

M SPA 0013 ¿Cuándo se produjo la reunificación de Alemania?

M SPA 0014 ¿Cuántos habitantes tiene Suecia?

M SPA 0015 ¿Qué significan las siglas IRA?

M SPA 0016 ¿Cuánto tiempo ha estado en el poder Kim Il Sung en Corea del

Norte?

M SPA 0017 ¿Quién es el presidente de la Comisión Europea?

M SPA 0018 ¿Quién es el presidente de la Autoridad Nacional Palestina?

M SPA 0019 ¿Cuántos habitantes tiene Rusia?

M SPA 0020 ¿A qué edad murió Joseph di Mambro?

M SPA 0021 ¿Quién era conocido como el "Zorro del Desierto"?

M SPA 0022 ¿Cuántos habitantes tiene Chechenia?

M SPA 0023 ¿Cómo se llama el hijo de Kim Il Sung?

M SPA 0024 ¿Dónde está el volcán Popocatepetl?

M SPA 0025 ¿En qué país se encuentra la región de Bosnia?

Page 151: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

145

M SPA 0026 ¿Cuántos muertos al año causan las minas antipersona en el

mundo?

M SPA 0027 ¿Cuál es el nombre técnico del mal de las vacas locas?

M SPA 0028 ¿Qué significan las siglas OMC?

M SPA 0029 ¿De qué puerto partió el ferry "Estonia"?

M SPA 0030 ¿Cuántos habitantes tiene Sidney?

M SPA 0031 ¿Dónde se hundió el Estonia?

M SPA 0032 ¿Dónde está Chiapas?

M SPA 0033 ¿Quién es el creador de "Doctor Snuggles"?

M SPA 0034 ¿Quién es el líder bosnio?

M SPA 0035 ¿Quién fue la ganadora del torneo de Wimbledon?

M SPA 0036 ¿En qué año cayó el muro de Berlín?

M SPA 0037 ¿Qué ferry se hundió en el Sudeste de la isla Utoe?

M SPA 0038 ¿Qué presidente de Corea del Norte murió a los 82 años de

edad?

M SPA 0039 ¿Por qué teoría se ha concedido el Premio Nobel de Economía?

M SPA 0040 ¿Cómo murió Ayrton Senna?

M SPA 0041 ¿A qué edad murió Thomas "Tip" O'Neill?

M SPA 0042 ¿Quién es el presidente del Parlamento Europeo?

M SPA 0043 ¿Cuál es la capital de Irlanda?

M SPA 0044 ¿Cuántos objetos de arte son robados en Europa cada año?

M SPA 0045 ¿En qué estado de Estados Unidos está San Francisco?

M SPA 0046 ¿Cuántos cantones hay en Suiza?

M SPA 0047 ¿Qué día comenzó la intifada?

M SPA 0048 ¿En qué país está la zona de los Grandes Lagos?

M SPA 0049 ¿Dónde explotó la primera bomba atómica?

M SPA 0050 ¿Qué empresa ha comprado a la fabricante de coches Rover?

M SPA 0051 ¿En qué festival se entregan los premios "León de Oro"?

M SPA 0052 ¿Quién es el líder del Sinn Fein?

M SPA 0053 ¿Cómo se llama la compañía aérea nacional de Suiza?

M SPA 0054 ¿Cuántos tripulantes murieron en el submarino Emeraude?

M SPA 0055 ¿En qué tipo de procesador se descubrió un error en la unidad

aritmética?

M SPA 0056 ¿Sobre qué continente se detectó el agujero de ozono?

Page 152: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

146

M SPA 0057 ¿Quién es el mayor exportador europeo de aceite de oliva?

M SPA 0058 ¿Cuándo se constituyó la República de Sudáfrica?

M SPA 0059 ¿Qué porcentaje del comercio mundial de drogas está controlado

por el Cartel de Cali?

M SPA 0060 ¿Cuál es la capital de Malasia?

M SPA 0061 ¿Cuál es la capital de Irán?

M SPA 0062 ¿Cuál es la capital de Turkmenistán?

M SPA 0063 ¿Cuál es el principal país productor de petróleo en el mundo?

M SPA 0064 ¿Cuántos países son miembros de la Unión Europea?

M SPA 0065 ¿Cuándo se firmo el Acta Única Europea?

M SPA 0066 ¿Qué cargo ostentaba Rabbani al estallar la guerra civil de

Afganistán en 1992?

M SPA 0067 ¿A qué grupo pertenecía John Lennon?

M SPA 0068 ¿Quién escribió "Star Trek"?

M SPA 0069 ¿Quién es el presidente de la República de Italia?

M SPA 0070 ¿Quién ostenta el poder en Pyongyang?

M SPA 0071 ¿Qué significan las siglas ETA?

M SPA 0072 ¿En qué parte de Rusia se rompió un oleoducto?

M SPA 0073 ¿Dónde se celebraron los Juegos Olímpicos de 1996?

M SPA 0074 ¿Cuántos hijos tiene Anthony Quinn?

M SPA 0075 ¿Cuál es la profesión de Renzo Piano?

M SPA 0076 ¿En qué año se creo el Fondo Monetario Internacional?

M SPA 0077 ¿Quién dirigió "Con la muerte en los talones"?

M SPA 0078 ¿Cuántas personas murieron en el juzgado de Euskirchen?

M SPA 0079 ¿Cuándo se fundó la CEE?

M SPA 0080 ¿En qué ciudad europea está la Torre Eiffel?

M SPA 0081 ¿A qué país pertenece el agente inmobiliario Schneider?

M SPA 0082 ¿Qué submarino nuclear francés sufrió un accidente?

M SPA 0083 ¿Quién es el presidente de Rusia?

M SPA 0084 ¿Quién es el presidente italiano de Asuntos Exteriores?

M SPA 0085 ¿Cuál es el nombre de pila de la mujer de Nelson Mandela?

M SPA 0086 ¿Qué significa OLP?

M SPA 0087 ¿En qué ciudad está el Museo del Prado?

M SPA 0088 ¿Cuál es la capital de Corea del Norte?

Page 153: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

147

M SPA 0089 ¿Dónde se celebró la asamblea anual de la Comisión Ballenera

Internacional?

M SPA 0090 ¿Quién es el entrenador del equipo nacional de fútbol noruego?

M SPA 0091 ¿Cuál es la causa más frecuente de los accidentes de coche?

M SPA 0092 ¿Qué país de África ha adoptado una nueva constitución?

M SPA 0093 ¿Cuáles son las siglas del Fondo Mundial para la Protección de la

Naturaleza?

M SPA 0094 ¿Quién es el director de la CIA?

M SPA 0095 ¿Qué premio Nobel ganó Solzhenitsin?

M SPA 0096 ¿En qué ciudad se celebraron los Juegos Olímpicos de invierno?

M SPA 0097 ¿Cuándo tomará China la posesión de Hong Kong?

M SPA 0098 ¿Qué causó el incendio en un cine en la ciudad china de

Karamai?

M SPA 0099 ¿Cuántos habitantes hay en Moscú?

M SPA 0100 ¿En qué mes se produjo el naufragio del Estonia?

M SPA 0101 ¿Cómo se llamaba el cantante y líder de Nirvana?

M SPA 0102 ¿Quién es el presidente de la república francesa?

M SPA 0103 ¿De cuántas muertes son responsables los Jemeres Rojos?

M SPA 0104 ¿Cuál es la capital de Rusia?

M SPA 0105 ¿Cómo se llama la moneda china?

M SPA 0106 ¿Qué primer ministro francés se suicidó en los años 90?

M SPA 0107 ¿Cuándo se firmó el Tratado de Maastricht?

M SPA 0108 ¿Quién es el presidente de Perú?

M SPA 0109 ¿Qué presidente ruso asistió a la reunión del G7 en Nápoles?

M SPA 0110 ¿Dónde nació Adolfo Hitler?

M SPA 0111 ¿Cuál es la distancia entre la Tierra y el Sol?

M SPA 0112 ¿Qué significa el acrónimo ONU?

M SPA 0113 ¿Cuántos pasajeros murieron en el naufragio del ferry Estonia?

M SPA 0114 ¿A que primer ministro abrió la Fiscalía de Milán un sumario por

corrupción?

M SPA 0115 ¿Cuántos países miembros hay en las Naciones Unidas?

M SPA 0116 ¿En qué conferencia se crearon el BM y el FMI?

M SPA 0117 ¿En qué año fueron prohibidas las pruebas de armas biológicas y

tóxicas?

Page 154: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

148

M SPA 0118 ¿Cuál es la capital de la República de Sudáfrica?

M SPA 0119 ¿De qué club de fútbol es presidente Jesús Gil?

M SPA 0120 ¿Quién proyectó la construcción de la catedral de San Pedro?

M SPA 0121 ¿Cómo se llama el refresco de cola de Richard Branson?

M SPA 0122 ¿De qué país es presidente Yeltsin?

M SPA 0123 ¿Qué día entró en vigor el Tratado de Maastricht?

M SPA 0124 ¿A qué marca pertenecían los alimentos para bebés en los que se

encontraron pesticidas?

M SPA 0125 ¿Cuándo se firmó el Tratado de Roma?

M SPA 0126 ¿Cuándo comenzó el embargo sobre Irak?

M SPA 0127 ¿Cómo se llama el jefe de gobierno de Australia?

M SPA 0128 ¿A partir de qué sustancia se obtiene el tolueno?

M SPA 0129 ¿Qué espectáculo es considerado el más grande del mundo?

M SPA 0130 ¿Qué significan las siglas CEE?

M SPA 0131 ¿Cómo se llama el sucesor del GATT?

M SPA 0132 Dar el nombre de algún tratamiento contra el SIDA.

M SPA 0133 ¿Cómo se llaman las líneas aéreas de Nikki Lauda?

M SPA 0134 ¿Quién es el presidente de Yugoslavia?

M SPA 0135 ¿Qué país europeo es el mayor consumidor de alcohol?

M SPA 0136 ¿Qué organismo impuso el embargo sobre Irak?

M SPA 0137 ¿Qué ciudadano británico recibió 50 latigazos en Qatar?

M SPA 0138 ¿Quién mató a Andrés Escobar, un jugador de fútbol colombiano?

M SPA 0139 Dar el nombre de una ciudad japonesa que haya sido castigada

por un terremoto.

M SPA 0140 Dar el nombre de alguna película de Spike Lee.

M SPA 0141 ¿Quién es el líder de los serbios de Bosnia?

M SPA 0142 ¿Cuántos habitantes tiene Corea del Norte?

M SPA 0143 ¿Cuándo ocurrió la catástrofe de Chernobil?

M SPA 0144 ¿En qué ciudad está la puerta de Brandeburgo?

M SPA 0145 ¿Quién es el ministro de economía alemán?

M SPA 0146 ¿En qué año entró España en la Comunidad Europea?

M SPA 0147 ¿Quién es el líder del grupo guerrillero UNITA de Angola?

M SPA 0148 ¿Cuántos habitantes tiene Berlín?

M SPA 0149 ¿En qué ciudad está Broadway?

Page 155: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

149

M SPA 0150 ¿Quién es el presidente de Corea del Norte?

M SPA 0151 ¿Qué primer ministro británico visitó Sudáfrica en 1960?

M SPA 0152 ¿Qué equipo ganó la Copa de Europa de Clubs de Baloncesto?

M SPA 0153 ¿Cuántas personas murieron en el accidente de un Airbus en el

aeropuerto de Nagoya?

M SPA 0154 ¿Dónde está Basora?

M SPA 0155 ¿En qué ciudad se celebró la Conferencia Mundial de Población?

M SPA 0156 ¿Qué magnitud tuvo el terremoto que sacudió el norte de Japón?

M SPA 0157 ¿Qué presidente ruso ordenó la intervención en Chechenia?

M SPA 0158 ¿Cuánto valen 10 pesos?

M SPA 0159 ¿Qué premio fue concedido a Weinberg, Salam y Glashow?

M SPA 0160 ¿Dónde está Haití?

M SPA 0161 ¿Cuál es el nombre de pila de Milosevic?

M SPA 0162 ¿Cuántos motores tiene un avión?

M SPA 0163 ¿Quién es el presidente de FIAT?

M SPA 0164 Dar el nombre de un medicamento contra la malaria.

M SPA 0165 ¿Quién ganó el Tour?

M SPA 0166 ¿Quién es el fundador de la Orden del Templo del Sol?

M SPA 0167 ¿Qué empresa británica pertenece al consorcio Airbus?

M SPA 0168 ¿En qué año se creó el Banco Mundial?

M SPA 0169 ¿Dónde está Euskirchen?

M SPA 0170 ¿Qué equipo ganó el torneo de la NBA?

M SPA 0171 Dar el nombre de una película protagonizada por Audrey

Hepburn.

M SPA 0172 ¿Quién construyó el muro de Berlín?

M SPA 0173 ¿Cuántos partidos políticos participaron en las primeras

elecciones locales de la historia en Sudáfrica?

M SPA 0174 ¿En qué ciudad se celebró la final del mundial de fútbol?

M SPA 0175 ¿Quién es el presidente de Alemania?

M SPA 0176 ¿Quién es el líder de Nación del Islam?

M SPA 0177 ¿Cuál es la población mundial?

M SPA 0178 ¿Qué significan las siglas GATT?

M SPA 0179 ¿Cuándo explotó la primera bomba atómica?

M SPA 0180 ¿Cuándo se creó el GATT?

Page 156: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

150

M SPA 0181 ¿Cuál fue el resultado del partido Italia-Noruega del mundial de

fútbol?

M SPA 0182 ¿Cuántos pasajeros tuvieron que abandonar el "Regent Star" tras

incendiarse el barco?

M SPA 0183 ¿Cuánto mide el Everest?

M SPA 0184 ¿En qué océano se hundió el Titanic?

M SPA 0185 ¿Quién es el presidente de Corea del Sur?

M SPA 0186 ¿Cuántos países participaron en la Conferencia Mundial de

Población?

M SPA 0187 ¿Quién fue el primer presidente de Indonesia?

M SPA 0188 ¿Cuál es la capital de Canadá?

M SPA 0189 ¿Qué premio Nobel fue concedido a Willy Brandt?

M SPA 0190 ¿A qué compañía petrolera pertenece Brent Spar?

M SPA 0191 ¿En qué ciudad está el parlamento europeo?

M SPA 0192 ¿Qué ex ministro francés fue encarcelado por corrupción?

M SPA 0193 ¿Quién es el primer ministro húngaro?

M SPA 0194 ¿Qué premio Nobel consiguió Kenzaburo Oe?

M SPA 0195 ¿Qué premio ganó la película "Pulp Fiction", dirigida por Quentin

Tarantino, en el Festival de Cine de Cannes?

M SPA 0196 ¿Cuál fue el resultado de la final de la Copa de Europa de Clubs

de Baloncesto?

M SPA 0197 ¿Cómo se llama el primer ministro holandés?

M SPA 0198 ¿Qué terrorista de ETA es conocida como 'La Tigresa'?

M SPA 0199 ¿Quién es el presidente de Estados Unidos?

M SPA 0200 ¿Cuántos campeonatos del mundo de Fórmula 1 ganó el piloto

brasileño Ayrton Senna?

Page 157: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

151

ANEXO IV Preguntas CLEF2005 ¿Qué es BMW?

¿Qué son las FARC?

¿Quién es Nelson Mandela?

¿Quién es Javier Solana?

¿Quién es Giulio Andreotti?

Nombrar un edificio envuelto por Christo.

¿A cuánto asciende el premio para la ganadora de Wimbledon?

¿Con qué grupo ha cantado Robbie Williams?

Nombrar una película en la que se hayan usado animaciones por ordenador.

¿Quién recibió el Premio Nobel de la Paz en 1989?

¿Quién hizo el personaje de Superman antes de quedar paralizado?

¿Quién es el primer ministro de Macedonia?

¿Cuándo nació Christopher Reeve?

¿En qué año se casó el Príncipe Carlos con Diana?

¿Cuándo abrió el Sony Center en la Kemperplatz en Berlín?

¿Qué es la WWF?

¿Qué es la Camorra?

¿Quién es Bettino Craxi?

¿Quién es Diego Armando Maradona?

¿A cuánto años de prisión fue sentenciado Bettino Craxi?

¿Quién es Silvio Berlusconi?

¿Qué es Sabena?

¿Cuándo murió el Premio Nobel Reinhard Selten?

¿Cuándo nació Donatella Della Corte?

¿Qué conferencia de la UE adoptó la Agenda 2000 en Berlín?

¿Qué es la FIFA?

¿Qué es el COI?

¿Qué es la OMS?

¿Qué político liberal fue ministro de Sanidad italiano entre 1989 y 1993?

¿Quién es Romano Prodi?

Page 158: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

152

¿A cuánto dinero ascendió el premio que recibieron Selten, Nash y Harsanyi

por el Premio Nobel de Economía?

¿En qué estación de tren está el "Museo del Presente" de Berlín?

¿Dónde nació Supachai Panitchpakdi?

¿Qué deporte practica Adrian Mutu?

¿Quiénes eran los dos firmantes del tratado de paz entre Jordania e Israel?

¿Qué alfabeto tiene sólo cuatro letras "A, C, G, y T"?

¿Quién es Rolf Ekeus?

¿Quién es Willy Claes?

¿Qué iglesia ordenó mujeres sacerdote en marzo de 1994?

¿Qué es el PRI?

¿Cuántos Mundiales había ganado Zagalo como jugador antes del nacimiento

de Ronaldo en 1977?

¿Quiénes son Akihito y Michiko?

¿Quién es Juan Luis Arsuaga?

¿Quién es Eudald Carbonell?

¿Quién es Amnon Ben-Tor?

¿Quién es Franck Goddio?

¿Quién es Simon Wisenthal?

¿Quién fue Kim Il Sung?

¿Quién es Jacques Blanc?

¿Quién es Yoko Ono?

¿Quién era Yasir Arafat?

¿Quién es Manuel Cimadevilla Miguel?

¿Quién es Sadam Hussein?

¿Qué es Greenpeace?

¿Qué es el CIB?

¿Qué es el G7?

¿Qué es el IME?

¿Qué es la ESA?

¿Qué es la NASA?

¿Qué es el GIA?

¿Qué es Medicos Sin Fronteras?

¿Qué es la UNAMIR?

Page 159: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

153

¿Qué es AI?

¿Qué es la ONU?

¿Qué es la OLP?

¿Qué es el FIS?

¿Quién encontró el galeón "San Diego"?

¿Qué presidente ruso asistió a la reunión del G7 en Nápoles?

¿Quién es el rey noruego?

¿Qué presidente francés inauguró el Eurotúnel?

¿Quién es la viuda de John Lennon?

¿Quién fue el sucesor de Kim Il Sung?

¿Quién aprobó los primeros planes de construcción del Eurotúnel?

¿Qué monarca británico asistió a la inauguración del Eurotúnel?

¿Quién descubrió la tumba de Tutankhamon?

¿Con quién estaba casada Neferet?

¿Cuándo se creó la reserva de ballenas de la Antártida?

¿En qué fecha se reunió el G7 en Nápoles?

¿En qué fecha se inauguró el Eurotúnel?

¿En qué fecha llegará la sonda espacial Ulises a su destino?

¿Qué día fue la matanza del juzgado de Euskirchen?

¿Cuándo fue el funeral de Kim Il Sung?

¿Qué día nació Kim Jong Il?

¿Cuál es la fecha de nacimiento de Yasir Arafat?

¿En qué país está Hatsor?

¿En qué provincia está Atapuerca?

¿En qué ciudad está la mezquita de Al Aqsa?

¿Con qué país es fronterizo Corea del Norte?

¿En qué pais está Euskirchen?

¿A qué país pertenece la ciudad de Aquisgrán?

¿Dónde está Bonn?

¿En qué país está Tokio?

¿En qué país está Pyongyang?

¿Dónde comenzaron las excavaciones británicas para la construcción del

Eurotúnel?

¿Dónde se subastó una camisa militar de Lennon?

Page 160: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

154

¿Qué organismo español se encarga de informar sobre los movimientos

sísmicos?

¿De qué organismo depende el ICONA?

¿Qué grupo encabeza Franck Goddio?

¿Qué agencia espacial ha construido la sonda Ulises?

¿Cómo se llama la agencia espacial norteamericana?

¿Qué agencia espacial tiene instalaciones en Robledo de Chavela?

¿Qué plataforma estaba acampada en el Paseo de la Castellana de Madrid?

¿A qué compañía aérea pertenece el avión secuestrado por el GIA?

¿Cuál es el nombre del consorcio aeronáutico europeo?

¿Qué organización española envió ayuda humanitaria a Ruanda?

¿Qué país fue denunciado por torturas en un informe de AI presentado ante el

Comité de las Naciones Unidas contra la Tortura?

¿Quién convocó a los expertos en energías renovables para acudir a una

reunión en Almería?

¿Cuántos ejemplares de ballena "Minke" quedan en el mundo?

¿Cuál era el valor aproximado de la carga de un galeón del siglo XVI?

¿Cuántas personas formaban la tripulación del "San Diego"?

¿A qué distancia de Burgos está Atapuerca?

¿Cuántos soldados rusos había en Letonia?

¿Cuántos pasajeros cruzarán el Eurotúnel anualmente?

¿A qué distancia de la Tierra está Júpiter?

¿Cuántos días se mantuvo la acampada en favor de la Plataforma del 0,7?

¿En cuántas horas se puede realizar el viaje de Londres a París por el

Eurotúnel?

¿Qué país se opuso a la creación de la reserva de ballenas de la Antártida?

¿Qué país ha cazado ballenas en el Océano Antártico?

¿A qué enfermedad corresponden las siglas RSI?

¿Qué tipo de dolencia es característica del RSI?

¿Qué vitaminas ayudan en la lucha contra el cáncer?

¿Qué fruta tiene vitamina C?

¿Qué países une el Eurotúnel?

¿Qué empresa gestiona el Eurotúnel?

¿Cuál es la misión principal de la sonda Ulises?

Page 161: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

155

¿Con el nombre de qué enfermedad se corresponde el acrónimo BSE?

¿Qué país ha organizado la operación "Turquesa"?

¿Quién murió el día 8 de julio de 1994?

¿En qué población de la isla de Hokkaido hubo un terremoto en 1993?

¿Cuántas ballenas cazaba anualmente Japón antes de 1987?

¿Bajo mandato de qué organización estaba la UNAMIR durante su misión de

1994?

¿Qué submarino chocó con un buque en el Canal de la Mancha el 16 de

febrero de 1995?

¿Quién era el presidente del Comité Internacional de Bioética a finales de

1994?

¿En qué isla se celebró el Consejo de la Unión Europea durante el verano de

1994?

¿En qué país lucharon Tutsis y Hutus a mediados de los años noventa?

¿Qué organización estuvo acampada en la Castellana antes del invierno de

1994?

¿Qué se celebró en Nápoles del 8 al 10 de julio de 1994?

¿Quién era primer ministro de Noruega cuando se celebró el referéndum sobre

su posible incorporación a la UE?

¿Quién era el presidente de Uganda durante la guerra de Ruanda?

¿Qué grupo terrorista disparó morteros durante el ataque al aeropuerto de

Heathrow?

¿En qué época del año desapareció Jurgen Schneider al producirse la

bancarrota de su empresa?

¿Quién es Isaac Rabin?

¿Quién es Felipe González?

¿Qué es el PSOE?

¿En qué equipo comenzó Ayrton Senna su carrera en la F1?

¿Qué empresa fabrica el Cadillac?

¿En qué año murió el presidente de Chipre, Makarios III?

¿En qué circuito de F1 se mató Ayrton Senna?

¿De qué ciudad era Ayrton Senna?

¿En qué país está el circuito de Interlagos?

¿Qué premio ganó Pulp Fiction en el Festival de Cine de Cannes?

Page 162: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

156

¿En qué país se celebró la Eurocopa de 1996?

¿Cuántas carreras de la copa del mundo de slalom ganó Alberto Tomba entre

1994 y 1995?

¿Cuántos divorcios fueron presentados en Finlandia entre 1990 y 1993?

¿Cuál era el cargo de Erkki Liikanen antes de convertirse en comisario de la

UE?

¿En qué equipo corrió Ayrton Senna antes de ser traspasado a McLaren?

¿Qué es la PESC?

¿Quién es Boris Yeltsin?

¿Cuál es el nombre del Presidente serbio?

¿Quién es el Secretario General de la ONU?

¿Quién sucedió a Jacques Santer en la presidencia de la Comisión Europea?

¿Qué significa el acrónimo OVNI?

¿Cuántas estrellas hay en nuestra galaxia?

¿Dónde vive el hombre más alto del mundo?

¿A qué organización internacionalmente reconocida pertenece el acrónimo AI?

¿Cuándo fue construida la Torre Eiffel?

¿Qué nuevo canal de televisión gay apareció en Francia el 25 de octubre de

2004?

¿Qué equipo de Fórmula 1 ganó el Gran Premio de Hungría en 2004?

¿Qué evento especial motivó la reunión de la Asamblea General de la ONU del

22 de octubre al 24 de octubre de 1995?

¿Cuándo pondrá Francia fin a las pruebas nucleares?

¿Qué es el MIT?

¿De qué organización es secretario general Willy Claes?

¿Qué edad tenía Nick Leeson en el momento de ser condenado a la cárcel?

¿Quién es el presidente del Comité Nobel noruego?

¿Cómo se llama el sindicato alemán de los trabajadores de la metalurgia?

¿Cuántos miembros tiene el sindicato IG Metall?

¿Quién es el delantero de la selección irlandesa de fútbol?

¿Quién es Yigal Amir?

¿Cuál es la última letra del alfabeto fonético de la OTAN?

¿Cómo murió Jimi Hendrix?

¿Cómo murió Olof Palme?

Page 163: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

157

¿Cómo murió Isaac Rabin?

¿Cuánta gente vive en Estonia?

¿Qué edad tenía Richard Holbrooke en 1995?

¿De qué país era colonia Timor Oriental antes de ser ocupada por Indonesia en

1975?

¿Qué altura tiene el Nevado del Huila?

¿Qué volcán entró en erupción en junio de 1991?

¿En qué país está Alejandría?

¿Dónde está situado el oasis de Siwa?

¿Cuántos años estuvo en prisión Nelson Mandela?

¿Cuánto pescado come una foca al día?

¿Para qué periódico trabajaba Clark Kent?

¿Con qué película Marlee Matlin ganó un Oscar?

¿Qué huracán azotó la isla de Cozumel?

¿Quién es el patriarca de Alejandría?

¿Quién es el alcalde de Lisboa?

¿Quién es el primer ministro griego?

¿Cuándo declaró Macedonia su independencia?

¿Cuándo fue asesinado Salvo Lima?

¿Cuándo nació Louis Pasteur?

Page 164: BÚSQUEDA DE RESPUESTAS EN LA WEB: EL ...users.dsic.upv.es/~prosso/resources/PeñarrubiaPFC.pdfordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda

158