Agentes inteligentes en la búsqueda y recuperación de información

Embed Size (px)

Citation preview

Agentes inteligentes en la bsqueda y recuperacin de informacin

Pablo Lara Navarra Jos Angel Martnez Usero

PLANETA UOC

Agentes inteligentes en la bsqueda y recuperacin de informacin

Primera edicin: julio 2004 Segunda edicin, revisada y ampliada: julio 2006 Planeta- UOC, S.L. Pablo Lara Navarra, Jos ngel Martnez Usero

Av. Tibidabo, 39-43, 08035 Barcelona

ISBN 84-9707-571-4

Ninguna parte de esta publicacin, incluido el diseo general y la cubierta, puede ser copiada, reproducida, almacenada o transmitida de ninguna forma, ni por ningn medio, sea ste elctrico, qumico, mecnico, ptico, grabacin, fotocopia, o cualquier otro, sin la previa autorizacin escrita de los titulares del copyright.

Pablo Lara Navarra, Jos ngel Martnez Usero

Planeta UOC, S.L.

2

ISBN 84-9707-571-4

Agentes inteligentes en la bsqueda y recuperacin de informacin

Indice de contenidos

Introduccin ................................................................................................ 5 1. Los motores de bsqueda y la recuperacin de la informacin ......................... 6 1.1. El lenguaje de interrogacin ................................................................. 6 1.1.1. Operadores lgicos o booleanos ...................................................... 6 1.1.2. Operadores posicionales ................................................................ 8 1.1.2.1. Operadores posicionales relativos.............................................. 8 1.1.2.2. Operadores posicionales absolutos ............................................ 9 1.1.3. Operadores de truncamiento y de lmite/comparacin ....................... 9 1.2. Las herramientas de recuperacin de informacin web ........................... 10 1.2.1. Tipos de herramientas de bsqueda y recuperacin ......................... 11 1.2.1.1. Los directorios o ndices temticos .......................................... 11 1.2.1.2. Los motores de bsqueda ...................................................... 12 1.2.1.3. Los agentes inteligentes ........................................................ 12 1.2.2. Funcionamiento de los motores de bsqueda .................................. 14 1.2.3. Los metabuscadores ................................................................... 15 1.2.4. Tendencia actual de los motores de bsqueda................................. 15 1.3. La Infranet o Internet invisible............................................................ 16 1.3.1. Los recursos de la Internet invisible............................................... 16 1.3.2. La recuperacin de la informacin en la Internet invisible ................. 17 1.4. Bibliografa ...................................................................................... 18 1.5. Casos prcticos ................................................................................ 21 1.5.1. Caso prctico 1. Evaluacin de motores de bsqueda....................... 21 1.5.2. Caso prctico 2. Seleccin de un motor de bsqueda ....................... 24 1.6. Anexo. Introduccin a Google ............................................................. 26 2. El posicionamiento en los motores de bsqueda ......................................... 31 2.1. Concepto de posicionamiento web....................................................... 31 Pablo Lara Navarra, Jos ngel Martnez Usero Planeta UOC, S.L.

3

ISBN 84-9707-571-4

Agentes inteligentes en la bsqueda y recuperacin de informacin 2.2. Criterios bsicos para el posicionamiento ............................................. 31 2.2.1. Criterios de optimizacin internos a la pgina web........................... 32 2.2.2. Criterios de optimizacin externos a la pgina web .......................... 34 2.3. Los metadatos y el posicionamiento web .............................................. 35 2.3.1. Concepto de metadatos ............................................................... 35 2.3.2. La funcin de los metadatos en la recuperacin de informacin ......... 37 2.3.2.1. La iniciativa Dublin Core ........................................................ 38 2.3.2.2. Los elementos Dublin Core..................................................... 38 2.4. La optimizacin de las palabras clave .................................................. 39 2.5. La planificacin de un proyecto de posicionamiento ............................... 41 2.5.1. Plan de posicionamiento .............................................................. 41 2.5.2. Alta en los principales buscadores ................................................. 41 2.5.3. Enlaces patrocinados................................................................... 42 2.5.4. Servicios de consultora ............................................................... 43 2.6. Bibliografa ...................................................................................... 44 2.7. Caso prctico: Plan de posicionamiento web ......................................... 45 3. Los agentes inteligentes de informacin ..................................................... 50 3.1. Concepto de agente inteligente........................................................... 50 3.2. Caractersticas de los agentes............................................................. 51 3.3. Aplicaciones de los agentes ............................................................... 51 3.4. Clasificacin de los agentes inteligentes ............................................... 53 3.5. Los agentes de recuperacin semntica de la informacin....................... 54 3.6. Bibliografa ...................................................................................... 55 3.7. Caso prctico. Comparacin Google versus Copernic .............................. 58

Pablo Lara Navarra, Jos ngel Martnez Usero

Planeta UOC, S.L.

4

ISBN 84-9707-571-4

Agentes inteligentes en la bsqueda y recuperacin de informacin

IntroduccinLos mayores motores de bsqueda apenas cubren un 20-25% del web, mientras que los principales ndices es dudoso que lleguen a un 5%. La desventaja de este ingente volumen de informacin es que, por razones de celeridad en la respuesta, obliga a limitar las prestaciones de bsqueda de forma que suelen faltar ciertas capacidades avanzadas. Otros problemas importantes derivan de la diferente cobertura de la red (las sedes comerciales y de los pases desarrollados estn mejor indizadas), el elevado porcentaje de enlaces no activos y la desactualizacin de los recursos debido a frecuencia de revisin muy baja o inadecuada. Las herramientas de motor de bsqueda estn instaladas en el ordenador remoto y por tanto limitadas por restricciones generalmente ajenas al usuario final. Una nueva generacin de herramientas y la adopcin de nuevas estrategias pueden ayudar significativamente, as como el reconocimiento de nuevas realidades y el descubrimiento de fuentes ocultas de datos relevantes hasta la fecha frecuentemente infrautilizados. Las herramientas de segunda generacin, instaladas en el ordenador cliente son capaces de tratar con grandes volmenes de informacin, automatizando tareas que incrementan la productividad final de los recursos recuperados.

Pablo Lara Navarra, Jos ngel Martnez Usero

Planeta UOC, S.L.

5

ISBN 84-9707-571-4

Agentes inteligentes en la bsqueda y recuperacin de informacin

1. Los motores de bsqueda y la recuperacin de la informacinLa recuperacin de la informacin (RI) es una operacin en la que se interpreta una necesidad de informacin de un usuario y se seleccionan los documentos ms relevantes capaces de solucionarla. En el contexto de Internet, se puede definir el objetivo de la recuperacin como la identificacin de una o ms referencias de pginas web que resulten relevantes para satisfacer una necesidad de informacin.

1.1. El lenguaje de interrogacinUn lenguaje de interrogacin es el conjunto de opciones (rdenes, operadores y estructuras) que, organizados segn normas lgicas, permiten la consulta de los recursos de informacin mediante una expresin, llamada ecuacin de bsqueda. Las rdenes son aquellas palabras o abreviaturas que indican al sistema las acciones a ejecutar (buscara la expresin, mostrar los registros resultantes de una bsqueda, ejecutar un perfil de usuario...) Los operadores son los encargados de expresar las relaciones que mantienen entre s los trminos que pueden definir las necesidades informativas del usuario. Si bien inicialmente las ecuaciones de bsqueda se formulaban mediante la formulacin textual de expresiones, la implantacin de interfaces grficas a partir de los aos 80 llev al uso de nuevos entornos de seleccin, donde el usuario slo debe introducir los trminos y guiarse por un sistema de botones y mens desplegables. 1.1.1. Operadores lgicos o booleanos Llamados as en honor a George Boole, matemtico del siglo XIX que fue el precursor de la lgica simblica y el lgebra de Boole (teora de conjuntos), es uno de los mtodos ms extendidos de especificar las bsquedas en la mayora de sistemas. Se basan en tres operaciones lgicas bsicas:

Interseccin de conjuntos :AND/ Y partcula. bsqueda. Pablo Lara Navarra, Jos ngel Martnez Usero

Operador que indica que deben estar puesto que elimina aquellos

incluidos en los resultados de la bsqueda los trminos unidos por esta Es un operador restrictivo, documentos en los que no aparecen todos los trminos de la expresin de

Planeta UOC, S.L.

6

ISBN 84-9707-571-4

Agentes inteligentes en la bsqueda y recuperacin de informacin Ejemplo: bullseye AND copernic, indica que deben aparecer en el documento las dos palabras si no es as se excluir el documento.

Unin o suma de conjuntos : OR / O Indica que cualquiera de las palabras que estn unidos por este operador debe aparecer en el documento, las restantes no tienen que estar presentes. Es un operador de ampliacin, pues slo deber aparecer uno o alguno de los trminos de la expresin de bsqueda. Ejemplo: bullseye OR copernic, puede aparecer en el documento la palabra bullseye o copernic o ambas

Exclusin de conjuntos: NO/ AND NOT Operador que excluye de un documento la palabra no deseada. Es un operador de restriccin, pues se seleccionan aquellos documentos que contienen el primer trmino de bsqueda, pero no el segundo.

Ejemplo: Knowbots AND NOT copernic, recupera todos los documentos que contengan la palabra Knowbots pero que no contengan la palabra copernic.

En la elaboracin de una ecuacin de bsqueda es habitual la combinacin de ms de uno de estos operadores, por lo que ser necesario conocer en profundidad el sistema para saber las prioridades a la hora de su ejecucin, puesto que los Pablo Lara Navarra, Jos ngel Martnez Usero Planeta UOC, S.L. 7ISBN 84-9707-571-4

Agentes inteligentes en la bsqueda y recuperacin de informacin resultados pueden variar sustancialmente. A menudo, estas prioridades vienen marcadas por el uso de parntesis, de manera que se ejecuta en primer lugar el operador que une los trminos que estn entre parntesis. Ejemplo: (bullseye OR copernic OR lexibot) AND (agentes inteligentes), recupera los documentos que contengan los terminos agentes inteligentes y copernic o bullseye o lexibot. 1.1.2. Operadores posicionales Los operadores posicionales toman como partida la posicin del trmino en relacin a su contexto, es decir, en relacin a los otros trminos y al documento. Estos operadores se pueden dividir en dos tipos: los relativos y los absolutos.

1.1.2.1. Operadores posicionales relativos

A menudo llamados operadores de adyacencia o proximidad. Permiten definir al sistema de bsqueda la distancia que puede existir entre un trmino y otro. Se pueden buscar trminos que estn juntas, separadas por varias palabras o caracteres, que se encuentren en una misma frase o un mismo prrafo, e incluso si se debe o no respetar el orden de los trminos. Existe una gran variedad de operadores de adyacencia, y expresan diferentes situaciones segn los sistemas. NEAR, operador que obliga a estar a un nmero determinado de distancia las palabras claves a recuperar. Este nmero vara en funcin de los diferentes programas de recuperacin de la informacin: as, por ejemplo, mientras en Altavista significa un mximo de 10 palabras entre los trminos, en WebCrawler significa un mximo de 2 palabras. Ejemplo: bullseye NEAR copernic recupera bullseye NEAR/N, realiza la misma operacin que NEAR, pero N es sustituido por la distancia en palabras que deben estar separados los trminos de bsqueda. Ejemplo: bullseye NEAR/5 copernic, recupera todos los documentos que aparezcan los dos terminos y cuya separacin no sea mayor a cinco palabras. Otra posibilidad es hacer una bsqueda de una frase exacta. Consiste en la interseccin de las palabras de bsqueda que adems estn adyacentes y en Pablo Lara Navarra, Jos ngel Martnez Usero Planeta UOC, S.L.

textos con frases como

bullseye es mejor que copernic o copernic tiene ms motores que

8

ISBN 84-9707-571-4

Agentes inteligentes en la bsqueda y recuperacin de informacin el orden en que se describen. , emplear las comillas expresa, que debe aparecer la frase exacta y en el mismo orden. Ejemplo: comparacin de agentes inteligentes, tiene que aparecer esta frase en los documentos para que sean recuperados.

1.1.2.2. Operadores posicionales absolutos

Se trata de operadores que permiten buscar el o los trminos en un lugar determinado del documento. En general, son operadores delimitadores de un campo. Link: recupera todos los links que contenga el trmino buscado. Ejemplo: Link:agentes inteligentes, recupera todos los links que contenga la frase exacta agentes inteligentes. Title, recupera en los ttulos de web, correos, etc., la palabra/s deseadas. Ejemplo: Title:agentes inteligentes, recupera nicamente del ttulo la frase exacta. Url, busca url que contengan los trminos de la ecuacin de bsqueda. Ejemplo: Url:ugr.es, presenta todos las pginas web de la Universidad de Granada. Body, recupera del cuerpo del documento el conjunto de palabras deseadas. Ejemplo: Body:agentes inteligentes, recupera del cuerpo del documento nicamente la frase exacta de la ecuacin de bsqueda.

1.1.3. Operadores de truncamiento y de lmite/comparacin

Operadores de comparacin o de rango. Limitan la bsqueda mediante una expresin que establece un rango de valores, especialmente numricos. Corresponden a formas tipo igual que(simbolizado por =, EQ), mayor que (simbolizado por >, GT), menor que( simbolizado por