9
  Itzel González De La Cruz Cetis 70, 2011 Según (Mora, 2006) Los motores de búsqueda son una de las herramientas más utilizadas para recuperar información en el web. A diferencia de los directorios o índices temáticos, los motores cuentan con un robot que recorre la red de forma automática y almacena la información recogida en una base de datos. Algunos de ellos se pueden consultar en distintos servidores e incluso disponen de versiones en varios idiomas.  Además de las funciones de búsqueda propias de los buscadores, ofrecen diversos servicios como directorio, páginas blancas y amarillas, noticias, etc. La cobertura varía de unos a otros, aunque todos ellos se basan principalmente en las páginas web. Este ensayo consta de analizar los diferentes tipos de motores de búsqueda, como trabajan o funcionan, mencionaremos algunos de los más utilizados y formas de buscar con estas herramientas tan útiles en la actualidad. Palabras clave: MOTORES DE BÚSQUEDA, BUSCADORES, SPIDERS, BASE DE DATOS, DIRECTORIOS, GOOGLE,

motores de busqueda

Embed Size (px)

Citation preview

5/12/2018 motores de busqueda - slidepdf.com

http://slidepdf.com/reader/full/motores-de-busqueda-55a74fae64366 1/9

 

Itzel González De La Cruz Cetis 70, 2011

Según (Mora, 2006) Los motores de búsqueda son una de las herramientas másutilizadas para recuperar información en el web. A diferencia de los directorios o índicestemáticos, los motores cuentan con un robot que recorre la red de forma automática yalmacena la información recogida en una base de datos. Algunos de ellos se puedenconsultar en distintos servidores e incluso disponen de versiones en varios idiomas.

  Además de las funciones de búsqueda propias de los buscadores, ofrecen diversosservicios como directorio, páginas blancas y amarillas, noticias, etc. La cobertura varía de

unos a otros, aunque todos ellos se basan principalmente en las páginas web. Esteensayo consta de analizar los diferentes tipos de motores de búsqueda, como trabajan ofuncionan, mencionaremos algunos de los más utilizados y formas de buscar con estasherramientas tan útiles en la actualidad.

Palabras clave: MOTORES DE BÚSQUEDA, BUSCADORES, SPIDERS, BASE DEDATOS, DIRECTORIOS, GOOGLE,

5/12/2018 motores de busqueda - slidepdf.com

http://slidepdf.com/reader/full/motores-de-busqueda-55a74fae64366 2/9

 

¿Qué son?

Según (Baeza, 2008) Un motor de búsqueda es una pieza de software que permiteencontrar y visitar los sitios relacionados con una palabra clave -o keyword- introducida alsistema por el mismo usuario. También se los denomina buscadores. Básicamente, estáncompuestos por bases de datos gigantescas que contienen información sobre elcontenido de los sitios que integran la Web.

¿Qué tipos de motores hay?Según como trabajen encontraremos: 1. Buscadores propiamente dichos o spiders2. Directorios Índices, Catálogos3. Sistemas Mixtos (directorio y motor de búsqueda)4. Metabuscadores5. Multibuscadores6. Buscadores de portal

1. Buscadores propiamenteDichos o spiders La mayoría de los grandes buscadores internacionales que todos usamos y conocemosentranDentro de esta denominación. Requieren muchos recursos para su funcionamiento. Lasarañas recorren páginas y recopilan información sobre su contenido, y las presentanclasificadas por orden de relevancia. Por ejemplo, si buscamos una palabra, [traducción],los resultados de laBúsqueda nos mostrarán las páginas que contengan esta palabra en alguna parte deltexto.En algunos casos registran todas las páginas del sitio, y en otros, sólo algunas. Además,las arañas van recopilando las actualizaciones, cuya periodicidad depende del motor encuestión. Por este motivo, puede suceder que algunos sitios no aparezcan actualizados.El orden de relevancia, es decir, el orden en que se muestran los resultados de laconsulta, está determinado por diversos factores que dependen de cada buscador.Pueden existir distintos parámetros, pero existen muchísimas estrategias, que las distintasempresas elaboran para lograr los primeros puestos.

Ejemplos de buscadores "spiders":Goog le, AltaVista, Lyc os

5/12/2018 motores de busqueda - slidepdf.com

http://slidepdf.com/reader/full/motores-de-busqueda-55a74fae64366 3/9

 

2. Los Directorios Son motores buscadores totalmente distintos a lasarañas. Son listas de recursos organizados por categorías temáticas que se estructuran

 jerárquicamente en un árbol de materias que permite visualizar los contenidos desde losmás generales, en las ramas superiores, a los más específicos, en las ramas inferiores.Más que buscar información sobre contenidos de la página, los resultados seránreferencias a los contenidos y a la temática de la Web. Es decir, si buscamos "traducción",aparecerán los sitios que de una forma u otra estén relacionados con la temática de latraducción. Su tecnología es muy barata y sencilla. Pero el costo de operación esrelativamente alto, ya que dependen de la operación manual. La clasificación ycategorización requieren una intervención humana y en muchos casos, debido a laheterogeneidad de los temas tratados, algunas páginas presentan problemas decategorización ya que los índices suelen mantener su base de datos de forma manual.

3. Los sistemas mixtos Buscador ± Directorio Son una mezcla entre buscadores y directorio. Ademásde tener características de buscadores, presentan las páginas registradas clasificadas encatálogos según su contenido: Informática, cultura, sociedad, que a su vez se dividen ensubsecciones. Hoy en día los grandes buscadores, van en esa dirección.En la actualidad, todos los motores tienden hacia estos sistemas mixtosEjemplos: Ex cite, V oila, Inf oseek 

4. Metabuscadores En realidad, los metabuscadores hacen sus búsquedas en auténticos buscadores,analizan los resultados de la página y presentan sus propios resultados.Los metabuscadores permiten buscar en varios buscadores al mismo tiempo. Noalmacenan las descripciones de páginas en sus bases de datos, sino que contienen losregistros de los motores de búsqueda y la información sobre ellos, adecuando suexpresión a los diferentes motores para remitir la consulta. Cuando reciben la respuesta,envían al usuario el resultado que fuePreviamente sometido a un filtrado para eliminar y depurar los enlaces repetidos yordenados. Los más repetidos ocuparán los primeros puestos ya que el metabuscador considerará que son los más relevantes por estar dados de alta en mayor número debuscadores.Copernic (www.copernic.com), sigue siendo un metabuscador interesante con muchascategorías de búsqueda y versiones gratuitas y aranceladas.Ejemplo: Search.com, www.c opernic . c om 

5/12/2018 motores de busqueda - slidepdf.com

http://slidepdf.com/reader/full/motores-de-busqueda-55a74fae64366 4/9

 

5. Multibuscadores Permiten lanzar varias búsquedas en motores seleccionados respetando el formatooriginal de los buscadores. Se limitan a colocar en una página web una lista con losbuscadores más comunes y con una ventana de texto para que el usuario envíe la cadenade búsqueda introducida a cada uno de ellos. Muestra los resultados según el buscador.Ejemplo: Gooyaglehoo. http://www.gooyaglehoo.com/ 

6. Buscadores de Portal 

Bajo este título, englobamos los buscadores específicos de sitio. Aquellos que buscaninformación sólo en su portal o sitio web. Podríamos considerarlos como un directorio.Trabajan sobre la base de expresiones regulares y consultas SQL. Son muy útiles paralos temas de administración.

El avance de la tecnología es demasiado veloz, y hay muchas empresas dedicadas aldesarrollo de motores de búsqueda. Por este motivo, periódicamente nos sorprenden connuevos programas, y nuevas categorías, cuyo único fin es encontrar más fácilmente lainformación que buscamos, o en los casos de las empresas de marketing, mostrar mejor los productos y buscar permanentementepotenciales clientes.

¿Cómo trabajan?Los buscadores automáticos están compuestos por tres partes: Los robots que se encargan de recorrer la Red escrutándola La base de datos que

construyen estos robots .El motor de búsqueda que facilita la consulta a la base Losrobots son programas que buscan o rastrean continuamente todos los servidores de laWWW, en Gopher (uno de los sistemas de Internet para recuperar información queprecedió a la World Wide Web), y FTP, que alimentan una base de datos. Los robotsactualizan estas bases y añaden nuevas páginas o referencias cuando ha cambiado obien, cuando ya no existe.Google por ejemplo, guarda la página inicial y aunque la página ya no exista en la opción"caché",Se puede ver la información original. Cuando abrimos la página de un buscador,encontramos un formulario para definir nuestra búsqueda y sus posibles opciones.Ingresamos la palabra o palabras clave que son las que describen los conceptos, ideas otérminos que buscamos. El motor nos devuelve los resultados en función de cómohayamos definido nuestra búsqueda.

5/12/2018 motores de busqueda - slidepdf.com

http://slidepdf.com/reader/full/motores-de-busqueda-55a74fae64366 5/9

 

Los buscadores temáticos o especializados están compuestos por : una base de datos creada a partir de los URL remitidos , una estructura jerárquica quefacilita la consulta de todas maneras, se tiende más a utilizar un sistema mixto conbuscadores automáticos Actualización de los datos Ingreso a la Red. La mayoría de losmotores de búsqueda actualizan sus bases de datos con la información recopilada por sus arañas, al menos una vez al mes. Esto es importante si tenemos un sitio webrelativamente nuevo: si el sitio se sube, por primera vez en la Red, al final de un 'rastreo',y las arañas no lo encuentran, habrá que esperar hasta la actualización siguiente paraentrar a formar parte de la base de datos. Una vez incorporado a la base de datos,todavía llevará una o dos actualizaciones más antes de que se estabilice en los resultadosde las búsquedas. La mayoría de los motores de búsqueda, también tienen lo que sellama listadosFrescos. Éstas son actualizaciones rápidas y cortas que generalmente no pondrán al díaun sitio entero, pero agregarán las páginas nuevas y aquellas que hayan cambiado.

Ejemplo de buscadores: Ask.comEste motor de búsqueda está obteniendo buenos resultados, y permite hacer búsquedasno sólo de webs, sino también de imágenes, noticias, blogs, enciclopedias, y más.CodigoFuente.netCodigoFuente.net es un espacio para la búsqueda y registro de Código Fuente, softwarelibre, clases, librerías, funciones, Programas gratis y procedimientos de: ASP, ASP.NET,C++,

Java, Csharp, Delphi, Perl, PHP, Python, Cold fusión, Java Script, XML y otros lenguajesde programación, completamente en español.DogpilePortal mediante el cual se pueden realizar búsquedas en múltiples buscadores a la vez.KrugleDirectorio dedicado exclusivamente a programadores, contiene motor de búsqueda paratodo lo relacionado con lenguajes de programación, código que puede reusarse, y muchomás.MSNMSN, la red de Microsoft, es otro de los buscadores más populares.OhlohUna nueva clase de directorio de software, que combina contenido comunitario con un

motor de búsqueda que índex a cambios en los repositorios de proyectos de softwarelibre, analizando código y extrayendo reportes muy interesantes. También permitesocializar con otra gente que tenga los mismos intereses de software, y también permitebuscar información de cada programador.

5/12/2018 motores de busqueda - slidepdf.com

http://slidepdf.com/reader/full/motores-de-busqueda-55a74fae64366 6/9

 

¿Cómo busco?Cuando se introduce una frase o palabra, el motor buscará en su base de datos y devolveráresultados en un orden que estará determinado por su propio algoritmo. Para las búsquedas

precisas, los motores tienen su propio lenguaje de interrogación y suelen permitir acotar las

búsquedas utilizando interfaces sencillas de búsqueda que permiten la introducción de texto en

alguna de estas variantes:

Todas las palabras: permite recuperar los resultados que contengan todas las palabras que se

introducen en la caja de interrogación. Por ejemplo, "colegio de traductores" se ubicarán

resultados que incluyan todos los términos, aunque estén separados: colegio de traductores,

aunque no necesariamente en ese orden exacto.

Alguna de las palabras: permite recuperar los resultados que contienen alguna de las palabras.

Por ejemplo, la interrogación: "colegio de traductores" los resultados se presentarán con colegio o

traductores.

La frase exacta: es la más adecuada para búsqueda por nombres propios y expresiones que deben

ser buscadas en el orden especificado. Para introducirla se suelen utilizar comillas.

Por ejemplo, la consulta: "colegio de traductores,

sólo mostrará resultados donde aparezca exactamente esa frase.

La búsqueda booleana: se trata de un tipo de interrogación que incluye alguno de los operadores

lógicos.

Se expresa(Castrillón,2010) Son instrumentos que permiten a los usuarios, de manerainteractiva, localizar información disponible en Internet. Como resultado de la exploraciónse presenta una organizada lista de documentos que cumplen completado parcialmentelos criterios exigidos Las herramientas más utilizadas en la actualidad para recuperar información de la Web son las bases de datos, los motores de búsqueda y los directorios.

http://manglar.uninorte.edu.co/bitstream/10584/1099/1/10_Bases_de_datos_y_m.pdf 

5/12/2018 motores de busqueda - slidepdf.com

http://slidepdf.com/reader/full/motores-de-busqueda-55a74fae64366 7/9

 Motores de búsqueda

Según (stark, 2001) Los motores de búsqueda (search engines) son programasencargados de realizar las búsquedas dentro de las bases de datos de documentos web.

 Actualmente se clasifican en tres categorías principales:

motores de búsqueda temática,también conocidos como directorios o catálogos; motores de búsqueda por palabrasclaves o "crawlers" y sistemas basados en el "content-routing [1, 2].Los primeros secaracterizan por ser un índice de documentos recopilados manualmente, los mismos sonsugeridos por sus propietarios, quienes además los clasifican en áreas específicas ybrindan una descripción de la información que contiene el sitio, formando así una

 jerarquía de URLs. Para realizar búsquedas se debe recorrer un árbol jerárquico hasta dar con la información requerida. Debido a que la indexación se realiza en forma manual, lainformación que se encuentra no siempre está actualizada.

Los crawlers están basados en el concepto de una única base de datos centralizada endonde se almacena toda la información. Algunos sistemas contienen varias bases de

datos en una misma máquina, sin ningún tipo de conexión y cada una es tratadaautónomamente . Se componen de un índice de URLs recopiladas en forma automáticapor un robot o mediante el envío de las mismas por parte de los administradores web.Cada sistema de esta categoría tiene sus propias características, herramienta deindexación y opciones de consulta, pero casi todos ofrecen la misma finalmente, el tercer grupo de motor de búsqueda es el llamado sistemas basados en "content-routing". Estossistemas se caracterizan por poseer una estructura distribuida y mecanismos de "content-routing" para guiar las peticiones de los usuarios a través de los servidores deinformación.

En general, todos los motores de búsqueda reciben la consulta del usuario, que consisteen el ingreso de una o varias palabras claves, realizan la búsqueda en la base de datos yextraen una lista ordenada de documentos que responden a la consulta en forma total oparcial. El orden de las respuestas depende de una puntuación, que asocia el programa acada documento cuando realiza la búsqueda y varía en cada caso, como por ejemplocuanto antes aparecen las palabras o por proximidad entre las mismas. Estáncompuestos básicamente por : un robot, un índice y un mecanismo de búsqueda. [3] Unrobot, es el programa que rastrea la web, tomando información sobre las páginas queencuentra. Cada robot trabaja en forma particular, generalmente parten de una listadeterminada y a partir de ahí, hacen un rastreo recursivo de los documentos que sereferencia en un documento. Un índice es la base de datos que contiene una copiacompleta o parcial de los documentos reunidos por el robot.

Un Mecanismo de búsqueda, programa que permite al usuario encontrar páginas de suinterés que estén en el índice a través de una página web y que devuelve resultadoscorrespondientes a la búsqueda ordenados según los criterios establecidos previamentepor el usuario.  Operacionalmente, para recuperar determinada información, el usuariorealiza una consulta (query), la cual llega al motor de búsqueda y donde es tomada por uncomponente (Query Expansion) que se encarga de transformar la consulta del usuario enun conjunto de incógnitas posibles en base a las palabras claves ingresadas por elusuario.

5/12/2018 motores de busqueda - slidepdf.com

http://slidepdf.com/reader/full/motores-de-busqueda-55a74fae64366 8/9

 

Esto se realiza de acuerdo con el conjunto de términos indexados que posee el motor debúsqueda (topic terms). Una vez que se tienen las posibles incógnitas, las mismas sonpasadas a un "Clustering" en donde se construye la información que se le mostrará alusuario, para lo cual se envían las palabras claves posibles al generador de frases(phasegeneration) y al mecanismo de rankeo de búsqueda (search engine ranking). Elgenerador de frases selecciona la serie de títulos posibles para cada palabra buscada y elmecanismo de rankeo, al tener el rankeo de todas las búsquedas realizadas, completa loslugares de las palabras claves después del encabezado que creo para cada una de lasfrases generadas. La indexación de la información puede realizarse de dos maneras : 

los robots toman las listas de servicios que promueven sitios o páginas web o que sonregistradas por los usuarios al completar un formularios en forma manual en el que se

sugiere una URL para su indexación proporcionando categoría, palabras claves einformación adicional del sitio; o a través de los robots que son activados por los motoresde búsqueda para que visiten las Web en busca de URLs o tópicos de interés. Se activael "Neighborhood-based Topic Identification" para buscar URLs que pueden o no estar catalogadas y que se envían al "search engine selection index" para selecciona términos ytópicos de interés dentro de las mismas.

En el caso de que el robot ya tuviese catalogada o registrada una URL encontradaverificará si fue modificada y de ser así, actualizará la información que contiene sobreella.Cuando el "search engine selection index" finaliza la selección, envía los resultadosobtenidos al mecanismo de rankeo de búsqueda (search engine ranking). A continuaciónse presenta el relevamiento de cinco motores de búsqueda seleccionados aleatoriamente.

GOOGLE: surgió como un proyecto en la Universidad de Standford [4,5,6,7]. A pesar queno es uno de los primeros motores de búsqueda que aparecieron en la web, se haconvertido rápidamente en uno de los más usados. Modo de operación : Google cuentacon la tecnología de PageRank, con lo que aprovecha los vínculos directos entre laspáginas web de distintos sitios, evitando la jerarquía de páginas. PageRank usa la granestructura de vínculos como una herramienta para organizar la información. Googleconsidera que un vínculo de una página a otra es como un "voto" que la primer páginahace a la segunda. Una página es posicionada más arriba, al ser ordenada, que otrasegún tengaun PageRank mayor.

La página que emite el voto es evaluada y si es considerada importante también darámayor ponderación a la página votada y en consecuencia más importancia. PageRank es

un indicador de Google y no depende de una consulta específica, se trata de lacaracterística de una página, basada en datos de la web que Google analiza utilizandoalgoritmos complejos que evalúan la estructura de vínculo. Además utiliza técnicas decoincidencia de textos para encontrar páginas de resultado a una determinada consulta.Recibe sitios web enviados por los usuarios pero no garantiza su aparición en su índice.Se envían a través de un formulario donde se les solicita la URL del sitio (no es necesarioenviar cada página individualmente) y un comentario o palabras claves que es optativo, amodo de información y no afecta la manera en que la página es indexada.

5/12/2018 motores de busqueda - slidepdf.com

http://slidepdf.com/reader/full/motores-de-busqueda-55a74fae64366 9/9

http://www.unlu.edu.ar /~tyr /tyr /TYR-motor /stark-motor.pdf  

Ricardo Baeza Yates. (Junio, 2008)Fecha de publicación: 2 de junio del 2008.

Titulo: µ¶ motores de búsqueda´Http/www.traductores.org.ar /nuevo/files/adjuntos/1277715195.pdf 

Marcos Mora (octubre, 2006)Fecha de publicación: 27 de octubre del 2006Titulo: Motores de recuperación de información: un análisis comparativo (parte II)http://www.elprofesionaldelainformacion.com /contenidos/1998/marzo/motores_de_recuper acion_de_informacion_un_analisis_comparativo_parte_ii.html