Proteccion Contra Black SEO

Embed Size (px)

Citation preview

  • 8/8/2019 Proteccion Contra Black SEO

    1/6

    1

    Hacking para el posicionamiento en buscadores y cmo controlarlo desde la lnea de

    comandos.

    AUTORES: Enrique Rando Gonzlez y Jos Mara Alonso Cebrin.

    LICENCIA: Creative Commons Reconocimiento-NoComercial-CompartirIgual 3.0 Espaa

    (http://creativecommons.org/licenses/by-nc-sa/3.0/es/)

    1.- Introduccin.

    Hoy en da es muy fcil estar en Internet. Lo realmente difcil es ser visibles y recibir visitas.

    Es un hecho que la inmensa mayora de las personas utilizan buscadores como Google, Bing, o

    Yahoo! para localizar la informacin. Y otro que, casi siempre, algunos enlaces de la primera pginade resultados son visitados. En muchas ocasiones se consultan los de la segunda. Hay quien,

    incluso, accede a algunas de las direcciones listadas en la tercera. Pero casi nadie pasa de ah.

    Aparecer en la quinta pgina de resultados es casi lo mismo que no aparecer. Y, para una empresa

    u organizacin, eso puede significar no tener relevancia en el sector, no hacer negocio, carecer de

    publicidad En definitiva, no existir.

    No es de extraar, pues, que se desarrollen tcnicas de SEO (Search Engine Optimization -

    Optimizacin para Motores de Bsqueda) y que existan organizaciones que ofrecen servicios de

    promocin de webs y, en particular, de posicionamiento en buscadores. Y, aunque la inmensa

    mayora actan de forma intachable, existen algunas cuyas prcticas rebasan la lnea de lo moral, eincluso de lo legal. Sobre todo, aquellas que promocionan sitios relacionados con actividades ilcitas,

    tales como la venta ilegal de frmacos o la infeccin de equipos con malware.

    En este trabajo se presentarn primero los riesgos que esto puede suponer para una organizacin ,

    pasando despus a mostrar cmo un uso adecuado de las herramientas accesibles desde la shell de

    un sistema Linux , automatizado a travs de programacin de shell-scripts, puede ayudar a

    monitorizar, detectar y controlar los problemas as como a implantar una poltica adecuada en

    materia de seguridad y administracin de sistemas.

    2.- Telaraas de enlaces

    La palabra clave para muchas de estas empresas dedicadas al posicionamiento es Pagerank. El

    Pagerank es una medida de la relevancia de una determinada pgina web con respecto a una

    determinada bsqueda. A mayor Pagerank, mejor posicin en las pginas de resultados de los

    buscadores (SERP - Search Engine Result Page).

    El Pagerank se logra, bsicamente, consiguiendo que otras pginas incluyan enlaces a las propias.

    Cuanto ms relevantes sean, ms Pagerank aportarn. En definitiva, obtener enlaces que apunten a

    las pginas de un sitio web forma parte fundamental de su promocin y su posicionamiento en

    buscadores.

  • 8/8/2019 Proteccion Contra Black SEO

    2/6

    2

    Y, en esta tarea, hay quien acta de forma poco tica. Por ejemplo, inundando foros, blogs y otros

    sitios participativos con comentarios y posts que nada tienen que ve con los temas all tratados. O

    creando cuentas en distintas plataformas, cuyos perfiles incluyen enlaces a los sitios a promocionar.

    Incluso hay herramientas que permiten realizar estas actividades de forma automtica, cuya

    sofisticacin las lleva a ser capaces de resolver los sistemas de CAPTCHA y similares con que

    muchos sistemas intentan protegerse de las entradas automatizadas.

    Pero algunas veces no acaba ah la cosa y se llega a vulnerar la seguridad de los sitios web para

    insertar contenidos en ellos de forma ilcita. En muchas ocasiones, se usan tcnicas basadas en

    tecnologas como, por ejemplo, Javascript, Hojas de Estilo en Cascada (CSS) o redirecciones HTTP

    para hacer que estos contenidos slo sean visibles para los buscadores y no para las personas. De

    este modo hacen ms difcil su deteccin y eliminacin por parte de los webmasters.

    En todo caso, el dao para la imagen de la organizacin afectada puede ser significativo. Adems,

    se estara haciendo uso de los medios y recursos de dicha organizacin para realizar actividades

    ajenas a ella y, en algunos casos, ilegales.

    3.- Medidas de proteccin

    Ante este tipo de amenazas, se hacen imprescindibles una correcta administracin de los servicios

    prestados, una adecuada proteccin de los sitios webs y una constante monitorizacin de los

    contenidos indexados por los buscadores.

    Por fortuna, existen herramientas y buenas prcticas que pueden servir de ayuda. As, por ejemplo,WordPress pone a disposicin de sus usuarios una herramienta llamada Akismet que permite

    controlar el SPAM en los comentarios a las entradas en los blogs. Para ms informacin, puede

    consultarse http://es.wordpress.com/features/

    Las medidas tcnicas y organizativas tambin deber ser tenidas en cuenta. En general, mientras un

    sistema sea til, debe mantenerse continuamente actualizado. Y, por supuesto, debe estar sometido

    a los adecuados controles y auditoras de seguridad. Cuando deje de ser necesario debe ser puesto

    fuera de servicio o hacer imposible su posterior actualizacin as como la creacin de nuevas

    cuentas de acceso.

    Por otro lado, los servicios de web participativa (foros, wikis, plataformas de teleformacin, etc.)tambin han de ser cuidadosamente vigilados en busca de contenidos inadecuados. Las altas de

    nuevos usuarios deben requerir autorizacin por parte de un administrador y sus perfiles pblicos

    deben ser sometidos a posteriores auditoras.

    Para conseguir todos estos objetivos es imprescindible llevar a cabo una monitorizacin activa de los

    resultados que ofrecen los buscadores para los sitios web de la organizacin. De este modo se

    podr determinar la existencia o no de contenidos inadecuados, determinar cmo fueron introducidos

    y realizar las actuaciones necesarias para eliminarlos, as como tomar las medidas oportunas para

    que no vuelvan a producirse en el futuro.

  • 8/8/2019 Proteccion Contra Black SEO

    3/6

    3

    Pero este tipo de tareas son prcticamente imposibles de llevar a cabo si no se cuenta con las

    herramientas apropiadas. A continuacin se presenta una solucin automatizada de comprobacin

    de contenidos utilizando herramientas accesibles desde la shell de Linux y otros sistemas operativos

    *nix.

    4.- Herramienta automtica de monitorizacin, deteccin y reporte.

    La siguiente imagen muestra la arquitectura general de la solucin propuesta:

    Figura 1. Esquema de la solucin propuesta.

    Como puede observarse, se ha dividido el proceso en tres fases.

    4.1.- Bsqueda

  • 8/8/2019 Proteccion Contra Black SEO

    4/6

    4

    En la primera de ellas se hace uso de los buscadores para localizar resultados sospechosos. Como

    datos de partida se necesitan:

    - Una lista de dominios a monitorizar

    - Una lista de bsquedas que permitan localizar pginas sospechosas de haber sufrido algn tipo de

    ataque.

    Combinando ambas se realizaran peticiones a los buscadores del tipo:

    site:example.com cheap viagra

    Los shell-scripts que automatizan estas peticiones usan herramientas de lnea de comandos como

    curl. Posteriormente, las pginas web devueltas por el buscador (SERP) se analizan mediante

    guiones awk(se consider la posibilidad de herramientas ms sofisticadas, como lexy yacc, pero

    awk proporciona el grado necesario de flexibilidad con menos requisitos de programacin).

    Para cada resultado, el buscador proporciona un ttulo y la correspondiene URL. Tambin puede

    proporcionar una vista preliminar de la pgina o parte de ella y una URL a una copia de la pgina

    mantenida por el buscador (cache).

    La lista de resultados es filtrada comparndola con una lista de URLs a excluir del anlisis. De este

    modo se ignorarn aquellas pginas web legtimas que puedan contiener las cadenas buscadas, las

    que tengan problemas conocidos y estn en proceso de solucin, etc.

    4.2.- Anlisis

    En la segunda fase, los resultados sospechosos son sometidos a anlisis para determinar la

    existencia de problemas, as como las caracterstica de stos.

    Para ello se intenta determinar si se trata de un abuso a un servicio participativo (foro, blog, wiki,

    etc.) demasiado permisivo o si, por el contrario, se ha producido una vulneracin de la seguridad del

    sitio web.

    Un anlisis de las URLs y de la estructura interna de la pgina web ayudan a determinar la

    naturaleza y caractersticas del sistema. As, la aparicin reiterada de ciertas cadenas de texto, como

    forum, post, thread, showthread, etc. pareceran sealar que el objeto del estudio es un foro.

    Por otro lado, es frecuente que las pginas que han sido objeto de modificaciones ilegtimas oculten

    el texto aadido haciendo uso de CSS, a veces combinado con JavaScript. La aparicin de estos

    elementos justo antes de los enlaces puede sealar la existencia de problemas de seguridad.

    Tambin se han observado casos en que, con objeto de dificultar la deteccin de las modificaciones,

    los ciberdelincuentes hacen que el contenido de la pgina devuelta dependa de los valores de los

    campos User-Agent y/o Referer de la peticin HTTP. Por ejemplo, los enlaces ilegtimos slo se

    muestran si el User-Agent se corresponde con el de un robot de un motor de bsqueda o si se llega

    a la pgina haciendo clic en un resultado de un buscador.

  • 8/8/2019 Proteccion Contra Black SEO

    5/6

    5

    Por esta razn, puede ser necesario intentar descargar la pgina sospechosa modificando el User-

    Agent por el de un buscador, o bien introduciendo un Referer que simule la realicacin de una

    bsqueda.

    Hay incluso veces en que se condiciona la aparicin de los enlaces a que la IP de la mquina que

    realiza la peticin sea de un buscador. En este caso, la forma ms sencilla de contemplar el

    contenido de la pgina tal y como la recibe el buscador es consultar la versin que ste guarda en su

    cache. Estas caches llevan asociada la fecha en la que se guardaron, la cual puede servir para

    asociar un cierto grado de certeza a las conclusiones que se obtengan.

    De la comparacin de todas estas pginas con patrones indicadores de la existencia de problemas

    se determinar una lista de URLs a reportar, cada una de las cuales llevar asociado un tipo de

    problema y, posiblemente, un grado de certeza acerca de las conclusiones alcanzadas.

    4.3- Reporte

    Con la informacin obtenida en la fase anterior se crea un informe en formato HTML que podr ser

    enviado al administrador de forma automtica por correo electrnico.

    Dicho informe consta de tres secciones:

    - Datos del proyecto: que incluir informacin acerca de la persona o entidad que realiz el anlisis,

    la fecha, los dominios objeto de estudio y un diagnstico general del estado encontrado.

    - URLs reportadas: con lasURLs que se consideraron dignas de mencin, hiperenlaces a ellas y una

    breve explicacin de los problemas que puedan sufrir.

    - Anexos: Con informacin ms detallada de los distintos tipos de problemas, posibles soluciones,consejos, ejemplos de cdigo, enlaces a pginas tiles, etc.

    Los resultados del informe se podrn utilizar tanto como ayuda para la eliminacin de las situaciones

    detectadas como para implantar polticas que mejoren la gestin de los sistemas y prevengan la

    aparicin en el futuro de nuevos problemas.

    4.4.- Programacin de Tareas

    El proceso completo de bsqueda, anlisis y reporte se realiza de forma automtica sin requerir la

    intervencin del usuario. Toda la informacin de configuracin se guarda en ficheros de texto. Esto

    hace posible programar tareas que lancen peridicamente el proceso, obtenindose un grado casi

    total de automatizacin.

    5.- Resumen

    Cualquier sitio web, independientemente de la informacin que maneje o de su relevancia, es un

    objetivo para los ciberdelincuentes que intentan conseguir espacios en los que introducir enlaces y

    otros contenidos ilcititos.

  • 8/8/2019 Proteccion Contra Black SEO

    6/6

    6

    Una medida a considerar para hacer frente a este tipo de amenazas es el uso de herramientas

    automatizadas para la deteccin y control de los resultados ofrecidos por los buscadores, como la

    aqu presentada.

    6.- Referencias:

    SEO, http://es.wikipedia.org/wiki/Posicionamiento_en_buscadores

    Pagerank, http://es.wikipedia.org/wiki/PageRank

    CAPTCHA, http://es.wikipedia.org/wiki/Captcha

    Tcnicas SEO para gente de moral relajada , Jos Mara Alonso Cebrin y Enrique Rando

    Gonzlez, http://elladodelmal.blogspot.com/2009/10/seo-para-gente-de-moral-relajada-i-de.htmlCSS

    Curl, http://curl.haxx.se/

    Awk, http://es.wikipedia.org/wiki/AWK

    Lex, http://es.wikipedia.org/wiki/Lex_%28inform%C3%A1tica%29Yacc, http://es.wikipedia.org/wiki/Yacc

    User-Agent, http://es.wikipedia.org/wiki/Agente_de_usuario

    Referer, http://en.wikipedia.org/wiki/HTTP_referrer