Principales tecnicas de WebSpam

Voy a enumerar las principales técnicas de webspam que se están utilizando hoy dia en la red.

Spamdexing / Spining: Mediante diferentes técnicas se generan contenidos artificialmente y de manera automática, con lo que se consigue una gran cantidad de contenidos y páginas indexadas en poco tiempo y sin esfuerzo.

Existen diferentes tipos de software que de manera mas o menos avanzada succiona contenidos a través de las SERPs de buscadores, feed RSS, diversos grupos de noticias, wikis, foros, etc Estos contenidos son alterados mediante diferentes técnicas para intentar evitar los algoritmos de detección de contenido duplicado que han implementado los buscadores.

¿Como se camufla este contenido duplicado?

Mezcla de Contenido de diferentes fuentes
Cambio de orden en frases y párrafos
Cacheo de consultas a buscadores internos con contenido aleatorio
Mezcla de frases al azar, o selectivamente mediante afinidad de palabras clave.
Traducción de contenios a diferentes idiomas
“Find and Replace” mediante diccionarios de sinónimos, y términos relacionados
etc

Cloaking: Esta técnica se basa en detectar si la visita es un usuario, o uno de los “spider” de un buscador. Una vez detectado el sistema muestra al usuario la página normal con el diseño y contenidos apropiados, y al motor de búsqueda una página sobreoptimizada para la/s palabras clave deseadas.

Esta práctica fué muy utilizada en el pasado, y sigue siéndolo a día de hoy aún cuando es una práctica altamente penalizada, que puede resultar en el baneo automático de la página de los motores de búsqueda. Una manera de detectar esta práctica es mediante la consulta de la caché de Google, o mediante un emulador de Usser-agent (firefox tiene plugins que realizan esta tarea).

Es importante no confundir “Cloaking” con “IP Recovery”, una técnica ampliamente utilizada por portales web para detectar por ejemplo la ubicación del usuario y cargar la versión idiomática correcta de manera automática.

Hijacking: Esta técnica se basa en inyectar en páginas web de terceros un “código malicioso”. Mediante esta práctica se inyectan en el código de estas páginas enlaces hacia los sitios que se quieren posicionar mediante esta técnica ilegal. Dentro de las prácticas de Hijacking hay muchos tipos, el utilizado en este caso es el Page Hijacking traducido como “secuestro de página” para realizar modificaciones en la misma.

Es una práctica de difícil detección ya que normalmente esta técnica se lleva a cabo en conjunto con una definición de cloaking que sólo muestra estos enlaces a buscadores. Por lo que aunque revisemos el source de nuestra página no encontraremos estos enlaces, siendo la caché del buscador el único sitio donde podremos ver estos enlaces.

La generalización de varios estándar en manejadores de contenido ha hecho que esta práctica sea muy popular entre los webspammers. Sistemas como WordPress, Joomla, Drupal, etc, son sistemas de código libre ampliamente utilizados, por lo que si encuentran un bug o fallo de seguridad en estos CMS tienen un gran número de páginas en las que pueden utilizar esta técnica hasta que el fallo de seguridad es detectado, solucionado y las páginas actualizan su sistema.

Mantener vuestro CMS bien actualizado es el primer paso para defenderse de estos ataques.

Affiliates Webspam: Esta técnica intenta explotar ilícitamente los sistemas de afiliados. Como muchos de vosotros ya sabreis los sistemas de afiliación generan ganancias cuando se consigue un buen volumen de tráfico. Mediante estas técnicas se intentan aprovechar diversos servicios web y páginas de terceros para distribuir la cookie de afiliado en un gran número de navegadores sin apenas esfuerzo.

Una de las prácticas de Cookie Stuffing más fáciles de realizar y que mayores beneficios generan son las realizadas en foros.

Entre las técnicas mas utilizadas están los iframes de 1×1 pixel (invisibles) con un montón de sites de afiliados, falsas imágenes (cookie dropping) enlazando a una imagen falsa con el código de afiliado, esto cargará una página de error de la página de afiliación pero el usuario ya tendrá la cookie en su sistema.

Realizando esto en foros con elevado tráfico y número de usuarios registrados, consigues una gran cantidad de usuarios con tu cookie persistente en su sistema, con lo que es más probable que alguno de ellos realice una compra que te genere beneficios.

Otra de las prácticas habituales en foros, son los Usser-bots. La mayoría de foros utilizan sistemas de seguridad obsoletos como los captchas, que son fácilmente sorteados por estos bots (el uso de los mismos sistemas SMF ,phpBB, vBulletin, etc en todos los foros facilita esta tarea). Estos sistemas generan una cantidad enorme de usuarios en poco tiempo manejados por robots, que postean de forma secuencial o aleatoria posts con los enlaces deseados.

SPAM en Blogs: La universalización del software utilizado en crear blogs vuelve a facilitar la tarea de los webpsammers.

Técnicas utilizadas son el “Comment SPAM“, mediante software especializado que suelen usar diccionarios de blogs con “dofollow” en comentarios. Estos sistemas publican comentarios de manera automática en estos blogs colocando enlaces a sus páginas con los “anchor text” deseados.

Otra práctica parecida es el “Trackback SPAM“, los sistemas utilizan las APIs públicas de los buscadores de blogs para seleccionar sitios mediante las tags utilizadas/deseadas. Este sistema certifica que el sitio responde con un trackback, y que no hace uso del atributo “nofollow” en estos enlaces. Si cumple los requisitos envia un ping desde el SPAM-Blog al sitio víctima, y una vez este coloca el trackback aplica un nofollow al enlace enviado.

El Hijacking antes mencionado, es otra de las técnicas muy utilizados para atacar blogs.

Existen muchas variaciones y aplicaciones de estas técnicas, pero creo que aqui teneis una muestra significativa de los principales ataques que podeis sufrir en vuestros sitios web.

Próximas Entregas de esta serie de artículos basados en el Webspam:

Análisis de Contenido – ¿Que es LSA (Latent Semantic Analysis)?
Information Retrieval – ¿Que y Como analizan los buscadores?
Herramientas de Lucha Anti-SPAM
Algoritmos Clásicos (Pagerank, Truncated Pagerank, TrustRank, HITS)
Nuevos Algoritmos (VisioRank, WITH, Anti-Trust Rank…)
Ejemplos Prácticos
Protege tu Sitio
Situación Actual: Valoración y Crítica

3 thoughts on “Principales tecnicas de webspam”

Pingback: frase clave
ithinksearch says:

27 March 2010 at 22:05

Muy bien. Gracias Carlos.

dobleveta says:

4 April 2011 at 1:54

Disculpa key sentences es un programa de pago o gratuito

Principales tecnicas de WebSpam

¿Como se camufla este contenido duplicado?

3 thoughts on “Principales tecnicas de webspam”

Leave a Reply Cancel reply