El flujo de datos en una web, lo que se conoce como tráfico entrante, es uno de los in­di­ca­do­res de éxito más im­po­r­ta­n­tes. Métricas como los hits (pe­ti­cio­nes al servidor), las visitas y las im­pre­sio­nes de página ayudan a los ad­mi­ni­s­tra­do­res de estas páginas a medir la ci­r­cu­la­ción de los usuarios y a evaluar el re­n­di­mie­n­to de sus proyectos ana­li­za­n­do los archivos de registro o logfiles y uti­li­za­n­do so­lu­cio­nes de software online como  Google Analytics o Piwik. Si en estos exámenes aparecen irre­gu­la­ri­da­des, es posible que tengan que ver con el referral spam o spam de re­fe­re­n­cias. Sigue leyendo si quieres saber cómo descubrir estos ataques de spam y evitar las es­ta­dí­s­ti­cas falsas a largo plazo.

Referrer spam: conoce al tráfico “fantasma”

El spam de re­fe­re­n­cias es una forma de spam en bu­s­ca­do­res en la que los hackers intentan manipular los archivos de registro y las es­ta­dí­s­ti­cas de ciertas páginas web con el objetivo de generar un tráfico falso para simular flujos de visitas o estimular visitas a su propia página web. Ambos patrones se apoyan para ello en unos programas de­no­mi­na­dos bots, abre­via­tu­ra de robots, que en su gran mayoría funcionan de forma autónoma.

¿Qué son los spambots?

Los bots son programas in­fo­r­má­ti­cos que ejecutan tareas re­pe­ti­ti­vas au­to­má­ti­ca­me­n­te y co­n­s­ti­tu­ye un co­m­po­ne­n­te fu­n­da­me­n­tal del Internet que conocemos hoy en día. De hecho, bu­s­ca­do­res como Google o Bing utilizan este tipo de programas, es decir, web crawlers (ra­s­trea­do­res web) o robots de búsqueda (search bots) para explorar la red e indexar las páginas más re­le­va­n­tes. Pero los hackers también los utilizan para au­to­ma­ti­zar sus in­cu­r­sio­nes, si bien en este caso su uso no se supedita a los intereses del usuario, como sí sucede en el de las “arañas” de los bu­s­ca­do­res, sino a alguno de estos objetivos:

  • Generar clics au­to­má­ti­cos en anuncios (Click Fraud)
  • Re­co­le­c­tar un gran número de di­re­c­cio­nes de correo ele­c­tró­ni­co.
  • Crear cuentas de usuario generadas au­to­má­ti­ca­me­n­te
  • Di­s­tri­buir pu­bli­ci­dad en co­me­n­ta­rios generados de forma au­to­má­ti­ca
  • Difundir software dañino

El spam de re­fe­re­n­cias también suele apoyarse en programas au­to­ma­ti­za­dos, que se dividen en dos grandes ca­te­go­rías:

  • Programas que simulan visitas: los spambots de este tipo imitan a los na­ve­ga­do­res más ha­bi­tua­les como Chrome, Firefox o Safari y envían numerosas pe­ti­cio­nes HTTP a de­te­r­mi­na­dos se­r­vi­do­res web. Estos programas funcionan de forma semejante a los bots de los ope­ra­do­res de los bu­s­ca­do­res (Google), que a veces se camuflan como na­ve­ga­do­res web (Firefox) para comprobar cómo se lee una página con un ex­plo­ra­dor u otro. Dado que en este tipo de spam estos programas simulan la visita de un usuario humano a una web, este tipo de ataque recibe el nombre de crawling spam y como sus efectos se ma­ni­fie­s­tan también en el archivo de registro del servidor, suele también de­no­mi­nar­se logfile spam
  • Programas que fa­l­si­fi­can datos de tráfico: los spambots de esta clase copian los datos de tráfico de otras páginas web y los guardan en el servidor de he­rra­mie­n­tas de análisis web sin ser vistos. Un ataque de este tipo permite manipular es­ta­dí­s­ti­cas web sin siquiera entrar en contacto con la página afectada, porque no aparece en el archivo de registro del servidor, sino solamente en los informes del software de análisis ma­ni­pu­la­do. En este caso se habla de ghost spam.

A co­n­ti­nua­ción ex­pli­ca­mos ambos tipos de ataque de spam y cómo de­fe­n­de­r­se de ellos.

Crawler spam

La mayoría de se­r­vi­do­res web suele llevar un archivo de registro central, el access log, en el cual se pro­to­co­li­zan todas las pe­ti­cio­nes en secuencia cro­no­ló­gi­ca con su sello de hora y fecha. El siguiente ejemplo muestra una entrada en el registro de accesos de un servidor Apache en Combined Log Format:

127.0.0.1 - frank [10/Oct/2000:13:55:36 -0700] "GET /apache_pb.gif HTTP/1.0" 200 2326 "www.example.com/start.html" "Mozilla/4.08 [en] (Win98; I ;Nav)

Esta entrada contiene la siguiente in­fo­r­ma­ción:

In­fo­r­ma­ción Ejemplo
Dirección IP del host so­li­ci­ta­n­te 127.0.0.1
Nombre de usuario desde una au­te­n­ti­ca­ción HTTP frank
Cro­no­se­lla­dor [10/Oct/2000:13:55:36 -0700]
Petición HTTP GET /apache_pb.gif HTTP/1.0
Código de estado HTTP 200
Tamaño del archivo 2326
Referer [sic] http://www.example.com/start.html
Agente de usuario (navegador) Mozilla/4.08 [en] (Win98; I ;Nav)

Los spammers apro­ve­chan el protocolo au­to­má­ti­co mediante logfile para infiltrar su propio URL en el protocolo de servidor de de­te­r­mi­na­das páginas web mediante el envío masivo de pe­ti­cio­nes HTTP. Aquí es pri­mo­r­dial el campo “Referer” de la petición, que contiene el URL de la página web que refiere (fuente del enlace).

Nota

Debido a un error or­to­grá­fi­co en la es­pe­ci­fi­ca­ción de HTTP se ha es­ta­ble­ci­do “Referer” como la de­no­mi­na­ción de este campo en el en­ca­be­za­do HTTP. En otros es­tá­n­da­res se utiliza la forma correcta con doble r.

Si un usuario pincha en un hi­pe­re­n­la­ce, este le lleva a la página web enlazada desde la página web actual. En el campo “Referer” se registra entonces el URL de la página web en la que se encuentra el enlace porque es esta la que “refiere” a otra página. Si analiza el archivo de registro, este campo permite al ad­mi­ni­s­tra­dor de la página enlazada saber qué páginas enlazan a su proyecto e ide­n­ti­fi­car fuentes de tráfico en potencia. En el pasado fue habitual, es­pe­cia­l­me­n­te en la escena de los bloggers, publicar los re­fe­re­n­tes incluidos en el archivo de registro en un widget de forma que podía mostrarse pú­bli­ca­me­n­te el origen del flujo de visitas. En esta lista de re­fe­re­n­tes se incluía un enlace a la fuente de tráfico, pro­ce­di­mie­n­to que los spammers apro­ve­cha­ron para manipular los archivos de registro de todo tipo de blogs y webs con el fin de po­si­cio­nar a sus propios proyectos de la forma más ventajosa en estas listas públicas de enlaces y generar, así, más enlaces y visitas. En la ac­tua­li­dad aún se utilizan spambots es­pe­cia­les que envían pe­ti­cio­nes masivas a páginas web y entregan a los se­r­vi­do­res el URL de la página web cuya vi­si­bi­li­dad se debe reforzar como referente. Con todo, este tipo de amenazas ha di­s­mi­nui­do eno­r­me­me­n­te en parte porque hoy apenas se en­cue­n­tran ya listas de re­fe­re­n­tes generadas au­to­má­ti­ca­me­n­te en las páginas web, lo que guarda relación, entre otras cosas, con los cambios su­b­s­ta­n­cia­les en el algoritmo de ranking de Google. Al menos desde la ac­tua­li­za­ción Penguin, in­tro­du­ci­da en abril de 2012, Google ha fo­ca­li­za­do su atención en el spam web en el contexto de los backlinks, hasta el punto de que se penalizan los proyectos con una op­ti­mi­za­ción del perfil de enlaces es­pe­cia­l­me­n­te llamativa. Este sería el caso, por ejemplo, de páginas que incluyen un gran número de enlaces entrantes de entornos irre­le­va­n­tes, de listas y redes de enlaces, de di­re­c­to­rios de artículos o de co­me­n­ta­rios en blogs. Hoy los análisis de los archivos de registro rara vez se realizan ma­nua­l­me­n­te, sino con he­rra­mie­n­tas como Webalizer, AWStats o Piwik. Otras he­rra­mie­n­tas de analítica web como Google Analytics ofrecen la po­si­bi­li­dad de analizar los datos de tráfico sin tener que acceder a los archivos de registro del servidor, aunque esto no les hace menos vu­l­ne­ra­bles al crawler o al ghost spam.

Ide­n­ti­fi­car el crawler spam

A co­n­ti­nua­ción te mostramos cómo detectar el spam de “arañas” en la es­ta­dí­s­ti­ca de tu proyecto y filtrar referrer lla­ma­ti­vos con Google Analytics.

  1. Abre la cuenta de tu proyecto en Google Analytics.
Nota

Todas las capturas de pantalla de la vista web de Google Analytics proceden de la versión en inglés de la cuenta de de­mo­s­tra­ción fa­ci­li­ta­da por Google. El enlace a la cuenta está di­s­po­ni­ble en las páginas de ayuda de Google Analytics. Para acceder a ella se debe tener una cuenta de Google

  1. Abre las es­ta­dí­s­ti­cas sobre los re­fe­re­n­tes: en el menú de la izquierda despliega “Ad­qui­si­ción”, se­le­c­cio­na “Todo el tráfico” y aquí el punto “Re­fe­re­n­cias”.
  1. Se­le­c­cio­na un periodo de tiempo: ajusta el periodo de ob­se­r­va­ción para el informe a los últimos tres meses.
  1. Clasifica y filtra la es­ta­dí­s­ti­ca: en “Ad­qui­si­ción” > “Todo el tráfico” > “Re­fe­re­n­cias” Google Analytics sintetiza como dimensión primaria en un informe todas las fuentes de los hi­pe­re­n­la­ces entrantes. Es así como se obtiene una lista de todos los URL re­fe­re­n­tes re­gi­s­tra­dos por Google Analytics en el periodo se­le­c­cio­na­do así como los valores métricos de cada uno de ellos.

Para cada enlace referente la he­rra­mie­n­ta pro­po­r­cio­na el número de usuarios y sesiones que ha generado, así como también permite extraer datos como la tasa media de rebote, la cantidad de páginas vi­sio­na­das por sesión, la duración media de cada sesión, las tasas de co­n­ve­r­sión, las tra­n­sac­cio­nes y la fa­c­tu­ra­ción generada. Re­le­va­n­tes para la pre­ve­n­ción de spam son sobre todo el número de sesiones por cada enlace así como la tasa media de rebote. Si pinchas en la columna “Po­r­ce­n­ta­je de rebote” en “Co­m­po­r­ta­mie­n­to” los valores de esta columna se es­tru­c­tu­ran en orden de­s­ce­n­die­n­te, de forma que resulta más sencillo detectar valores inusuales.

El po­r­ce­n­ta­je indicado como tasa de rebote muestra las sesiones pro­ce­de­n­tes de una misma fuente en las cuales no ha habido ningún tipo de in­ter­ac­ción con tu página, es decir, la han visitado y la han aba­n­do­na­do poco después. Una tasa de rebote de un 100 o un 0 por ciento en más de 10 sesiones desde la misma fuente es un indicio claro de pe­ti­cio­nes au­to­ma­ti­za­das.

También es posible filtrar la vista con una expresión regular (RegEx) que incluya los enlaces más conocidos de spam. Entre estos se incluyen las si­guie­n­tes páginas:

  • semalt.com
  • darodar.com
  • hu­l­fi­n­g­to­n­po­st.com
  • buttons-for-website.com
  • best-seo-solution.com
  • free-share-buttons.com
Consejo

La agencia digital holandesa Sti­j­l­breuk facilita en re­fe­rre­r­s­pa­m­blo­c­ker.com una extensa referrer spam blacklist o lista negra de spam de re­fe­re­n­cia

El patrón de filtrado con una expresión regular podría resultar así:

semalt|darodar|hu­l­fi­n­g­to­n­po­st|buttons-for-website|best-seo-solution

La barra vertical (|) equivale al conector “o”. Los ca­ra­c­te­res meta, como el punto, se deben en­ma­s­ca­rar con una barra inversa (\) o backslash.

 Para aplicar el filtro, pincha en “Avanzado” en la barra de menú superior:

A co­n­ti­nua­ción aparece un cuadro para co­n­fi­gu­rar el filtro:

Crea aquí un filtro para la dimensión “Fuente” y se­le­c­cio­na como opción de filtro “Contiene”, donde incluyes una expresión regular como patrón. Guarda los cambios y confirma.

  1. Anota los referral lla­ma­ti­vos: crea tu lista negra de re­fe­re­n­tes spam con todos los URL so­s­pe­cho­sos que actúan de fuente del enlace. Esta lista se utiliza más tarde como base para co­n­fi­gu­rar un filtro de exclusión.

Bloquear el crawler spam con .htaccess

El crawler spam presupone una visita a la página. Por ello, las medidas pre­ve­n­ti­vas más fiables se aplican en el lado del servidor. Para mostrar cuál es el pro­ce­di­mie­n­to a seguir nos basamos en el archivo de co­n­fi­gu­ra­ción .htaccess del servidor web más utilizado a nivel global, Apache. Si has dado con URL so­s­pe­cho­sos en tu es­ta­dí­s­ti­ca, puedes impedir que los spambots inicien sesión en tu página de tres formas di­fe­re­n­tes:

  • Bloquear los referrers
  • Bloquear las di­re­c­cio­nes IP
  • Bloquear los agentes de usuario

Bloquear los referral con .htaccess

Abre el fichero .htaccess de tu servidor web y añade un fragmento de código como en el ejemplo:

RewriteEngine on
    RewriteCond %{HTTP_REFERER} ^https?://([^.]+\.)*semalt\.com\ [NC,OR]
    RewriteCond %{HTTP_REFERER} ^https?://([^.]+\.)*darodar\.com\ [NC,OR]
    RewriteCond %{HTTP_REFERER} ^https?://([^.]+\.)*hulfingtonpost\.com\ [NC,OR]
    RewriteCond %{HTTP_REFERER} ^https?://([^.]+\.)*buttons\-for\-website\.com\ [NC,OR]
    RewriteCond %{HTTP_REFERER} ^https?://([^.]+\.)*best\-seo\-solution\.com\ [NC,OR]
    RewriteCond %{HTTP_REFERER} ^https?://([^.]+\.)*free\-share\-buttons\.com\ [NC]
RewriteRule .* - [F]

La defensa contra el spam en el lado servidor se basa (última línea) en la Re­w­ri­te­Ru­le: .* - [F]

Esta regla de re­es­cri­tu­ra indica al servidor web que debe responder a todas las pe­ti­cio­nes HTTP con el código de estado 403 Forbidden (“prohibido”) siempre que cumplan con una o varias de las co­n­di­cio­nes (Re­w­ri­te­Co­nd) citadas an­te­rio­r­me­n­te. Esto impide el acceso de los robots de spam.

En nuestro ejemplo cada referente que debe blo­quear­se se ha definido en una Re­w­ri­te­Co­nd separada como expresión regular, como se ve en el ejemplo:

RewriteCond %{HTTP_REFERER} ^https?://([^.]+\.)*semalt\.com\ [NC,OR]

La condición se cumple cuando la variable de servidor %{HTTP_REFERER} se co­rre­s­po­n­de con la expresión regular definida en la Re­w­ri­te­Co­nd, por ejemplo:

^https?://([^.]+\.)*semalt\.com\

Las co­n­di­cio­nes están unidas con la bandera [OR] que equivale al conector lógico “o”: basta con que se cumpla solo una Re­w­ri­te­Co­nd para que se aplique la Re­w­ri­te­Ru­le. [NC] define la secuencia como not case-sensitive, es decir, que no di­fe­re­n­cia entre ma­yú­s­cu­las o mi­nú­s­cu­las.

Con las Re­w­ri­te­Co­nd también pueden definirse ciertas palabras clave que pueden llevar a exclusión si aparecen en el referrer de una petición HTTP. En el ejemplo que sigue se bloquean todas las pe­ti­cio­nes HTTP cuyos re­fe­re­n­tes incluyen alguna de las palabras clave porn, pill o póker. Las palabras clave se delimitan por medio de una RegEx. Puedes usar el carácter meta \b:

RewriteEngine on
RewriteCond %{HTTP_REFERER} \bporn\b [NC,OR]
RewriteCond %{HTTP_REFERER} \bpill\b [NC,OR]
RewriteCond %{HTTP_REFERER} \bpoker\b [NC]
RewriteRule .* - [F]

Si no se de­li­mi­ta­ran podría ocurrir que también se blo­quea­ran pe­ti­cio­nes HTTP que in­clu­ye­ran las mismas co­m­bi­na­cio­nes de letras pero en otro contexto, como sería el caso de estos ejemplos:

manu.sporny.org/

www.rittersporn-zuchter.de/

www.fersensporn-online.de/

Bloquear di­re­c­cio­nes IP con .htaccess

Si te has dado cuenta de que todos los ataques de spam proceden siempre de las mismas di­re­c­cio­nes, puedes optar por bloquear sus co­rre­s­po­n­die­n­tes IP o regiones completas de di­re­c­cio­nes. En el caso de bloquear una única dirección IP del lado del servidor copia en el fichero un bloque de código según este ejemplo:

RewriteEngine On
Order Deny,Allow
Deny from 203.0.113.100
Allow from all

Aquí, todas las pe­ti­cio­nes HTTP que proceden de la dirección IP 203.0.113.100 serán re­cha­za­das en el futuro de forma au­to­má­ti­ca. En este bloque de código se pueden incluir tantas di­re­c­cio­nes IP como sea necesario (una debajo de la otra):

RewriteEngine On
Order Deny,Allow
Deny from 203.0.113.100
Deny from 192.168.0.23
Allow from all

Si, en cambio, es a un área de di­re­c­cio­nes al completo al que se ha de impedir el acceso a tu web, utiliza el siguiente esquema en formato CIDA (Classless Inter-Domain Routing):

RewriteEngine On
Order Deny,Allow
Deny from 198.51.100.0/24
Allow from all

Con estas líneas de código se bloquean todas las pe­ti­cio­nes del área IP co­m­pre­n­di­da entre 198.51.100.0 y 198.51.100.255.

Es preciso tener en cuenta que los hackers suelen recurrir a las llamadas redes de bots (botnets) para enviar el mayor número posible de pe­ti­cio­nes desde di­re­c­cio­nes IP di­fe­re­n­tes a la mayor brevedad posible. Esto hace que sea prá­c­ti­ca­me­n­te imposible evitar ataques de spam por este método a largo plazo.

Consejo

Una botnet o red de bots consiste en una red de or­de­na­do­res o equipos «zombi» in­fe­c­ta­dos que se utilizan para lanzar ataques de spam o para di­s­tri­buir software malicioso. Para crearla, los hackers (bo­t­ma­s­te­rs) in­tro­du­cen sus programas dañinos a través de Internet en or­de­na­do­res pro­te­gi­dos de forma in­su­fi­cie­n­te y utilizan sus recursos de red para infectar a otros pa­r­ti­ci­pa­n­tes. Las redes de bots suelen obedecer a un control central y son el punto de partida de vi­ru­le­n­tas olas de in­fe­c­cio­nes y de ataques DDOS a gran escala.

Bloquear user agents con .htaccess

Otra al­te­r­na­ti­va que permite impedir ataques de spam consiste en bloquear de­te­r­mi­na­dos agentes de usuario cuya ide­n­ti­fi­ca­ción utilizan los spam bots para hacerse pasar por vi­si­ta­n­tes legítimos.

Crea un código como en este ejemplo:

RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} Baiduspider [NC]
RewriteRule .* – [F,L]

Hace algunos años los ad­mi­ni­s­tra­do­res web re­gi­s­tra­ban co­n­s­ta­n­te­me­n­te ataques de spambots que simulaban ser robots de búsqueda del buscador chino Baidu (Bai­du­s­pi­der). Si no esperas obtener un tráfico orgánico si­g­ni­fi­ca­ti­vo desde China puedes bloquear a este ra­s­trea­dor sin problemas para evitar así ataques de spam.

Filtros de referrer spam en Google Analytics

Las medidas de pre­ve­n­ción en el lado del servidor vía .htaccess co­n­s­ti­tu­yen la forma más so­s­te­ni­ble de impedir el crawler spam, si bien la co­n­fi­gu­ra­ción del archivo es compleja y vu­l­ne­ra­ble a errores. Esto hace que no todos los we­b­ma­s­te­rs se atrevan a formular sus propias reglas Rewrite y por un buen motivo, pues cualquier error podría tener co­n­se­cue­n­cias decisivas en la di­s­po­ni­bi­li­dad de la página web. Pero los programas de análisis también permiten filtrar pe­ti­cio­nes au­to­má­ti­cas de spambots para evitar informes fa­l­si­fi­ca­dos. Se­gui­da­me­n­te mostramos el pro­ce­di­mie­n­to a seguir con Google Analytics.

La he­rra­mie­n­ta ofrece dos opciones con las que filtrar el referral spam de la es­ta­dí­s­ti­ca:

  • Las referrer spam bla­c­kli­sts de Google
  • Filtros pe­r­so­na­li­za­dos

El siguiente vídeo forma parte del “Digital Analytics Fu­n­da­me­n­ta­ls Course” de la Analytics Academy y ofrece una in­tro­du­c­ción a los filtros de la he­rra­mie­n­ta de Google:

dzwRzUEc_tA.jpg Para mostrar este video, se requieren cookies de terceros. Puede acceder y cambiar sus ajustes de cookies aquí.

Referrer spam blacklist de Google

Google ya ha re­co­no­ci­do el problema del referral spam en la eva­lua­ción de las es­ta­dí­s­ti­cas de usuario. Es por esto que la he­rra­mie­n­ta permite filtrar todos los bots y todas las arañas conocidas au­to­má­ti­ca­me­n­te. Procede de la siguiente manera para ello:

  1. Abre los ajustes de la vista maestra: cuando abras tu cuenta ve a la sección de ad­mi­ni­s­tra­ción, se­le­c­cio­na la vista y a co­n­ti­nua­ción pincha en “Ver co­n­fi­gu­ra­ción”.
  1. Activa la lista negra de re­fe­re­n­tes de Google: desliza el ratón hasta la opción “Filtrado de bots” y marca la casilla para excluir las pe­ti­cio­nes al servidor de bots y arañas conocidos. Google muestra entonces una versión depurada de la es­ta­dí­s­ti­ca de tu web.

Recuerda que solo se filtrarán los datos de usuario que la he­rra­mie­n­ta pueda asignar a spambots conocidos. Esto quiere decir que el filtro solo puede actuar contra robots y arañas incluidos en la lista negra de Google.

Filtros pe­r­so­na­li­za­dos por el usuario

La he­rra­mie­n­ta de Google también permite definir filtros para la cuenta o para la vista de datos. Los primeros pueden aplicarse a otras vistas si es necesario, mientras que los segundos solo son válidos para la vista para la que se crearon.

Prueba los filtros recién creados en una copia de la vista se­le­c­cio­na­da de esta forma:

  1. Crea una copia de la vista: entra en el menú “Ver co­n­fi­gu­ra­ción” y haz clic en la opción para copiar la vista. Nombra y guarda la copia y confirma el proceso.
  2. Define filtros pe­r­so­na­li­za­dos: se­le­c­cio­na la copia que has creado en “Ver” y pincha en “Filtros”

Si con an­te­rio­ri­dad hubieras creado otros filtros, la he­rra­mie­n­ta los mostraría en este panel.

Ahora puedes crear un filtro nuevo pinchando en el botón co­rre­s­po­n­die­n­te (“+ Agregar filtro”). Nombra a este nuevo filtro (referrer spam blocker) y escoge estas opciones:

  • “Tipo de filtro”: “Pe­r­so­na­li­za­do”
  • “Excluir”
  • “Campo de filtro”: “Fuente de campaña”
Nota

El campo “Fuente de campaña” define a la dimensión “Fuente” en los informes de Google Analytics.

Ahora puedes crear el “Patrón para el filtro” en la forma de expresión regular. Para ello utiliza la lista negra que has creado an­te­rio­r­me­n­te. Este patrón podría resultar algo así:

(?:([^. ]+)\.)?(?:([^.]+)\.)?(semalt|hulfingtonpost|buttons-for-website|best-seo-solution)\.(com|de|net|org|ru)
  1. Verifica los filtros: a co­n­ti­nua­ción comprueba el fu­n­cio­na­mie­n­to del filtro para ver cómo repercute en la vista actual.
Nota

Solo es posible verificar el filtro cuando la vista contiene datos su­fi­cie­n­tes.

Guarda los cambios y cierra la co­n­fi­gu­ra­ción. El nuevo filtro se muestra en la vista maestra.

  1. Aplica el filtro sobre la vista maestra: si el filtro que has definido funciona como es debido, utilízalo en la vista maestra de tu cuenta.
Nota

Los filtros re­pre­se­n­tan una buena opo­r­tu­ni­dad para depurar los informes de referral spam, pero debes recordar que lo único que hace esta función es dejar de mostrar el tráfico oca­sio­na­do por los bots. El problema real, la carga del servidor por los ataques de spam, no queda resuelto. La pre­ve­n­ción so­s­te­ni­ble contra el spam solo es efectiva si se toman medidas en el lado servidor que impidan el acceso au­to­má­ti­co de los spambots.

Bloquear el crawler spam en WordPress

Los ad­mi­ni­s­tra­do­res de páginas WordPress pueden proteger su proyecto del spam de “arañas” mediante plugins di­s­po­ni­bles de forma gratuita en la página de WordPress. Entre los más populares y ac­tua­li­za­dos re­gu­la­r­me­n­te se en­cue­n­tran:

Instalar el plugin contra el referral spam

En el gestor de co­n­te­ni­dos WordPress los plugins se gestionan desde el panel de ad­mi­ni­s­tra­ción. Procede de la siguiente manera:

  1. 1Abre el panel de ad­mi­ni­s­tra­ción de WordPress: antes de activar el plugin contra el referral spam entra en tu cuenta y ve a la sección de ad­mi­ni­s­tra­dor.
  1. Busca el plugin e instálalo: en el punto del menú “Plugins” se­le­c­cio­na “Add New” para añadir nuevos plugins a tu página.

Busca “Block Referer Spam” y pincha en “Install Now”, con lo que el plugin se­le­c­cio­na­do queda integrado en el gestor de co­n­te­ni­dos aunque aún des­ac­ti­va­do.

  1. Activa el plugin: inicia el plugin haciendo clic en “Activate”. En la barra lateral del panel de ad­mi­ni­s­tra­ción de WordPress aparece un nuevo punto de­no­mi­na­do “Referer Spam”.

Configura el plugin de bloqueo de spam de re­fe­re­n­cias

En el panel de co­n­fi­gu­ra­ción de Block Referer Spam se accede a una breve de­s­cri­p­ción del plugin así como a diversas opciones en cuanto a ac­tua­li­za­cio­nes y funciones de bloqueo.

  1. Abre la co­n­fi­gu­ra­ción: pincha en “Referer Spam” para pe­r­so­na­li­zar el plugin.
  1. Configura las ac­tua­li­za­cio­nes: escoge la opción que prefieras, la ac­tua­li­za­ción au­to­má­ti­ca o la manual.
Consejo

Se­le­c­cio­na la ac­tua­li­za­ción au­to­má­ti­ca para tener la seguridad de que la lista negra del plugin se amplía con di­re­c­cio­nes spam a medida que se van co­no­cie­n­do.

  1. Configura el modo de bloqueo: aquí puedes se­le­c­cio­nar el tipo de bloqueo que prefieras. El plugin distingue entre un bloqueo Rewrite y uno WordPress.
Consejo

La opción más re­co­me­n­da­ble en este caso es el bloqueo Rewrite, mucho más efectivo y rápido, ya que impide el acceso de spam ya en el servidor.

  1. Crea una blacklist de referrer spam pe­r­so­na­li­za­da: una forma aún más efectiva de bloquear el spam es ampliar la lista negra ma­nua­l­me­n­te es­cri­bie­n­do en el campo “Custom Blocks” todas aquellas páginas web que llamen tu atención.

Con un clic en “Save Changes” guardas tus ajustes. Si quieres acceder a la lista negra completa de bloqueo del plugin abre el punto “All Blocked Sites”.

Ghost spam

A di­fe­re­n­cia del crawler spam, el spam “fantasma” no necesita in­ter­ac­tuar con la página web a la que se dirige porque los bots envían los datos de tráfico fa­l­si­fi­ca­dos di­re­c­ta­me­n­te al servidor de las he­rra­mie­n­tas de análisis, las cuales procesan estos datos sin di­s­ti­n­gui­r­los de los datos de usuario legítimos y los envían como informes a los ad­mi­ni­s­tra­do­res web. El no tener contacto en ningún momento con la página web es lo que ha dado el nombre de tráfico fantasma, spam fantasma o ghost spam a este tipo de ataque. Ahora bien ¿cuál es la intención de los spammers al llevarlo a cabo?

El objetivo de un ataque de ghost spam no es otro que el de despertar la cu­rio­si­dad de los we­b­ma­s­te­rs, pues suponen que cuanto más a menudo aparezca su URL en los informes de otras páginas, más elevada es la pro­ba­bi­li­dad de que sus gestores quieran conocer de dónde procede tanto tráfico. Pero lo que estos dominios suelen ocultar son páginas web con anuncios de display que obtienen fi­na­n­cia­ción con las visitas. En los peores casos, los ad­mi­ni­s­tra­do­res de estos dominios pueden incluso utilizar el spam de re­fe­re­n­cias para contagiar los equipos de los usuarios más inocentes con programas dañinos.

Re­cu­rri­mos de nuevo a Google Analytics para mostrar cuál es el mecanismo interno del spam fantasma y qué medidas de defensa pueden adoptarse.

¿Cómo funciona el ghost spam?

En este tipo de ataque los ci­be­r­de­li­n­cue­n­tes explotan las po­si­bi­li­da­des del mea­su­re­me­nt protocol (protocolo de medición) de Google Analytics, que es pre­ci­sa­me­n­te el que hace posible el envío de los datos de tráfico entre tu página web y el servidor web de la he­rra­mie­n­ta.

Todo lo que necesitan los hackers para infiltrar datos en Google Analytics es disponer de los ide­n­ti­fi­ca­do­res de se­gui­mie­n­to válidos, a los cuales pueden llegar de dos formas:

  • Uti­li­za­n­do spambots que rastreen el código HTML de las webs y copien los ide­n­ti­fi­ca­do­res.
  • Con un generador que cree ID de se­gui­mie­n­to al azar.

Numerosos we­b­ma­s­te­rs incluyen este código de se­gui­mie­n­to en la misma hoja de HTML de su página. Esto se hace con el siguiente código:

<!-- Google Analytics -->
<script>
window.ga=window.ga||function(){(ga.q=ga.q||[]).push(arguments)};ga.l=+new Date;
ga('create', 'UA-XXXXX-Y', 'auto');
ga('send', 'pageview');
</script>
<script async src='https://www.google-analytics.com/analytics.js'></script>
<!-- End Google Analytics -->

Para que el script pueda enviar los datos a Google Analytics se debe escribir el ide­n­ti­fi­ca­dor de se­gui­mie­n­to in­di­vi­dual de cada usuario en el lugar de UA-XXXXX-Y. A este ide­n­ti­fi­ca­dor puede acceder cualquier programa que pueda leer el código HTML de una página web.

Esta vu­l­ne­ra­bi­li­dad puede cubrirse con ayuda del Ad­mi­ni­s­tra­dor de etiquetas de Google, he­rra­mie­n­ta que facilita a los ad­mi­ni­s­tra­do­res web una interfaz de usuario para gestionar de forma ce­n­tra­li­za­da los fra­g­me­n­tos de código de Google, de­no­mi­na­dos tags (etiquetas) por el proveedor. En lugar de utilizar varias etiquetas para cada uno de los servicios de Google se integra un solo snippet de código para el Google Tag Manager en el código HTML. De esta forma se protege al código de se­gui­mie­n­to de Google Analytics junto al ID in­di­vi­dual del posible acceso de terceros.

El tráfico fantasma puede afectar, en principio, a cualquier tipo de informe realizado con la he­rra­mie­n­ta de análisis: además de los datos sobre los re­fe­re­n­tes, los spammers también utilizan los informes sobre eventos, palabras clave, páginas de destino o ajustes de idioma para in­tro­du­cir datos de tráfico ma­ni­pu­la­dos.

La persona con más éxito en la escena del ghost spam es hasta ahora el hacker ruso Vitaly Popov, que desde 2014 no ha dejado de colar los URL de sus webs en cuentas de Google Analytics. A finales de 2016 consigue burlarse de la comunidad in­te­r­nau­ta con una supuesta página secreta de Google: junto a te­r­mi­na­cio­nes ha­bi­tua­les como de, de-de o en-us, miles de usuarios de Analytics a lo largo y ancho del globo en­co­n­tra­ron el siguiente mensaje en los informes sobre los ajustes de idioma de sus visitas:

„Secret.ɢoogle.com You are invited! Enter only with this ticket URL. Copy it. Vote for Trump!“

Aquellos gestores más curiosos que siguieron la in­vi­ta­ción no fueron a parar a Google, pues:

ɢoogle.com ≠ Google.com

En lugar de eso, el URL redirigía a la página web de Popov, cuya dirección contiene el texto casi completo de “Money”, una de las canciones más populares de Pink Floyd incluida en “The dark side of the moon” de 1973.

money.get.away.get.a.good.job.with.more.pay.and.you.are.okay.money.it.is.a.gas.grab.that.cash.with.both.hands.and.make.a.stash.new.car.caviar.four.star.daydream.think.i.ll.buy.me.a.football.team.money.get.back.i.am.alright.jack.ilo­ve­vi­ta­ly.com/#.keep.off.my.stack.money.it.is.a.hit.do.not.give.me.that.do.goody.good.bullshit.i.am.in.the.hi.fidelity.first.class.tra­ve­lli­ng.set.and.i.think.i.need.a.lear.jet.money.it.is.a.secret.%C9%A2oogle.com/#.share.it.fairly.but.dont.take.a.slice.of.my.pie.money.so.they.say.is.the.root.of.all.evil.today.but.if.you.ask.for.a.rise.it’s.no.surprise.that.they.are.giving.none.and.secret.%C9%A2oogle.com

Dicho URL conducía a una página web, hoy ya no di­s­po­ni­ble, al estilo de un catálogo web de pri­n­ci­pios de los años 2000 con enlaces a diversos bu­s­ca­do­res y tiendas online. No está claro qué pretendía Popov con su ataque de spam, aunque puede suponerse que lo que le in­te­re­sa­ba era comprobar el potencial del URL de ty­po­s­qua­t­ti­ng ɢoogle.com.

Puede afirmarse que si bien el tráfico fantasma es molesto, no re­pre­se­n­ta un peligro para tu página web porque no implica un contacto real con ella, por lo que ni el servidor ni los archivos de registro se ven afectados por un gran número de pe­ti­cio­nes au­to­má­ti­cas. No obstante, sí puede llegar a ser pro­ble­má­ti­co a la hora de analizar las es­ta­dí­s­ti­cas de referrer spam con Google Analytics.

Nota

Evita abrir re­fe­re­n­cias oscuras en el navegador web porque corres el riesgo de que la página a la que lleve el enlace infecte tu sistema con software dañino.

Ide­n­ti­fi­car el spam fantasma

El ghost spam suele basarse en ID de se­gui­mie­n­to generados por azar. Por eso el spambot desconoce a qué página web afecta el ataque. Esto se hace patente por medio de in­cohe­re­n­cias en los datos pro­po­r­cio­na­dos por la he­rra­mie­n­ta de Google.

Cuando un usuario entra en una web a través de un enlace el en­ca­be­za­do de la petición, recibe en el campo “Host” el nombre de un equipo que se puede asociar a tu red. Los bots que envían tráfico falso, en cambio, no conocen este nombre de equipo de forma que en este campo in­tro­du­cen un número cua­l­quie­ra o lo dejan vacío (Google Analytics registra a este host como “(not set)”, “sin definir”.

Utiliza este esquema para ide­n­ti­fi­car el tráfico fantasma en tu cuenta de Google Analytics. Se re­co­mie­n­da seguir este pro­ce­di­mie­n­to:

  1. Abre el informe de red: desde “Audiencia” y “Te­c­no­lo­gía” se­le­c­cio­na el informe “Red” y cambia a “Nombres de host” como dimensión primaria.
  1. Ajusta el periodo de ob­se­r­va­ción: define el periodo que será objeto del examen como el de los últimos tres meses.

  2. Ide­n­ti­fi­ca números de host legítimos: en la primera columna del informe la he­rra­mie­n­ta presenta todos los nombres de host desde los cuales se visitó la página. Aquí deberían aparecer sobre todo nombres que se pueden asociar a los dominios de tu página web. También se en­cue­n­tran aquí dominios de Google re­s­po­n­sa­bles de tra­du­c­cio­nes y de las versiones de caché de la web.

translate.goo­gleu­se­r­co­n­te­nt.com

webcache.goo­gleu­se­r­co­n­te­nt.com

Si en­cue­n­tras aquí nombres de equipo que no se co­rre­s­po­n­den ni con tus dominios ni con las páginas de Google, estás ante un caso de ghost spam.

  1. Define una expresión regular: anota todos los nombres de host de los que quieres estudiar los datos de tráfico como una expresión regular como en el ejemplo, que servirá como modelo para el filtro:

^(www\.)?(example|goo­gleu­se­r­co­n­te­nt)\.com

La expresión regular ha de incluir todos los nombres de host cuyo tráfico vas a analizar con la he­rra­mie­n­ta.

Co­n­clu­sión

El ghost spam se reconoce siempre que el host que consta en la petición HTTP no coincida con el host de tu red.

Filtrar el tráfico fantasma

Filtrando todos aquellos nombres de host que no pe­r­te­ne­cen a tu red se eliminan del informe. Para ello se usa un filtro in­clu­ye­n­te para la vista de datos.

  1. Se­le­c­cio­na la copia de la vista: en la sección de ad­mi­ni­s­tra­ción de tu cuenta copia la vista maestra o escoge una copia realizada con an­te­rio­ri­dad.
  2. Define el filtro: en el punto “Filtros” pincha en “Nuevo Filtro” y “Crear Nuevo Filtro”.

Introduce un nombre para el filtro (por ejemplo, hostname blocker).

En “In­fo­r­ma­ción del filtro” se­le­c­cio­na los ajustes:

  • “Tipo de filtro”: “Pe­r­so­na­li­za­do”
  • “Incluye”
  • “Campo de filtro”: “Nombre de host”

En “Patrón de filtro” introduce la expresión regular que creaste an­te­rio­r­me­n­te para incluir en la vista solamente los nombres de host de tu red.

  1. Verifica los filtros: pincha en “Verificar filtros” para probar su efecto en la vista se­le­c­cio­na­da y guárdalo.
  2. Aplica el filtro en la vista maestra: si funciona sin problemas aplícalo a la vista principal de los datos.

Ahora ya no deberían verse los datos de usuario enviados como ghost spam y podrías evaluar el tráfico de tu página web es­ta­dí­s­ti­ca­me­n­te con la seguridad de contar con in­fo­r­ma­ción veraz y fiable.

Ir al menú principal