Le guide ultime pour supprimer le referrer spam

Tu en as peut-être déjà fait l’expérience, mais en allant checker les stats Google Analytics, il m’arrive régulièrement de tomber sur des « referrals » un peu bizarres.

Les « referrals » sont des sites tiers d’où proviennent une partie du traffic d’un site web. Cette information permet par exemple de dresser une liste des sites web qui ont un lien qui pointe vers notre site web et sur lequel ses visiteurs cliquent pour arriver sur le notre.

Mais il arrive de plus en plus que cette information soit polluée par ce qu’on appelle le referrer spam. Ce sont des sites web qui, à l’aide d’un robot (spam bot), vont accéder à notre site web et laisser une trace de cette visite dans Google Analytics.

PS : je parle d’Analytics parce que c’est ce que j’utilise. Mais c’est pareil pour les autres outils.

Pourquoi s’en débarrasser ?

Bien souvent, le referrer spam n’est pas critique. Il fout un peu la merde dans les stats, ce qui implique un peu plus de travail lors de l’analyse de ces données.

Néanmoins, ça peut aller plus loin.

Un spam bot peut affecter vos positions dans les SERPs. En s’ajoutant par exemple à cette liste des sites qui vous font du lien que vous avez placé dans votre footer. Promouvoir des pilules de Viagra ne va pas plaire à Google…

Il n’y a pas que les stats Analytics qui sont affectées. En appellant votre page, le spam bot va aussi affecter le nombre d’affichage des bannières pub que vous avez sur votre site web…

Techniquement, le spam bot va également consommer de la ressource de votre serveur en appellant votre page web… C’est souvent minime mais « un grain de sable après l’autre et on se retrouve sur une plage ».

Enfin, on va se laisser em***der par ces con***ds de spammeurs !!!

D’abord, bloquer le referrer spam avec un .htaccess

La première façon de se débarrasser du referrer spam est de le bloquer avant qu’ils n’appellent la page web. On va se servir d’un fichier .htaccess pour faire ce sale boulot.

Voici une partie du code de mon .htaccess qui me permet de bloquer certains sites :

## referrer spam banning
RewriteCond %{HTTP_REFERER} floating-share-buttons\.com [NC,OR]
RewriteCond %{HTTP_REFERER} traffic2money\.com [NC,OR]
RewriteCond %{HTTP_REFERER} 4webmasters\.org [NC,OR]
RewriteCond %{HTTP_REFERER} success-seo\.com [NC,OR]
RewriteCond %{HTTP_REFERER} free-social-buttons\.com [NC,OR]
## etc...
RewriteCond %{HTTP_REFERER} chinese-amezon\.com [NC]
RewriteRule .* - [F]

Le flag [NC] permet à la règle de ne pas être sensible à la casse (majuscule ou minuscule). Il faut utiliser le flag [OR] dans toutes les lignes sauf la dernière (ce qui donne « ce domaine OR ce domaine OR ce domaine »).

Si tu veux une liste à jour des domaines à bloquer, tu peux aller voir celle créée par la communauté de Piwik (plateforme open source de web analytics) : liste des referrer spams.

Tu peux aussi trouver des fichiers .htaccess tout prêt pour bloquer le referrer spam. Par exemple, ce fichier de Stevie Ray.

Puis les faire disparaitre d’Analytics

Il arrive que le referrer spam frappe directement l’ID Analytics sans charger la page web. Il n’est pas bloqué par le fichier .htaccess et il faut agir directement dans l’outil de Google.

On va informer Analytics de ne plus prendre en compte les données venant du referrer spam.

Pour cela, il suffit d’aller dans Analytics, onglet « Admin ». Dans la colonne « PROPRIÉTÉ » de notre site web, on va cliquer sur « Informations de suivi » puis sur « Liste d’exclusion de sites référents ».

Il faut ensuite ajouter un à un les domaines « referrer spam ».

Pour aller un peu plus loin, tu peux utiliser les filtres d’Analytics, ce qui t’éviteras de te frapper l’ajout de ces maudits domaines un par un.

Méthode alternative : les plugins

Suivant le framework ou le CMS que tu utilises pour ton site web, tu peux utiliser des plugins ou bundles faits pour bloquer ce referrer spam. Par exemple, pour Wordpress il existe le plugin WP-Ban.

Conclusion

Le referrer spam, c’est de l’eczéma pour les sites web. On ne risque pas d’en mourir mais c’est affreusement chiant. En mettant en place un .htaccess et une modération dans Analytics, il est facile de s’en débarrasser. Alors pourquoi s’en priver ;)