Attention, ce blog est en mode archive. Il n'est plus alimenté et consultable en lecture seulement. Il se peut que certaines informations ne soient plus à jour.
Si vous souhaitez continuer à me suivre, je continuerai à bloguer d'ici quelques semaines sur le blog de SEObserver.

Duplicate Content Poison – Tuez définitivement tous les copieurs

by 512banque on 23 décembre 2010

duplicate content poison

Le Duplicate Content est une vraie plaie, pour tout le monde. Autant pour les blogueurs consciencieux qui essaient de produire du contenu de qualité, que pour les personnes disposant de sites de communiqués de presse, ou celles disposant d’un (réseau de) MFA.

Copier-coller du contenu pénalise autant le copieur que le copié, et il n’y a aucun avantage à faire cela : les pages (du copieur et parfois du copié) passent dans l’index complémentaire, les backlinks perdent en qualité et en puissance, bref rien de bon.

C’est pour cela que les sites de communiqués de presse et les annuaires insistent autant sur l’importance du contenu unique lorsque vous soumettez chez eux, ce n’est pas par pur sadisme.

Oui, mais comment s’en protéger ?

Cela fait quelques mois que j’ai utilisé des solutions qui ne me convenaient jamais assez. La première solution pour « limiter les dégâts » des agrégateurs, c’est le plugin RSS Footer : il vous permet de mettre un BL vers votre site au pied de chacun de vos items RSS. C’est mieux que rien, mais souvent les agrégateurs suppriment tous les liens. Donc solution bancale.

Il y a également l’excellent et indispensable linkbuilding pro qui se charge de « truffer » votre texte de liens, en utilisant javascript. Ainsi lorsqu’un boulay copie votre texte, le plugin ajoute dans le presse-papier de la personne des BL vers vous, au sein du texte et sur des mots-clés sympa. Là, ça devient franchement pas mal car les liens changent de place et d’ancres.

Mais ça n’est pas la solution « ultime » car les scrapeurs automatiques, eux, n’ont pas javascript. Donc ils se fichent de tout ça.

Des solutions extrêmes ?

J’ai pensé à tout : afficher le texte sous forme d’image pour ne pas qu’il soit « copiable », mais ce n’était juste pas envisageable : ça diminue trop l’expérience utilisateur et ça pose la question du crawl par google : car n’oublions pas que c’est lui le principal concerné dans toute cette affaire, si on veut du contenu unique c’est juste pour lui et c’est parce que cet incapable est infichu de détecter l’original de la copie.

J’ai aussi pensé à spinner chacun de mes articles et afficher une version différente pour chaque IP qui veut afficher l’article. Du coup l’article original aurait été une sorte de « matrice d’information » dont chaque visiteur affiche une facette différente, sans véritablement savoir quel est « l’original ». Mais honnêtement, spinner chaque article ç’aurait été un boulot de malade et ça posait des problèmes de « source » : comment inclure une citation crédible si l’article change tout le temps ?

Quand vint l’illumination

Homographe, voici le mot magique. Ceux qui me suivent sur twitter ont peut-être vu cet été/à la rentrée quand j’ai fait une petite frayeur à certains de mes potos, en leur faisant croire que leur site avait été blacklisté sur Google, en me servant des homographes, suite à une découverte via un article de zorgloob.

En gros pour faire simple et rapide : certains caractères dans l’alphabet russe sont exactement identiques aux caractères français.

Je pense au а et au і .

Ces lettres, en rouge, sont des lettres en russe, pourtant vous avez parfaitement pu les lire.

Sauf que pour Google, qui est un (stupide) robot, rappelons-le, elles sont bel et bien en russe.

Allez, histoire de vous marrer un peu, testez ces différentes requêtes :

Pourtant, pour un lecteur « humain », tout est absolument identique, même via un reader ou via un contenu dupliqué ailleurs.

La suite en images

Pour que vous compreniez bien le cheminement de l’idée et l’intérêt du plugin, voici un petit diaporama à la « simpleslide »:

Il semble donc que le plugin ne soit pas le plus approprié pour les MFA, mais imaginez un peu…

Les boutiques en ligne, les blogs, les pages d’affiliation, etc…

Faîtes un test : cherchez n’importe quelle phrase de cet article sur Google, et vous verrez bien 😀

Attention les amis, n’utilisez PAS duplicate content poison avec un plugin de cache, sauf si vous pouvez interdire la mise en cache lorsque Googlebot demande la page !

Ohhhh, je veux ce plugin !

Alors inscris-toi à ma newsletter et tu recevras ce plugin dans ta boîte email instantanément (ou presque). Regarde l’effet produit.

{ 65 comments }