Duplicate Content Poison – Tuez définitivement tous les copieurs

by 512banque on 23 décembre 2010

duplicate content poison

Le Duplicate Content est une vraie plaie, pour tout le monde. Autant pour les blogueurs consciencieux qui essaient de produire du contenu de qualité, que pour les personnes disposant de sites de communiqués de presse, ou celles disposant d’un (réseau de) MFA.

Copier-coller du contenu pénalise autant le copieur que le copié, et il n’y a aucun avantage à faire cela : les pages (du copieur et parfois du copié) passent dans l’index complémentaire, les backlinks perdent en qualité et en puissance, bref rien de bon.

C’est pour cela que les sites de communiqués de presse et les annuaires insistent autant sur l’importance du contenu unique lorsque vous soumettez chez eux, ce n’est pas par pur sadisme.

Oui, mais comment s’en protéger ?

Cela fait quelques mois que j’ai utilisé des solutions qui ne me convenaient jamais assez. La première solution pour « limiter les dégâts » des agrégateurs, c’est le plugin RSS Footer : il vous permet de mettre un BL vers votre site au pied de chacun de vos items RSS. C’est mieux que rien, mais souvent les agrégateurs suppriment tous les liens. Donc solution bancale.

Il y a également l’excellent et indispensable linkbuilding pro qui se charge de « truffer » votre texte de liens, en utilisant javascript. Ainsi lorsqu’un boulay copie votre texte, le plugin ajoute dans le presse-papier de la personne des BL vers vous, au sein du texte et sur des mots-clés sympa. Là, ça devient franchement pas mal car les liens changent de place et d’ancres.

Mais ça n’est pas la solution « ultime » car les scrapeurs automatiques, eux, n’ont pas javascript. Donc ils se fichent de tout ça.

Des solutions extrêmes ?

J’ai pensé à tout : afficher le texte sous forme d’image pour ne pas qu’il soit « copiable », mais ce n’était juste pas envisageable : ça diminue trop l’expérience utilisateur et ça pose la question du crawl par google : car n’oublions pas que c’est lui le principal concerné dans toute cette affaire, si on veut du contenu unique c’est juste pour lui et c’est parce que cet incapable est infichu de détecter l’original de la copie.

J’ai aussi pensé à spinner chacun de mes articles et afficher une version différente pour chaque IP qui veut afficher l’article. Du coup l’article original aurait été une sorte de « matrice d’information » dont chaque visiteur affiche une facette différente, sans véritablement savoir quel est « l’original ». Mais honnêtement, spinner chaque article ç’aurait été un boulot de malade et ça posait des problèmes de « source » : comment inclure une citation crédible si l’article change tout le temps ?

Quand vint l’illumination

Homographe, voici le mot magique. Ceux qui me suivent sur twitter ont peut-être vu cet été/à la rentrée quand j’ai fait une petite frayeur à certains de mes potos, en leur faisant croire que leur site avait été blacklisté sur Google, en me servant des homographes, suite à une découverte via un article de zorgloob.

En gros pour faire simple et rapide : certains caractères dans l’alphabet russe sont exactement identiques aux caractères français.

Je pense au а et au і .

Ces lettres, en rouge, sont des lettres en russe, pourtant vous avez parfaitement pu les lire.

Sauf que pour Google, qui est un (stupide) robot, rappelons-le, elles sont bel et bien en russe.

Allez, histoire de vous marrer un peu, testez ces différentes requêtes :

Pourtant, pour un lecteur « humain », tout est absolument identique, même via un reader ou via un contenu dupliqué ailleurs.

La suite en images

Pour que vous compreniez bien le cheminement de l’idée et l’intérêt du plugin, voici un petit diaporama à la « simpleslide »:

Il semble donc que le plugin ne soit pas le plus approprié pour les MFA, mais imaginez un peu…

Les boutiques en ligne, les blogs, les pages d’affiliation, etc…

Faîtes un test : cherchez n’importe quelle phrase de cet article sur Google, et vous verrez bien :D

Attention les amis, n’utilisez PAS duplicate content poison avec un plugin de cache, sauf si vous pouvez interdire la mise en cache lorsque Googlebot demande la page !

Ohhhh, je veux ce plugin !

Alors inscris-toi à ma newsletter et tu recevras ce plugin dans ta boîte email instantanément (ou presque). Regarde l’effet produit.

{ 65 comments }

gdtsb de gain-de-temps décembre 28, 2010 à 11:27

Une petite amélioration à prévoir: les majuscules ;)
Encore merci pour ce script !
gdtsb@gain-de-temps´s last [type] ..Arrêtez d’imprimer !

DemonBlack de technique black hat décembre 29, 2010 à 19:31

Alors là chapeau! Je pense que même en passant 60ans non stop derrière mon pc, je n’aurais pas pensé à une telle technique.
A la suite de quoi t’es tu retrouvé à penser à prendre des caractères étrangers mais ressemblant aux nôtres pour les remplacer?
en tout cas, vraiment bien trouvé ;)
DemonBlack@technique black hat´s last [type] ..Gagner de l’argent facilement grâce au « E-Whoring »

ygod de mcommentluv décembre 30, 2010 à 12:29

La meilleure solution reste de ne rien publier du tout. Captcha, lettres dans d’autres charset, finalement la seule chose que l’on fait est de détruire son propre texte.

Qui dit texte détruit, dit utilisateurs qui se détournent vers d’autres sources d’informations.

De plus google translate ne semble pas trop aimer cette approche…

Macoumba de micro-paiement janvier 3, 2011 à 13:25

Intéressante technique, le duplicate content est l’une des bêtes noires des référenceurs soucieux du bon positionnement … Merci d’avoir partager cette technique, reste à voir s’il un réel impact se fait sentir en utilisant cette technique …
Macoumba@micro-paiement´s last [type] ..StarPass vous souhaite une bonne année 2011

MagicYoyo de Emploi-web janvier 5, 2011 à 9:45

Du bon esprit BH appliqué à une technique positive de référencement.
J’aime cet esprit !
MagicYoyo@Emploi-web´s last [type] ..Développeur

Nico de annuaire janvier 12, 2011 à 1:56

Un peu la flemme de lire les derniers commentaires, est-ce que quelqu’un as des retours Yahoo / Bing (ou autres problèmes liés au cloaking – AdSense bot etc.) ?

512banque, en tout cas, tes slides m’ont bien faites délirer ! :D
Le découverte fait son bonhomme de chemin. Je me réjouis de voir si on va voir débouler une pluie de scripts basés sur le concept. Ça serait le bienvenu.
Thanks 512banque !

Faut que je débloque une tite tranche horaire pour faire mumuse avec des homographes.

Mickael B. janvier 16, 2011 à 22:51

C’est juste énorme cette technique…
Bravo, j’ai adoré le slide aussi ;)

Erick de Viralyser janvier 27, 2011 à 18:28

Très bonne idée en effet pour eviter le DC mais….

Ton truc va aussi jouer dans les short code :(

Je viens de passer 2 heures à chercher ce qui clochais sur mon site !!!

Viralyser utilise les short code pour personnaliser les liens affiliés sur mon blog et le short code ressemble à ça [viralyser code=paypal], grâce à ton plugin il s’affichait comme ça !

Bon je sais ont pense pas toujours à tout du premier coup :)

Donc pour l’instant DCP est désactivé, si tu modifie pour ne pas allez dans les short code fais moi signe.
Erick@Viralyser´s last [type] ..Effacer un code

512banque janvier 27, 2011 à 18:57

Merci pour ce retour Erick, je vais faire les modifs nécessaires rapidement.

Loiseau2nuit de Black Hat Wanabee février 2, 2011 à 14:38

Vicieux à dire vrai mais tellement bon :-D

En revanche, cette histoire de cache pose tout de même un réel problème. Quel CMS aujourd’hui ne met pas ses pages en cache, ne serait-ce que pour pouvoir justement les servir plus vite en en prenant pas la peine de les recompiler à chaque hit quand aucune partie de la page ne change ?

Le principe serait peut être plutôt de laisser le vrai article se mettre en cache et d’utiliser une moulinette JS pour opérer la conversion en homographes côté client non ?

Bon bien sûr ca n’arretera pas les scrapper mais à défaut ca limitera quand même pas mal la casse face aux petits malins qui le font à la mano non ?

Yuxx de Fajr Breeze février 7, 2011 à 15:33

Le redneck est lui même un boulay, sinon, tout les témoignages de Delichyeus Cadavéwre sont en anglais. Je vais bien m’inscrire pour recevoir de petit bout de choux :D
Yuxx@Fajr Breeze´s last [type] ..جنون ليل في شاطئ بحر

Mamzelle Print de Imprimerie en ligne mars 3, 2011 à 15:54

Toujours aussi tordu, mais à chaque fois encore plus ingénieux !!! Merci

Cyril de développeur mars 14, 2011 à 9:43

Du BH, oui, mais qui sert a tout le monde et dont l’usage est honorable :D
Cyril@développeur´s last [type] ..Editeur web en ligne

axel de magazine musique mars 15, 2011 à 15:28

Enorme! Il fallait y penser! Je pense que je vais tester ça le plus vite possible. Merci

Rodger de Blog E-commerce juin 3, 2011 à 7:14

Je viens de recevoir le plugin. Pas encore testé mais je suis impatient. Au passage, chapeau pour la vidéo :) . Il fallait le faire. C’est qui ce mec sur la vidéo ?
Rodger@Blog E-commerce´s last [type] ..Astuce e-commerce – ne mettez pas le nom de vos produits dans l’URL

Si vous avez trouvé ce blog via une liste de blogs dofollow, ne perdez pas votre temps, je refuse systématiquement tous les commentaires sauf ceux en valent réellement la peine ;)

Comments on this entry are closed.

Previous post:

Next post: