Le Duplicate Content est une vraie plaie, pour tout le monde. Autant pour les blogueurs consciencieux qui essaient de produire du contenu de qualité, que pour les personnes disposant de sites de communiqués de presse, ou celles disposant d’un (réseau de) MFA.
Copier-coller du contenu pénalise autant le copieur que le copié, et il n’y a aucun avantage à faire cela : les pages (du copieur et parfois du copié) passent dans l’index complémentaire, les backlinks perdent en qualité et en puissance, bref rien de bon.
C’est pour cela que les sites de communiqués de presse et les annuaires insistent autant sur l’importance du contenu unique lorsque vous soumettez chez eux, ce n’est pas par pur sadisme.
Oui, mais comment s’en protéger ?
Cela fait quelques mois que j’ai utilisé des solutions qui ne me convenaient jamais assez. La première solution pour « limiter les dégâts » des agrégateurs, c’est le plugin RSS Footer : il vous permet de mettre un BL vers votre site au pied de chacun de vos items RSS. C’est mieux que rien, mais souvent les agrégateurs suppriment tous les liens. Donc solution bancale.
Il y a également l’excellent et indispensable linkbuilding pro qui se charge de « truffer » votre texte de liens, en utilisant javascript. Ainsi lorsqu’un boulay copie votre texte, le plugin ajoute dans le presse-papier de la personne des BL vers vous, au sein du texte et sur des mots-clés sympa. Là, ça devient franchement pas mal car les liens changent de place et d’ancres.
Mais ça n’est pas la solution « ultime » car les scrapeurs automatiques, eux, n’ont pas javascript. Donc ils se fichent de tout ça.
Des solutions extrêmes ?
J’ai pensé à tout : afficher le texte sous forme d’image pour ne pas qu’il soit « copiable », mais ce n’était juste pas envisageable : ça diminue trop l’expérience utilisateur et ça pose la question du crawl par google : car n’oublions pas que c’est lui le principal concerné dans toute cette affaire, si on veut du contenu unique c’est juste pour lui et c’est parce que cet incapable est infichu de détecter l’original de la copie.
J’ai aussi pensé à spinner chacun de mes articles et afficher une version différente pour chaque IP qui veut afficher l’article. Du coup l’article original aurait été une sorte de « matrice d’information » dont chaque visiteur affiche une facette différente, sans véritablement savoir quel est « l’original ». Mais honnêtement, spinner chaque article ç’aurait été un boulot de malade et ça posait des problèmes de « source » : comment inclure une citation crédible si l’article change tout le temps ?
Quand vint l’illumination
Homographe, voici le mot magique. Ceux qui me suivent sur twitter ont peut-être vu cet été/à la rentrée quand j’ai fait une petite frayeur à certains de mes potos, en leur faisant croire que leur site avait été blacklisté sur Google, en me servant des homographes, suite à une découverte via un article de zorgloob.
En gros pour faire simple et rapide : certains caractères dans l’alphabet russe sont exactement identiques aux caractères français.
Je pense au а et au і .
Ces lettres, en rouge, sont des lettres en russe, pourtant vous avez parfaitement pu les lire.
Sauf que pour Google, qui est un (stupide) robot, rappelons-le, elles sont bel et bien en russe.
Allez, histoire de vous marrer un peu, testez ces différentes requêtes :
Pourtant, pour un lecteur « humain », tout est absolument identique, même via un reader ou via un contenu dupliqué ailleurs.
La suite en images
Pour que vous compreniez bien le cheminement de l’idée et l’intérêt du plugin, voici un petit diaporama à la « simpleslide »:
Il semble donc que le plugin ne soit pas le plus approprié pour les MFA, mais imaginez un peu…
Les boutiques en ligne, les blogs, les pages d’affiliation, etc…
Faîtes un test : cherchez n’importe quelle phrase de cet article sur Google, et vous verrez bien
Attention les amis, n’utilisez PAS duplicate content poison avec un plugin de cache, sauf si vous pouvez interdire la mise en cache lorsque Googlebot demande la page !
Ohhhh, je veux ce plugin !
Alors inscris-toi à ma newsletter et tu recevras ce plugin dans ta boîte email instantanément (ou presque). Regarde l’effet produit.





{ 65 comments }
← Previous Comments
Une petite amélioration à prévoir: les majuscules
Encore merci pour ce script !
gdtsb@gain-de-temps´s last [type] ..Arrêtez d’imprimer !
Alors là chapeau! Je pense que même en passant 60ans non stop derrière mon pc, je n’aurais pas pensé à une telle technique.
A la suite de quoi t’es tu retrouvé à penser à prendre des caractères étrangers mais ressemblant aux nôtres pour les remplacer?
en tout cas, vraiment bien trouvé
DemonBlack@technique black hat´s last [type] ..Gagner de l’argent facilement grâce au « E-Whoring »
La meilleure solution reste de ne rien publier du tout. Captcha, lettres dans d’autres charset, finalement la seule chose que l’on fait est de détruire son propre texte.
Qui dit texte détruit, dit utilisateurs qui se détournent vers d’autres sources d’informations.
De plus google translate ne semble pas trop aimer cette approche…
Intéressante technique, le duplicate content est l’une des bêtes noires des référenceurs soucieux du bon positionnement … Merci d’avoir partager cette technique, reste à voir s’il un réel impact se fait sentir en utilisant cette technique …
Macoumba@micro-paiement´s last [type] ..StarPass vous souhaite une bonne année 2011
Du bon esprit BH appliqué à une technique positive de référencement.
J’aime cet esprit !
MagicYoyo@Emploi-web´s last [type] ..Développeur
Un peu la flemme de lire les derniers commentaires, est-ce que quelqu’un as des retours Yahoo / Bing (ou autres problèmes liés au cloaking – AdSense bot etc.) ?
512banque, en tout cas, tes slides m’ont bien faites délirer !
Le découverte fait son bonhomme de chemin. Je me réjouis de voir si on va voir débouler une pluie de scripts basés sur le concept. Ça serait le bienvenu.
Thanks 512banque !
Faut que je débloque une tite tranche horaire pour faire mumuse avec des homographes.
C’est juste énorme cette technique…
Bravo, j’ai adoré le slide aussi
Très bonne idée en effet pour eviter le DC mais….
Ton truc va aussi jouer dans les short code
Je viens de passer 2 heures à chercher ce qui clochais sur mon site !!!
Viralyser utilise les short code pour personnaliser les liens affiliés sur mon blog et le short code ressemble à ça [viralyser code=paypal], grâce à ton plugin il s’affichait comme ça !
Bon je sais ont pense pas toujours à tout du premier coup
Donc pour l’instant DCP est désactivé, si tu modifie pour ne pas allez dans les short code fais moi signe.
Erick@Viralyser´s last [type] ..Effacer un code
Merci pour ce retour Erick, je vais faire les modifs nécessaires rapidement.
Vicieux à dire vrai mais tellement bon
En revanche, cette histoire de cache pose tout de même un réel problème. Quel CMS aujourd’hui ne met pas ses pages en cache, ne serait-ce que pour pouvoir justement les servir plus vite en en prenant pas la peine de les recompiler à chaque hit quand aucune partie de la page ne change ?
Le principe serait peut être plutôt de laisser le vrai article se mettre en cache et d’utiliser une moulinette JS pour opérer la conversion en homographes côté client non ?
Bon bien sûr ca n’arretera pas les scrapper mais à défaut ca limitera quand même pas mal la casse face aux petits malins qui le font à la mano non ?
Le redneck est lui même un boulay, sinon, tout les témoignages de Delichyeus Cadavéwre sont en anglais. Je vais bien m’inscrire pour recevoir de petit bout de choux
Yuxx@Fajr Breeze´s last [type] ..جنون ليل في شاطئ بحر
Toujours aussi tordu, mais à chaque fois encore plus ingénieux !!! Merci
Du BH, oui, mais qui sert a tout le monde et dont l’usage est honorable
Cyril@développeur´s last [type] ..Editeur web en ligne
Enorme! Il fallait y penser! Je pense que je vais tester ça le plus vite possible. Merci
Je viens de recevoir le plugin. Pas encore testé mais je suis impatient. Au passage, chapeau pour la vidéo
. Il fallait le faire. C’est qui ce mec sur la vidéo ?
Rodger@Blog E-commerce´s last [type] ..Astuce e-commerce – ne mettez pas le nom de vos produits dans l’URL
← Previous Comments
Si vous avez trouvé ce blog via une liste de blogs dofollow, ne perdez pas votre temps, je refuse systématiquement tous les commentaires sauf ceux en valent réellement la peine ;)
Comments on this entry are closed.