Une initiation concrète au cloaking

by 512banque on 14 juillet 2009

Lorsque l’on cherche des infos sur le cloaking sur Internet, souvent on trouve des articles de deux types :

  • Ceux qui traitent de la théorie du cloaking, en expliquant les intérêts, les causes et contexte historique du cloaking,
  • Ceux qui traitent d’un point hyper précis et très particulier du cloaking.

Entre les deux, vide intersidéral. Donc en gros, si vous voulez vous initier au cloaking, c’est mort pour vous. Vous êtes obligé de passer par un forum où là, on vous répondra pour peu que vous ne soyez pas un boulet et que vous partagiez.

On va la faire courte. Si vous voulez aller directement au script, scrollez.

Intérêts du cloaking

Vous allez d’abord générer du contenu « optimisé » unique, et sans vous prendre la tête à écrire. C’est ce qu’on appelle communément de la « bouillie pour robots ». Je vais d’ailleurs faire un article pour expliquer comment y parvenir. Cette bouillie étant indigeste pour un humain (avouez que ça fait pas sérieux du tout), le but du jeu va être de servir cette bouillie aux robots uniquement.

Qu’est-ce qui peut faire griller un cloaking

La seule chose qui peut vous faire sauter votre joli cloaking, est le spam report, ou bien une évolution de l’algorithme qui irait vers plus de compréhension du texte, notamment pour griller les « bouillies pour robots ».

Et la morale là-dedans ?

J’aurais dû commencer par ça. Sachez que vous allez passer du côté obscur de la force. Vous allez devenir ténébreux et inspirer la crainte rien qu’avec votre regard. Il paraîtrait même que ces mecs-là sont devenus ce qu’ils sont à force d’utiliser des techniques black hat, notamment celle du cloaking.

Non, plus sérieusement : utiliser le cloaking n’a rien d’extraordinaire en soi, cela demande juste un état d’esprit qui consiste à jouer au chat et à la souris avec Google. Cela va donc clairement à l’opposé de l’état d’esprit de ceux qui considèrent les guidelines de Google comme leur livre saint.

Googlebot est un robot. Google est une société privée qui a fixé bêtement ses propres critères pour déterminer qu’un site était gentil ou méchant, pertinent ou pas, et le fait que Google ait un quasi monopole sur les SERP, et le fait qu’elle inspire la sympathie, a provoqué chez certains un étrange phénomène qui consiste à dire que ce que réprouve Google est mal et est de la triche. Il n’y a rien de plus grave que d’utiliser les critères de Google pour déterminer ce qui est moral ou pas, bien ou mal, correct ou incorrect. Googlebot est un bête robot avec un stupide algorithme qui considère une chose comme respectable un jour, et qui la considère comme interdite le lendemain. Et nous devrions suivre cela et dire Amen en plus ?

Pour terminer là-dessus, malgré les innombrables services rendus, cette société privée a également un côté obscur, avec notamment l’aspect de la censure en Chine. Il s’agit donc d’évacuer la question de la morale lorsqu’on « cloake » et qu’on utilise des techniques black hat.

Les risques avec le cloaking

Le principal risque est tout simplement le blacklistage.

Donc utilisez le cloaking uniquement sur des sites « fusibles » dont le blacklistage ne vous émouvra pas plus que ça. Ca veut dire :

  • pas sur votre site corporate,
  • pas sur votre site qui vous rapporte de l’argent

Le cloaking est uniquement là pour doper le trafic des autres sites et injecter un peu de jus dans votre nébuleuse de sites.

L’enjeu du cloaking : identifier googlebot (et les autres bots également)

Certains parlent d’utiliser l’User-Agent (c’est-à-dire la version du navigateur qu’utilise le visiteur). C’est stupide, car rien n’est plus facile qu’émuler cela, et faire croire qu’on utilise le user-agent de google.

Non, pour identifier Google, rien de plus simple, il suffit de demander à Google directement :

http://www.google.com/support/webmasters/bin/answer.py?hl=fr&answer=80553

Voilà la réponse :

Il est possible de vérifier que le robot accédant à votre serveur est bien Googlebot en effectuant tout d’abord une résolution DNS inverse, qui permet de confirmer que le nom appartient au domaine googlebot.com, puis en réalisant une résolution DNS à l’aide de ce nom googlebot. Cela est utile si vous souhaitez éviter que des spammeurs et d’autres personnes mal intentionnées accèdent à votre site en prétendant être Googlebot (ndlr : mdr).

On va donc appliquer ce traitement de faveur aux autres robots également.

Le reverse DNS, c’est prendre une IP de type 88.111.23.555 et regarder à qui elle appartient. On obtient ainsi une IP de type :

IP: 88.163.52.120 -> Reverse DNS : ans69-1-88-163-52-120.fbx.proxad.net,  (IP humaine, je l’ai modifiée volontairement)
IP: 66.249.71.213 -> Reverse DNS : crawl-66-249-71-213.googlebot.com, (IP google)
IP: 66.249.71.213 -> Reverse DNS : crawl-66-249-71-213.googlebot.com, (IP google)

On voit que dans le reverse DNS, lorsque c’est une IP google, on trouve le mot « googlebot ». Donc assez facile à identifier.

Et si un robot passe à travers les mailles du filet ?

Et si le reverse DNS ne marche pas ? En effet, cette fonction est très longue, il peut donc y avoir un « timeout ». Cela signifie que le robot va se prendre la page standard dans la tronche. Et il va comparer avec la page pleine de bouillie qu’on lui fournissait précédemment. Et là, il ne va pas aimer.

On va donc lui envoyer un header 404 pour lui dire « la page n’existe plus », ce qui justifiera la différence de contenus entre les pages. Effectivement, c’est risqué, car une page 404 a du mal à se positionner dans les SERPs, on pourrait même se dire qu’elle va être automatiquement supprimée. En réalité, Googlebot repassera plusieurs fois sur la page pour vérifier qu’elle a bien été supprimée. On espère alors que le reverse DNS marchera à ce moment-là.
Edit contribution Chokoku : Il vaut mieux mettre un 503 (service indisponible) qu’une 404.

Le danger du cache

La version en cache de votre site internet peut vous trahir : en cliquant sur la version « en cache », n’importe qui peut voir ce que vous avez servi à Googlebot. En l’occurence, on pourra voir la bouillie infâme que vous lui avez fait avaler. Une règle d’or est donc d’ajouter une balise noindex à sa page, pour ne pas qu’elle soit enregistrée dans le cache.
<meta name= »robots » content= »noarchive »>

Le script en lui-même

Tout le mérite revient à Actulab, de qui j’ai simplement adapté le script en reprenant une astuce donnée sur le forum de seosphere.

  1. <?php
  2. $dns=gethostbyaddr($_SERVER["REMOTE_ADDR"]);
  3. $scooter=strpos($dns,"sv.av.com");
  4. $voilabot=strpos($dns,"x1crawler");
  5. $googlebot=strpos($dns,"googlebot");
  6. $msnbot=strpos($dns,"msnbot");
  7. $slurp=strpos($dns,"inktomisearch");
  8. if(($scooter!==false) || ($voilabot!==false) || ($googlebot!==false) || ($msnbot!==false)|| ($slurp!==false)) { $visiteur = "robot"; }
  9. if($visiteur!="robot") {
  10. // le visiteur est humain, lui présenter la page standard, mais avec un header 404 (page introuvable)
  11. header("HTTP/1.0 503 Service unavailable"); }
  12. else { // le visiteur un robot, lui présenter la page cloakée
  13. // bouillie optimisée
  14. }
  15. ?>

Ca ne règle pas la question des liens

Eh oui, car cloaker c’est bien mais ça ne règle pas la question des backlinks, ô combien plus importants pour positionner un site internet. On verra ça dans un prochain épisode.

Conclusion

Le cloaking, c’est prendre beaucoup de précautions pour pas grand chose. Tout l’effort déployé à se cacher serait plus efficace à essayer de produire du contenu pertinent et intéressant, ou bien à aller choper des BLs de qualité.

Ainsi, je vous présente cette technique à titre pédagogique, juste pour que vous sachiez que ça existe.

Plus d’info

http://bvwg.actulab.net/14-do-no-evil-do-cloaking.seo

http://www.actulab.com/cloaking-en-php.php

http://www.seoblackout.com/2007/12/28/cloaking-sur-ip-comment-ca-marche/

Pour ma part je pars en vacances en Turquie dans pas longtemps. Je cloakerai les loukoums sur place, en pensant à vous, lecteurs ;)

Autres billets liés

{ 30 comments… read them below or add one }

Chocoku juillet 14, 2009 à 12:51

Au lieu d’envoyer une 404, envoie une 503…

512banque juillet 14, 2009 à 13:16

Oui, c’est vrai en fait, ce serait moins risqué. J’édite ça, merci.

lemoussel juillet 14, 2009 à 16:39

J’aurais plutôt envoyée une 302 et on peut aussi procéder de la manière suivante :

Détection reverse DNS :
———————–
preg_match(« /crawl-66-249-[\d]{1,3}-[\d]{1,3}\.googlebot\.com/ », $dns)

Détection adresse IP Google :
—————————–
preg_match(« /66\.249\.[\d]{1,3}\.[\d]{1,3}/ », $ip)
avec $ip = strval($_SERVER['REMOTE_ADDR'])

lemoussel juillet 14, 2009 à 16:42
Bingo juillet 14, 2009 à 16:57

Merci article très intéressant :)

ReferenSEO août 13, 2009 à 20:33

Je connaissais déjà le cloaking mais je ne l’ai jamais utilisé de peur de voir mes sites blacklistés.
Sur des sites persos, ce ne serait pas grave, mais pour des sites professionnels, être privé d’apparaître dans les SERP pourrait être catastrophique, je préfère donc éviter les techniques black hat même si elles s’avèrent souvent très efficaces.

Très bonne présentation de la technique en tout cas :)

Guy Labbé septembre 3, 2009 à 14:43

Très efficace, merci :) J’imagine qu’il faut absolument balancer un script maison (et non pas un CMS genre WP).

Une question: Si vous générez des centaines (voire des milliers) de pages avec de la bouillie de texte, progressivement (voire depuis avec fils RSS scrappés puis moulinés), si le visiteur n’est pas Google vous présentez disons une seule page avec du contenu en rapport avec le domaine, sans plus?

512banque septembre 3, 2009 à 15:03

Oui, moi c’est ce que je fais :)
C’est un peu crade, mais je n’ai pas mieux pour l’instant…

Guy Labbé septembre 3, 2009 à 15:12

Bin en fait … tu t’en fous, non? ;)

Jveux dire … Tu ramasse du traffic depuis Google pour tes milliers de pages indexées (bouillie de texte), quand on clique l’URL reste la meme mais si tes un user normal tu vois tjs la meme page. Ou encore, ça redirige vers une page avec 500-600 mots de contenu qui a l’air crédible et surtout qui a de la pub!

Au fait… ça se fait d’utiliser le cloacking pour pusher de la pub (une MFA dans le fond, mais assez puissante puisque très indexée) ? Si oui tu préconises quoi comme régie, pas AdSense j’imagine?

Et 3e question sais-tu où acheter un hosting pas trop cher car tout ce que je trouve c’est toujours au moins 25 $ ;)

Merci encore pour ton article génial. Il faut qu’on se serve intelligemment et avec parcimonie de ce bon savoir juteux ;)

512banque septembre 3, 2009 à 16:48

Oui sur le fond tu as raison. Le type tombe toujours sur la même page type.

Pour ton autre question : jamais de Adsense avec du cloaking !!! Même en changeant de nom, de pays et de sexe, google te retrouvera !

Arf, les hostings… à l’époque je prenais un hébergement gratuit Start1M chez ovh, et je centralisais tout sur une base de données distante (très très crade, mais ça marchait)…

Si t’as des scripts à faire tourner, n’hésite pas à les partager ici (ou sur mon email ;) -> mon pseudo @ gmail.com)

Guy Labbé septembre 3, 2009 à 17:06

Oui j’en ai un pas mal, fera peut etre l,objet d’un article sur mon blogue ou sinon je vais te l’envoyer par mail quand il sera prêt et testé ;)

Outre Adsense t’en connais avec qui ca marche bien et qui sont pas trop rgardant? javais pensé a yahoo

Guy Labbé septembre 3, 2009 à 17:14

Si je fais un article je te ferai un très joli backlink c’Est promis

512banque septembre 3, 2009 à 17:32

Moi je ferais uniquement de l’affil sur ce genre de sites… Le but avec ces sites cloakés, c’est pas vraiment de les monétiser, mais plutôt de s’en servir pour faire monter d’autres sites :) Cf la pyramide de backlinks.

Avec plaisir pour le joli backlink :D
Et hésite pas à l’envoyer par mail ;)

Guy Labbé septembre 3, 2009 à 17:47

Donc … à priori, tu genere full pages avec ton cloacking, desquelles tu link dautres pages? mais si ton site cloacké n’a pas enormement de backlinks ça donne tout de meme qqch?

Ca na pas de potentiel du cote de laffiliatioN?

Guy Labbé septembre 3, 2009 à 19:03

oh je viens de penser à un truc… tu fous quoi avec tes title de pages cloackées ? ;) C un peu delicat de copier le title des pages volées :P

512banque septembre 3, 2009 à 20:31

Non non, je mets un title optimisé pour une expression en particulier. De toute façon, le cloaking proposera du contenu (dégueulasse) unique au robot, dopé en disséminant çà et là des mots clés.
Donc logiquement, je mets le title en cohérence avec l’expression visée :)

Guy Labbé septembre 3, 2009 à 20:34

Ok y’a qu’à réécrire à la main les titres des thématiques des pages scrappées dans le fond ;)
je viens de mettre ma bouillie en ligne avec 5 pages markové voir sque ca va donner ;)

Guy Labbé septembre 3, 2009 à 20:39

Y’a moyen de vérifier si Google est capable de crawler nos pages cloackées? Car bref quand t’es pas Google c’est dur detre certain que lui il y arrive… meme si en local tu traffiques pour voir ce qui est affiché

lemoussel septembre 4, 2009 à 6:21

« Guy Labbé » et 512banque, je serais intéressé par une petite explication sur cette technique des chaines de Markov pour faire du contenu unique :)

512banque septembre 4, 2009 à 9:34
blackboy octobre 6, 2009 à 8:05

Le problème avec le cloaking c’est que gg a dés accords avec les FAI et qu’il passe par des ip orange etc… pour crawler de manière anonyme.

Si il détecte une différence entre les pages du coup il va faire sonner l’alerte.
Idem, systématiquement lui filer un 404 ou un 503 uniquement quand il est là en « piou » va probablement attirer son attention.

512banque octobre 6, 2009 à 21:13

blackboy, as tu une preuve de ce que tu avances, ou au moins un témoignage ?

blackboy octobre 9, 2009 à 17:08

Je n’ai aucune preuve matériel mais j’ai lu a plusieurs reprise ce genre d’affirmation et j’ai constaté qu’un test que j’ai fait c’est mal passé.

J’avais du contenu réservé aux abonnés qui était très pertinent alors j’ai générés une page pour chaque fiche et me servant de ses pages pour booster les bl interne avec de bonnes ancres.
L’accès aux pages était contrôlé par un script similaire a celui évoqué ici.
Quand un robot passait par là on lui laissait l’accès à la page, quand un humain arrivait sur la page je le renvoyais vers une 402 paiement requis et google a fini par désindéxé toutes les pages concernés et les pages ne génère aucun trafic.

Guy Labbé octobre 9, 2009 à 17:12

Ton cache était-il désactivé avec la méta?

blackboy octobre 9, 2009 à 17:18

D’ailleurs il suffit de consulter la page de demo sur le cloaking de actulab pour voir que j’ai raison.

La page en question est ici : http://www.actulab.net/demo-cloaking.php

En recherchant une partie du texte dans google on voix que la page n’est pas référencé ou en tout cas surtout pas en 1ere page :

http://www.google.fr/search?hl=fr&client=firefox-a&rls=org.mozilla%3Afr%3Aofficial&hs=SGd&q=Vous+voyez+donc+la+version+cloak%C3%A9e+de+cette+page%2C+r%C3%A9serv%C3%A9e+%C3%A0+Googlebot+%28le+robot+de+Google%29+et+aux+petits+malins+qui+empruntent+son+user-agent%3B%29+&btnG=Rechercher&meta=

Ne revez pas le cloaking ça ne marche plus et de toute façon le contenue de la page ne représente que 30% du référencement alors que les bl représentent 70% je ne peut que vous conseiller de soigner vos bl. Au pire pour rester blackhat utiliser la technique présenté sur ce site.

512banque octobre 9, 2009 à 19:05

Et moi je dis que j’ai un site plutôt bien placé en haut de 2eme page, cloaké à mort, et qui reste :)

Le cloaking saute sur dénonciation, et le user agent n’est certainement pas un moyen pérenne ni fiable de cloaker…

La page d’actulab se base sur l’UA à des fins pédagogiques

Guy Labbé octobre 9, 2009 à 19:07

Bin ça peut arriver que tu te fasse griller un site. Mais moi je pense que ça marche encore assez bien

blackboy octobre 14, 2009 à 8:04

Et tu renvois une 503 au visiteur non bot ?
Surprenant, comme je l’ai dit plus haut j’ai du contenue réservé aux abonnés que je laisse crawler et du coup les pages ont été désindexé progressivement.

Graphic designer octobre 14, 2009 à 12:05

Nope en fait je fais juste toujours afficher le même contenu pour le visiteur normal non-bot :)

patrenet novembre 23, 2009 à 10:53

Petite remarque : « Une règle d’or est donc d’ajouter une balise noindex à sa page, pour ne pas qu’elle soit enregistrée dans le cache.
 »

On sait maintenant que Google ne tient pas compte de sa propre recommandation « noarchive »… Du coup les pages en cache sont un réel danger…

Si vous avez trouvé ce blog via une liste de blogs dofollow, ne perdez pas votre temps, je refuse systématiquement tous les commentaires sauf ceux en valent réellement la peine ;)

Leave a Comment

Previous post:

Next post: