Attention, ce blog est en mode archive. Il n'est plus alimenté et consultable en lecture seulement. Il se peut que certaines informations ne soient plus à jour.
Si vous souhaitez continuer à me suivre, je continuerai à bloguer d'ici quelques semaines sur le blog de SEObserver.

Une initiation concrète au cloaking

by 512banque on 14 juillet 2009

Lorsque l’on cherche des infos sur le cloaking sur Internet, souvent on trouve des articles de deux types :

  • Ceux qui traitent de la théorie du cloaking, en expliquant les intérêts, les causes et contexte historique du cloaking,
  • Ceux qui traitent d’un point hyper précis et très particulier du cloaking.

Entre les deux, vide intersidéral. Donc en gros, si vous voulez vous initier au cloaking, c’est mort pour vous. Vous êtes obligé de passer par un forum où là, on vous répondra pour peu que vous ne soyez pas un boulet et que vous partagiez.

On va la faire courte. Si vous voulez aller directement au script, scrollez.

Intérêts du cloaking

Vous allez d’abord générer du contenu « optimisé » unique, et sans vous prendre la tête à écrire. C’est ce qu’on appelle communément de la « bouillie pour robots ». Je vais d’ailleurs faire un article pour expliquer comment y parvenir. Cette bouillie étant indigeste pour un humain (avouez que ça fait pas sérieux du tout), le but du jeu va être de servir cette bouillie aux robots uniquement.

Qu’est-ce qui peut faire griller un cloaking

La seule chose qui peut vous faire sauter votre joli cloaking, est le spam report, ou bien une évolution de l’algorithme qui irait vers plus de compréhension du texte, notamment pour griller les « bouillies pour robots ».

Et la morale là-dedans ?

J’aurais dû commencer par ça. Sachez que vous allez passer du côté obscur de la force. Vous allez devenir ténébreux et inspirer la crainte rien qu’avec votre regard. Il paraîtrait même que ces mecs-là sont devenus ce qu’ils sont à force d’utiliser des techniques black hat, notamment celle du cloaking.

Non, plus sérieusement : utiliser le cloaking n’a rien d’extraordinaire en soi, cela demande juste un état d’esprit qui consiste à jouer au chat et à la souris avec Google. Cela va donc clairement à l’opposé de l’état d’esprit de ceux qui considèrent les guidelines de Google comme leur livre saint.

Googlebot est un robot. Google est une société privée qui a fixé bêtement ses propres critères pour déterminer qu’un site était gentil ou méchant, pertinent ou pas, et le fait que Google ait un quasi monopole sur les SERP, et le fait qu’elle inspire la sympathie, a provoqué chez certains un étrange phénomène qui consiste à dire que ce que réprouve Google est mal et est de la triche. Il n’y a rien de plus grave que d’utiliser les critères de Google pour déterminer ce qui est moral ou pas, bien ou mal, correct ou incorrect. Googlebot est un bête robot avec un stupide algorithme qui considère une chose comme respectable un jour, et qui la considère comme interdite le lendemain. Et nous devrions suivre cela et dire Amen en plus ?

Pour terminer là-dessus, malgré les innombrables services rendus, cette société privée a également un côté obscur, avec notamment l’aspect de la censure en Chine. Il s’agit donc d’évacuer la question de la morale lorsqu’on « cloake » et qu’on utilise des techniques black hat.

Les risques avec le cloaking

Le principal risque est tout simplement le blacklistage.

Donc utilisez le cloaking uniquement sur des sites « fusibles » dont le blacklistage ne vous émouvra pas plus que ça. Ca veut dire :

  • pas sur votre site corporate,
  • pas sur votre site qui vous rapporte de l’argent

Le cloaking est uniquement là pour doper le trafic des autres sites et injecter un peu de jus dans votre nébuleuse de sites.

L’enjeu du cloaking : identifier googlebot (et les autres bots également)

Certains parlent d’utiliser l’User-Agent (c’est-à-dire la version du navigateur qu’utilise le visiteur). C’est stupide, car rien n’est plus facile qu’émuler cela, et faire croire qu’on utilise le user-agent de google.

Non, pour identifier Google, rien de plus simple, il suffit de demander à Google directement :

http://www.google.com/support/webmasters/bin/answer.py?hl=fr&answer=80553

Voilà la réponse :

Il est possible de vérifier que le robot accédant à votre serveur est bien Googlebot en effectuant tout d’abord une résolution DNS inverse, qui permet de confirmer que le nom appartient au domaine googlebot.com, puis en réalisant une résolution DNS à l’aide de ce nom googlebot. Cela est utile si vous souhaitez éviter que des spammeurs et d’autres personnes mal intentionnées accèdent à votre site en prétendant être Googlebot (ndlr : mdr).

On va donc appliquer ce traitement de faveur aux autres robots également.

Le reverse DNS, c’est prendre une IP de type 88.111.23.555 et regarder à qui elle appartient. On obtient ainsi une IP de type :

IP: 88.163.52.120 -> Reverse DNS : ans69-1-88-163-52-120.fbx.proxad.net,  (IP humaine, je l’ai modifiée volontairement)
IP: 66.249.71.213 -> Reverse DNS : crawl-66-249-71-213.googlebot.com, (IP google)
IP: 66.249.71.213 -> Reverse DNS : crawl-66-249-71-213.googlebot.com, (IP google)

On voit que dans le reverse DNS, lorsque c’est une IP google, on trouve le mot « googlebot ». Donc assez facile à identifier.

Et si un robot passe à travers les mailles du filet ?

Et si le reverse DNS ne marche pas ? En effet, cette fonction est très longue, il peut donc y avoir un « timeout ». Cela signifie que le robot va se prendre la page standard dans la tronche. Et il va comparer avec la page pleine de bouillie qu’on lui fournissait précédemment. Et là, il ne va pas aimer.

On va donc lui envoyer un header 404 pour lui dire « la page n’existe plus », ce qui justifiera la différence de contenus entre les pages. Effectivement, c’est risqué, car une page 404 a du mal à se positionner dans les SERPs, on pourrait même se dire qu’elle va être automatiquement supprimée. En réalité, Googlebot repassera plusieurs fois sur la page pour vérifier qu’elle a bien été supprimée. On espère alors que le reverse DNS marchera à ce moment-là.
Edit contribution Chokoku : Il vaut mieux mettre un 503 (service indisponible) qu’une 404.

Le danger du cache

La version en cache de votre site internet peut vous trahir : en cliquant sur la version « en cache », n’importe qui peut voir ce que vous avez servi à Googlebot. En l’occurence, on pourra voir la bouillie infâme que vous lui avez fait avaler. Une règle d’or est donc d’ajouter une balise noindex à sa page, pour ne pas qu’elle soit enregistrée dans le cache.
<meta name= »robots » content= »noarchive »>

Le script en lui-même

Tout le mérite revient à Actulab, de qui j’ai simplement adapté le script en reprenant une astuce donnée sur le forum de seosphere.

  1. <?php
  2. $dns=gethostbyaddr($_SERVER["REMOTE_ADDR"]);
  3. $scooter=strpos($dns,"sv.av.com");
  4. $voilabot=strpos($dns,"x1crawler");
  5. $googlebot=strpos($dns,"googlebot");
  6. $msnbot=strpos($dns,"msnbot");
  7. $slurp=strpos($dns,"inktomisearch");
  8. if(($scooter!==false) || ($voilabot!==false) || ($googlebot!==false) || ($msnbot!==false)|| ($slurp!==false)) { $visiteur = "robot"; }
  9. if($visiteur!="robot") {
  10. // le visiteur est humain, lui présenter la page standard, mais avec un header 404 (page introuvable)
  11. header("HTTP/1.0 503 Service unavailable"); }
  12. else { // le visiteur un robot, lui présenter la page cloakée
  13. // bouillie optimisée
  14. }
  15. ?>

Ca ne règle pas la question des liens

Eh oui, car cloaker c’est bien mais ça ne règle pas la question des backlinks, ô combien plus importants pour positionner un site internet. On verra ça dans un prochain épisode.

Conclusion

Le cloaking, c’est prendre beaucoup de précautions pour pas grand chose. Tout l’effort déployé à se cacher serait plus efficace à essayer de produire du contenu pertinent et intéressant, ou bien à aller choper des BLs de qualité.

Ainsi, je vous présente cette technique à titre pédagogique, juste pour que vous sachiez que ça existe.

Plus d’info

http://bvwg.actulab.net/14-do-no-evil-do-cloaking.seo

http://www.actulab.com/cloaking-en-php.php

http://www.seoblackout.com/2007/12/28/cloaking-sur-ip-comment-ca-marche/

Pour ma part je pars en vacances en Turquie dans pas longtemps. Je cloakerai les loukoums sur place, en pensant à vous, lecteurs 😉

{ 30 comments }

Si vous avez trouvé ce blog via une liste de blogs dofollow, ne perdez pas votre temps, je refuse systématiquement tous les commentaires sauf ceux en valent réellement la peine ;)

Comments on this entry are closed.

Previous post:

Next post: