Définition de Spider Trap


 

Définition de Spider Trap :

definition-spider-trap.pngUn Spider Trap (pour « piège à robots ») est un phénomène qui trompe, de façon intentionnelle ou pas, les robots des moteurs de recherche en générant des boucles infinies ne permettant pas à ces outils de bien explorer un site web.

 

Les robots des moteurs de recherche ont pour vocation d’explorer (crawler) des sites web. Mais il leur arrive parfois de tomber dans des « pièges » tendus de façon plus ou moins volontaire. C’est ce que l’on appelle les « spider traps »…

Un Spider Trap correspond donc à un phénomène le plus souvent de boucle infinie : le robot, lors de son crawl, va boucler sur lui-même constamment et ne plus pouvoir explorer le site en question dans de bonnes conditions. Un Spider Trap peut être créé, le plus souvent de façon involontaire, de plusieurs façons. En voici quelques exemples :

  • Lien dans un calendrier vers « jour suivant » et « jour précédent », sans fin ni limite ;
  • Création d’URL rajoutant des répertoires en boucle (http://example.com/bar/foo/bar/foo/bar/foo/bar/…) ;
  • Navigation à facettes sur une boutique e-commerce, créant des centaines de milliers de combinaisons possibles ;
  • Identifiants de sessions différents à chaque visite (donc à chaque visite d’un robot) ;
  • Etc.

Le Spider Trap peut même « planter » un robot qui serait conçu de façon peu professionnelle (ce qui n’est bien sûr pas le cas des principaux spiders comme Googlebot ou Bingbot).

Un Spider Trap peut d’ailleurs être conçu de façon volontaire, par exemple pour combattre des robots de spam ne respectant pas le fichier robots.txt, en étant placé dans des zones normalement interdites à ces outils d’exploration. Le robot non désiré viendra alors explorer la zone en question et tombera dans le « piège »…

spider-trap
Etude sur le trafic des robots sur le Web en 2016 (source).
De nombreux robots mériteraient de passer à la « trap »….

Voici également quelques liens pour aller plus loin sur le sujet :

Et 2 vidéos de Google et Abondance qui vous en disent un peu plus sur le fonctionnement des robots (ou spiders) des moteurs de recherche :


Spiders, Robots, Crawlers : comment ça marche ? (Abondance)


How Search Works (Google, Matt Cutts)

Publié le 14 juin 2018
 

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *