Définition de Robots.txt
Définition de fichier Robots.txt :
Le fichier robots.txt est un fichier texte, placé à la racine d’un site web. Il permet d’indiquer aux robots des moteurs de recherche les zones à ne pas explorer : pages web ou répertoires complets.
Il est souvent important d’indiquer aux moteurs de recherche des pages ou des zones d’un sites qu’il ne doit pas explorer. Le fichier robots.txt est conçu pour cela. Définition…
Le fichier robots.txt est donc un fichier texte qui sera toujours placé à la racine d’un site web. Ainsi, si un site se trouve à l’adresse https://www.exemple.fr, on pourra afficher son fichier robots.txt à l’adresse https://www.exemple.fr/robots.txt. Ce fichier est toujours accessible à tous. S’il n’existe pas, Google aura accès à toutes les zones du site web.
Le fichier commence par une indication des robots pour lesquels les directives sont conçues. Quelques exemples :
User-agent: * (pour tous les robots)
User-agent: Googlebot (uniquement pour Googlebot, le robot de Google)
User-agent: Bingbot (uniquement pour Bingbot, le robot de Bing)
Etc.
Les directives suivantes sont le plus souvent des « Disallow: », indiquant que le robot ne doit pas crawler (explorer) les URL qui commence par l’intitulé mentionné. Quelques exemples pour un site dont l’adresse serait https://www.exemple.fr :
Disallow: search (toutes les URL commençant par https://www.exemple.fr/search ne seront pas crawlées)
Disallow: search.html (l’URL https://www.exemple.fr/search.html ne sera pas crawlée)
Etc.
Il est possible d’utiliser des jokers ou autres « wildcards » ($, *, ?) pour créer des règles plus complexes. Ces possibilités sont explicités ici et là.
La Directive « Sitemap: » indique l’adresse du Sitemap XML du site.
D’autres directives (Allow:, Noindex: Crawl-delay:) sont également possibles, mais elles ne sont pas recommandées, car n’étant pas standards, voire pas reconnues par Google pour certaines.
Notez que si le fichier robots.txt interdit le crawl d’une page aux robots des moteurs, il n’interdit pas l’indexation de cette URL en question. Celle-ci peut donc apparaître dans les résultats de recherche du moteur, avec un message spécifique.
Enfin, si le fichier robots.txt est conçu pour les robots, il existe également un fichier Humans.txt pour les humains. 🙂
Les spiders (« araignées » en anglais) des moteurs de recherche parcourent le Web. Source : DR |
Voici également quelques liens pour aller plus loin sur le sujet :
- Plaidoyer pour une nouvelle directive Noindex: dans le robots.txt
- Google propose un générateur de fichier robots.txt
- Fichier robots.txt et SEO
- Google a modifié son mode de lecture des fichiers robots.txt
- Google ne crawle pas votre site si votre fichier robots.txt n’est pas disponible
- ACAP : un nouveau standard pour les fichiers robots.txt ?
Et quelques vidéos sur le sujet :
Robots.txt et SEO.
Spiders, Robots, Crawlers : comment ça marche ?
Laisser un commentaire