Définition de Robots.txt

Définition de fichier Robots.txt :

Le fichier robots.txt est un fichier texte, placé à la racine d’un site web. Il permet d’indiquer aux robots des moteurs de recherche les zones à ne pas explorer : pages web ou répertoires complets.

Il est souvent important d’indiquer aux moteurs de recherche des pages ou des zones d’un sites qu’il ne doit pas explorer. Le fichier robots.txt est conçu pour cela. Définition…

Le fichier robots.txt est donc un fichier texte qui sera toujours placé à la racine d’un site web. Ainsi, si un site se trouve à l’adresse https://www.exemple.fr, on pourra afficher son fichier robots.txt à l’adresse https://www.exemple.fr/robots.txt. Ce fichier est toujours accessible à tous. S’il n’existe pas, Google aura accès à toutes les zones du site web.

Le fichier commence par une indication des robots pour lesquels les directives sont conçues. Quelques exemples :
User-agent: * (pour tous les robots)
User-agent: Googlebot (uniquement pour Googlebot, le robot de Google)
User-agent: Bingbot (uniquement pour Bingbot, le robot de Bing)
Etc.

Les directives suivantes sont le plus souvent des « Disallow: », indiquant que le robot ne doit pas crawler (explorer) les URL qui commence par l’intitulé mentionné. Quelques exemples pour un site dont l’adresse serait https://www.exemple.fr :
Disallow: search (toutes les URL commençant par https://www.exemple.fr/search ne seront pas crawlées)
Disallow: search.html (l’URL https://www.exemple.fr/search.html ne sera pas crawlée)
Etc.

Il est possible d’utiliser des jokers ou autres « wildcards » ($, *, ?) pour créer des règles plus complexes. Ces possibilités sont explicités ici et là.

La Directive « Sitemap: » indique l’adresse du Sitemap XML du site.

D’autres directives (Allow:, Noindex: Crawl-delay:) sont également possibles, mais elles ne sont pas recommandées, car n’étant pas standards, voire pas reconnues par Google pour certaines.

Notez que si le fichier robots.txt interdit le crawl d’une page aux robots des moteurs, il n’interdit pas l’indexation de cette URL en question. Celle-ci peut donc apparaître dans les résultats de recherche du moteur, avec un message spécifique.

Enfin, si le fichier robots.txt est conçu pour les robots, il existe également un fichier Humans.txt pour les humains. 🙂

Les spiders (« araignées » en anglais) des moteurs de recherche parcourent le Web. Source : DR

Voici également quelques liens pour aller plus loin sur le sujet :

Et quelques vidéos sur le sujet :

Robots.txt et SEO.

Spiders, Robots, Crawlers : comment ça marche ?

Publié le 28 février 2018

Définition de Robots.txt

Il est souvent important d’indiquer aux moteurs de recherche des pages ou des zones d’un sites qu’il ne doit pas explorer. Le fichier robots.txt est conçu pour cela. Définition…

Laisser un commentaire Annuler la réponse