Définition de crawl

Définition du Crawl :

Le Crawl désigne l’exploration d’un site web par le robot d’un moteur de recherche, en cliquant sur les liens proposés, afin de découvrir toutes les pages du site au travers d’une navigation naturelle.

Le crawl d’un site web est la première action, essentielle, mise en place par les moteurs pour découvrir votre site. Sans crawl préalable, il est impossible qu’une page ressorte dans les résultats de recherche par la suite…

Pour constituer leur index, les moteurs de recherche ont besoin de connaître et d’atteindre un maximum de pages du Web. Pour cela, ils utilisent des robots, ou spiders ou crawlers. Celui de Google s’appelle Googlebot, celui de Bng a pour nom BingBot, etc.

Ces robots ont pour objectif de crawler un site web : ils vont par exemple arriver sur la page d’accueil d’un site (en suivant un lien qui mène vers cette page) pour y effectuer deux actions distinctes :
1. Récupérer (sauvegarder) le code HTML de la page pour l’envoyer au moteur à ds fins de traitement ultérieur.
2. Suivre les liens (internes et externes) que cette page contient pour découvrir d’autres pages.

C’est cette phase d’exploration des pages en suivant les liens internes d’un site et de récupération systématique du coode source des pages que l’on appelle « crawl« .

Pour chaque site, Google définit un budget crawl ou ressources allouées au crawl de cette source d’information.

Aujourd’hui, un moteur comme Google sait crawler les pages conçues en HTML, mais également en Javascript, Ajax, etc. Les outils d’analyse de logs permettent alors de comprendre et d’analyser comment les robots des moteurs crawlent un site. Il est également possible d’utiliser des outils qui crawlent un site web comme le ferait un moteur : Xenu Link Sleuth, Screaming Frog, onCrawl ou Botify.