Un fichier robots.txt est un fichier texte placé à la racine d’un site Internet et qui est destiné aux robots des moteurs de recherche.Les robots parcours régulièrement les sites afin d’indexer leurs pages et de vérifier les mises à jour.

Un robot émet une signature particulière pour un serveur web et peut donc être différencié d’un visiteur humain (cette signature se reconnaît par une information nommée « user-agent« ) ; ce qui permettra de l’identifier et d’éventuellement lui donner des indications de parcours du site spécifiques.

Ce fichier robots.txt sert à donc indiquer le « bon chemin » aux robots, a leur interdire de naviguer sur certaines URL et au contraire d’en autoriser explicitement d’autres. Il permet aussi de refuser le « crawl » par certains user-agents.

Attention, il est conseillé de bloquer des URL pour des raisons techniques et non pour des raisons de référencement. Ainsi, des pages de tags ou de catégories wordpress seront désindexées grâce à une balise meta « noindex » et non par le fichier robots.txt.

Construire un fichier robots.txt optimisé pour wordpress

Dans le cadre du référencement naturel (SEO) d’un site Internet réalisé avec WordPress, il est important de bien définir ces informations de crawl pour les robots, sous peine de voir des pages inutiles (voir pénalisantes car allongeant le temps de crawl de votre site) répertoriés par vos moteurs préférés.

En fonction des hébergeurs, un robots.txt par défaut peut être généré ; et il arrive parfois que celui ci désactive par défaut le parcours du site par des robots. Adieu l’indexation sous google dans ce cas… A vous de bien vérifier ce qu’il en est en allant à la racine de votre site et en affichant ce fichier :

http://[www].[mon-nom-de-domaine].[monextension]/robots.txt

Il est donc souvent nécessaire de le redéfinir. Un exemple de robots.txt peut être ainsi :

#Googlebot
User-agent: Googlebot
Allow: *.css*
Allow: *.js*
# Global
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Allow: /wp-includes/js/
Allow: /wp-content/plugins/
Allow: /wp-content/themes/
Allow: /wp-content/cache/
Disallow: /xmlrpc.php
Sitemap: http[s]://[www].[mon-nom-de-domaine].[monextension]/sitemap.xml

Dans cet exemple, on autorise tous les robots a crawler le site et on interdit le parcours des répertoires techniques (wp-admin…). A noter la présence de la ligne « sitemap » qui donne le chemin aux robots du sitemap de votre site. On peut choisir aussi de ne pas indiquer l’URL de son sitemap à tout le monde pour des raisons de confidentialité (il suffira de la saisir au niveau des Webmaster Tools dans ce cas là).

On ajoute également des lignes « Allow » spécifiques pour GoogleBot, c’est une solution à l’erreur détectée par les Webmaster Tools : « Accès de Googlebot aux fichiers CSS et JS impossible ».

Yoast SEO pour le robots.txt

Yoast SEO est un très bon outil également pour gérer votre fichier.txt.

C’est ce que nous pouvons voir lors d’une session de formation WordPress.

Voici une vidéo qui vous guidera dans son utilisation :

Tester son fichier Robots.txt

Si vous avez paramétré les « webmaster Tools » de Google, un outil de test des fichiers robots.txt est proposé. Cet outil vous dira si pour une URL donnée le contenu est bloqué ou non. Lors d’une mise à jour de votre fichier robots.txt, vous pouvez indiquer à Google de le prendre en compte immédiatement en cliquant sur le bouton « Envoyer ».