Souvent mentionné dans les audits techniques, le fichier robots.txt est le fichier d’indexation le plus important. Généralement en second plan par rapport au fichier sitemap.xml, sa bonne optimisation est régulièrement sous-estimée dans la stratégie SEO notamment pour le SEO multilingue.
Qu’est-ce qu’un fichier robots.txt ?
Le fichier robots.txt est un fichier d’indexation situé sur le serveur. Il est disponible à la racine de votre site web.
A quoi sert-il dans le contexte du SEO ?
Dans le contexte du référencement naturel, le fichier robots.txt est dédié à l’optimisation technique. Sa bonne utilisation a un impact direct sur le crawl budget et les ressources mobilisées par les robots d’indexation lorsqu’ils viennent visiter votre site. Concrètement, ce fichier d’indexation a le pouvoir de faire en sorte que certaines urls soient ou ne soient pas accessibles aux crawlers des moteurs de recherche.
Pourquoi est-il essentiel dans la stratégie de référencement naturel?
Un fichier robots.txt bien optimisé permet plus facilement d’éviter que les robots d’indexation ne perdent du temps à visiter des pages à faible valeur ajoutée d’un point de vue SEO. Je précise ici “d’un point de vue SEO” car certaines de ces pages restent importantes pour la navigation des internautes et l’expérience utilisateur (ex: panier, login, mentions légales, politique de confidentialité).
Ainsi, le robots.txt permet de rendre “invisibles” certaines urls pour que les crawlers se concentrent sur des urls plus importantes pour la stratégie SEO. Un fichier robots.txt vide ou sans indication est synonyme d’une exploration autorisée pour tous les fichiers et liens trouvés.
Comment créer un fichier robots.txt?
Pour créer un fichier robots.txt fonctionnel, il faut simplement avoir accès à un éditeur de texte. Par défaut, si vous êtes sur Microsoft ou Mac vous pouvez très bien le créer avec des logiciels comme bloc-notes, notepad, textEdit et emacs.
Une fois que vous aurez fini, nommez votre fichier texte « robots.txt » et pensez à le sauvegarder en utilisant l’encodage UTF-8.
Retour d’expérience : évitez de créer depuis un Google doc pour des raisons de compatibilité.
Comment savoir si mon site possède un fichier robots.txt fonctionnel ?
Quand il existe, vous pouvez le trouver en ajoutant robots.txt à votre nom de domaine.
S’il existe, vous verrez apparaître les indications qui lui sont associées. S’il n’y en a pas, l’url renseignée vous mènera vers une page en erreur 404. Vous pouvez également être redirigé vers la page d’accueil de votre site.
Avoir un fichier robots.txt disponible et accessible ne garantit pas qu’il soit bien optimisé. À la sortie d’un site, ce fichier d’indexation essentiel est parfois créé par défaut. Toutefois à mesure que le site grossit, les urls à bloquer peuvent changer. Dans ce cas précis, votre robots.txt devient obsolète car les blocages ne servent plus.
Comment bien l’optimiser pour le SEO : Quelle syntaxe pour les crawlers?
Les lignes d’un fichier robots.txt débutent obligatoirement par l’une des trois indications suivantes : user-agent, allow, disallow.
La seule exception est la ligne où vous allez déclarer votre fichier sitemap.xml si vous le voulez. Dans ce cas précis, votre ligne débutera par “sitemap:”.
Exemple : sitemap : exemple.com/sitemap.xml
User-agent
User-agent permet de spécifier les crawlers auxquels vous voulez vous adresser. C’est toujours la première ligne du fichier.
Exemple : User-agent : Google Bots Traduction de la commande : Je veux que tous les robots d’indexation de Google…
Allow
Allow, permet de dire que vous voulez que les robots d’indexation accèdent à l’url ou au répertoire suivant. Pour que l’indication fonctionne, il faut que l’url ou le répertoire soient en relatif (adresse sans le nom de domaine)..
Exemple : Allow : /* Traduction : tu peux accéder à tout mon site Mauvais exemple : Allow : exemple.com/* (cette indication ne fonctionne pas car l’url est en absolue (elle contient le nom de domaine).
Disallow
Disallow, permet de dire que vous ne voulez pas que les robots d’indexation accèdent à l’url ou au répertoire suivant. Pour que l’indication fonctionne, il faut également que l’url ou le répertoire soient en relatif.
Exemple : Disallow : /.pdf Traduction : tu ne peux pas accéder aux fichiers pdf Mauvais exemple : Allow : exemple.com/.pdf (cette indication ne fonctionne pas car l’url est en absolue.
Exemple général
Si le fichier robots.txt contient les indications suivantes : User-agent : Googlebot Allow: /* Disallow: /*pdf
La traduction est : je veux que tous les crawlers de Google puissent accéder à tout mon site, mais pas aux fichiers pdf.
Quelles différences entre le disallow et la balise meta robots noindex?
La finalité de ces deux commandes est de faire en sorte que les urls ciblées ne soient pas indexées. Toutefois, d’un point de vue SEO, il existe une différence importante entre la balise meta robots noindex et le disallow depuis le fichier robots.txt.
Lorsqu’un répertoire ou une url est disallow depuis le fichier robots.txt, théoriquement le crawler voit l’url mais passe son chemin.
Cheminement url bloquée robots.txt : Pas de crawl -> pas de temps d’exploration ou très peu -> pas d’indexation -> pas ou très peu de déception.
Lorsqu’une url contient une balise meta robots noindex, le crawler peut la visiter comme toutes les autres urls mais il lui est déconseillé de l’indexer.
Cheminement url avec balise meta robots noindex : Crawl -> temps de découverte et d’exploration -> non indexation -> déception.
Comment exclure un répertoire ?
Si je veux exclure un répertoire dans mon fichier robots.txt j’écris Disallow: /nomdurepertoire/* Dans cet exemple, je demande aux robots d’indexation de ne parcourir aucune url du dossier “nomdurepertoire”.
Que se passe-t-il si je mets un disallow : /* ?
C’est le début des problèmes ou le meilleur moyen de nuire au référencement naturel de votre site. Si votre trafic SEO est en chute libre ou que vous ne trouvez plus votre page d’accueil dans l’index, elle peut en être la conséquence.
L’indication disallow: /* demande aux robots d’indexation de ne visiter aucune page de votre site. Très utile pour cacher la préprod aux crawlers, c’est une véritable arme de destruction massive pour un site en ligne. Cela peut aller très vite.
Faut-il déclarer le sitemap.xml dans le robots.txt ?
C’est une question qui revient souvent dans le monde du SEO. Comme dans 80% des cas en SEO la réponse est « ça dépend« . De mon point de vue, c’est totalement facultatif et il n’y a aucune obligation à le faire. Ajouter son fichier sitemap.xml au robots.txt permet aux crawlers de découvrir rapidement vos urls mais également à vos concurrents de le faire.
Pour moi le plus important est de déclarer le sitemap.xml dans votre Google Search Console. C’est tout aussi efficace.
Comment tester le bon fonctionnement du fichier robots.txt ?
Les deux meilleurs outils pour tester la validité de votre fichier robots.txt avant de le mettre en ligne sont, à mon avis, l’outil de test du robots.txt de Google et le crawler Screaming Frog.
Outil test de Google
Ancienne fonctionnalité associée à la Google Search Console, l’outil de test du robots.txt permet de tester en direct les exclusions que vous allez mettre en place.
Très fonctionnel, il permet très simplement de tester ses exclusions en ajoutant les slugs des urls qui doivent être bloquées. Malheureusement, l’outil contient deux limites importantes pour moi.
Avantages
Gratuit et accessible
Facile d’utilisation
Inconvénients
La nécessité d’avoir un accès Google Search Console au site sur lequel le robots.txt va être testé. (C’est parfois difficile d’obtenir ces accès).
Impossible de tester les blocages pour les crawlers autres que ceux de Google (googlebot, googlenews, mediapartner, adsbot).
Screaming Frog
L’autre outil que j’utilise régulièrement pour tester mon fichier robots.txt est screaming frog. Outil à mon sens indispensable à tout SEO technique, il possède une fonctionnalité qui permet de tester un fichier robots.txt et son impact sur un crawl alors qu’il n’est pas encore en ligne.
Avantages
Test avec simulation des impacts sur le crawl du site.
Programmation du robots.txt pour différents sous-domaines
Test possible sans avoir accès à la Google Search Console du site
Inconvénients
Outil payant
Comments