Les choses à surveiller avant d’ajouter un disallow au robots.txt

par | 26 Juil 2022 | Guides SEO, SEO

Le fichier robots.txt est un outil essentiel dans l’arsenal de tout référenceur. Une bonne configuration de ce fichier est cruciale car une utilisation hasardeuse de la directive disallow: peut entrainer des petites cata pour votre SEO…

Contrairement à d’autres composants du SEO, les directives contenues dans le fichier sont généralement plus respectées (par les moteurs de recherche, en tout cas) que n’importe quelle autre action (de contenu ou de backlink) que vous mettez en place.

 

On se rafraichit la mémoire

Situé au niveau de la racine du domaine, c’est-à-dire dans le fichier /robots.txt, le fichier robots.txt est un protocole d’exclusion destiné aux robots d’exploration du Web. Il est conçu pour communiquer les parties d’un site qu’ils sont autorisés et, plus communément, qu’ils ne sont pas autorisés à explorer. Cela se fait en définissant des directives de crawl.

Les directives d’exploration sont indiquées par la syntaxe « Disallow : » ou « Allow : », qui vous permet d’indiquer quelles URL de votre site sont autorisées à être explorées. Les directives d’exploration doivent ensuite être associées à un agent utilisateur cible, c’est-à-dire « User-agent : », afin de constituer les règles que les robots d’exploration doivent respecter.

Voici un exemple de règle robots.txt que l’on trouve généralement sur un site WordPress ;

Utilisateur-agent : *
Disallow : /wp/wp-admin/
Allow : /wp/wp-admin/admin-ajax.php

Ici, tous les agents utilisateurs sont ciblés, comme l’indique le symbole de l’astérisque. Deux directives suivent ensuite, la première indiquant qu’il ne faut pas explorer le répertoire /wp/wp-admin/, la seconde annulant la première directive disallow, mais uniquement pour l’URL suivante : /wp/wp-admin/admin-ajax.php.

Au fond, son objectif et sa configuration sont relativement simples. Cependant, nous sommes encore témoins de certaines idées fausses concernant le fichier robots.txt où des personnes négligent encore son impact sur la présence organique d’un site.

Voici quelques points à retenir avant d’utiliser le disallow pour exclure les URL et les répertoires via le fichier robots.txt.

 

Quel est le but d’un fichier robots.txt ?

Le fichier robots.txt concerne l’exploration. Ni plus ni moins.

Disallow ne veut pas dire noindex

La directive disallow: a pour but de désavouer une page aux yeux des moteurs de recherche en indiquant qu’il ne faut pas l’explorer. Cependant, une page désavouée par le fichier robots.txt peut toujours se retrouver dans l’index d’un moteur de recherche. La notion de « noindex » (faisant allusion à l’utilisation de la balise meta robots noindex) devient applicable après un crawl et détermine si un élément de contenu doit ou non être inclus dans l’index d’un moteur de recherche.

Google l’explique clairement dans ses conseils ci-dessous :

robots txt conseil google

Exploration vs. indexation

Il est essentiel de comprendre la définition de l’exploration (crawl) et de l’indexation, notamment lorsqu’on les applique aux fichiers robots.txt.

  1. L’exploration (crawl) est le processus suivi par les moteurs de recherche pour naviguer sur le Web et trouver des informations : c’est là que robots.txt s’applique.
  2. L’indexation, quant à elle, est le processus qui suit, lorsque les informations nouvelles ou mises à jour sont stockées, traitées et interprétées : c’est là que la notion de balise meta robots noindex s’applique.

 

L’impact du disallow: sur votre visibilité organique

Bien que le fichier robots.txt soit là pour gérer le trafic d’exploration, il faut tout de même tenir compte de l’impact de la directive disallow: sur la présence de votre site dans l’index de Google.

Nous savons qu’une page non autorisée par le robots.txt peut quand même se frayer un chemin dans l’index : cela a été confirmé et documenté par Google à plusieurs reprises. Lorsque cela se produit, des extraits comme celui-ci se retrouvent dans les SERP :

exemple-robots-txt-bloque

Mais pourquoi une page bloquée par le robots.txt apparait dans les SERP Google ? 3 raisons peuvent l’expliquer.

  1. La page est liée via un backlink depuis un autre site.
  2. La page a déjà été explorée et indexée et la directive disallow a été appliquée après.
  3. La directive à laquelle la page s’applique a été ignorée (cette situation est de moins en moins fréquente, même si elle est toujours admise).

Ainsi, lorsque Google tente d’indexer à nouveau la page, le contenu est en grande partie indisponible (à l’exception de quelques éléments). La Search Console permet d’identifier facilement ces problèmes en allant dans Couverture > Valide avec des avertissements > Indexée malgré le blocage par le fichier robots.txt.

search console index robots txt

Vous pouvez ainsi déterminer avec précision les URL qui sont bloquées par votre fichier robots.txt mais qui restent accessibles via les recherches Google.

Mais il ne s’agit pas d’erreurs critiques ! Google lui-même les classe comme des avertissements, reconnaissant qu’elles peuvent être intentionnellement configurées de la sorte. Toutefois, s’il s’agit d’une erreur involontaire, il convient d’approfondir l’enquête en examinant individuellement chaque URL bloquée mais indexée.

Ce que vous devez déchiffrer, c’est pourquoi ces URL ont été interdites en premier lieu. Si c’était pour réduire le contenu dupliqué, une solution bien plus optimale est de mettre en place des balises canoniques. Si l’intention était de supprimer entièrement la page de la recherche, une balise meta robots noindex est plus appropriée. Enfin, et c’est sans doute le point le plus important, si une URL a été bloquée par erreur, il convient de résoudre ce problème en supprimant le blocage.

 

Impact sur la propagation du PageRank

Un autre point à considérer avant d’utiliser le disallow dans votre robots.txt est la façon dont cela empêche la propagation du PageRank. Il est important de garder cela à l’esprit si vous cherchez à introduire des directives robots.txt comme moyen de contrôler l’efficacité de l’exploration.

Par conséquent, si vous souhaitez optimiser votre budget de crawl budget de crawl, considérez bien que la directive nofollow ne transférera pas le PageRank (l’équité de lien) mais que d’autres choses comme les redirections 301 ou les balises canoniques le font.

effet-robots-txt-canonique-redirections

Comme nous pouvons le constater, si les directives d’exclusion via le fichier robots.txt « règlent » les problèmes de contenu dupliqué et améliorent l’efficacité de l’exploration, cette configuration a des conséquences négatives sur les liens internes et entrants.

Ce sont les liens entrants/backlinks qui doivent nous préoccuper le plus, surtout s’ils sont de qualité. L’objectif principal est de s’assurer que ces liens pointent vers des URL capables de redistribuer l’équité des liens/PageRank afin que d’autres pages bénéficient de la popularité.

 

Pour résumer

Le fichier robots.txt est un outil puissant qui doit être manipulé avec précaution. En règle générale, vous pouvez utiliser ce fichier pour éviter que les user agents ne parcourent du contenu non important, mais même dans ce cas, la définition de « non important » devient intrinsèquement problématique !

Par-dessus tout, il est important de se rappeler les implications que cela peut avoir sur votre présence dans l’index et l’impact de vos backlinks. Considérez toujours toutes les options à votre disposition, telles que la canonicalisation, le balisage meta robots ou même l’authentification http si le contenu que vous cherchez à éloigner des moteurs de recherche est particulièrement sensible ou privé.

2 Commentaires

  1. Michel Avenier

    Bonjour Gauthier,
    Je te remercie pour ce bon article et bonne explication sur le fichier robot.txt Disallow, a utiliser avec précaution et qui a une grande importance en terme de SEO.

    Réponse
  2. Eric Ozino

    Quelles précautions prendre lors de la manipulation du fichier robots.txt pour éviter des conséquences indésirables sur notre présence dans l’index et l’impact de nos backlinks ?

    Réponse

Soumettre un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Catégories

Podcasts

A Propos

Nous sommes une agence de Marketing Digital experts SEO, SEA, Amazon et Social Media. Retrouvez au sein de notre notre blog toutes les dernières informations concernant l’univers du marketing digital et nos astuces pour mener votre propre stratégie de Référencement Naturel, et Publicité Amazon, sur Google et les Réseaux Sociaux.

Les incontournables

Obtenir un bon backlink en SEO

Histoire des réseaux sociaux

Comment trouver un sitemap ?

Qu’est-ce que le CPC ?

Stratégie Google Ads

Budget Facebook Ads

Balise titre SEO

Pourquoi mon site n’apparait pas sur Google ?

Audience Google Ads

Tout savoir sur le cache Google

TOP 10 des extensions WordPress pour la vitesse de votre site

Quand poster sur Instagram ?

Badge de protection Google

Tout connaître sur le contenu dupliqué

Qu’est-ce que le SEO ?

ACos Amazon

Choisir son consultant Google Ads

Amazon Brand Registry

Comment créer des campagnes Performance Max ?

5 façons d’optimiser votre temps de chargement

Tout savoir sur le balise canonique

Intention de recherche en SEO

Comment savoir si un compte Instagram a de faux followers ?

Quand publier sur Facebook ?

Amazon Explore

Les mots en gras sont-ils importants pour le SEO ?

Les liens sortants sont-ils importants en SEO ?

Qu’est-ce IndexNow ?

Guide des campagnes Google Ads

Quand publier sur LinkedIn ?

Les choses à surveiller avant d’ajouter un disallow au robots.txt

Comment fonctionne un moteur de recherche ?

Qu’est-ce que AMP ?

Définition du PageRank

Contenu caché et SEO

Les défis du SEO

Google Ads : clics vs. impressions

Que veut dire hashtag ?

Comment devenir un vendeur rentable sur Amazon ?

Qu’est-ce que Google Discover ?

Quand publier sur Twitter ?

Définition de l’E-E-A-T

Yandex n’est pas le moteur de recherche numéro 1 en Russie

Amazon Seller Central vs. Vendor Central

Conseils Google Performance Max

Amazon Vine

Créer une fiche d’établissement Google

Générateur de balises Schema

Expression exacte en Google Ads

Comment calculer un taux de conversion ?

Le negative SEO

Redirection 301 vs. 302

Tout savoir le nofollow

Comment obtenir le badge Instagram ?

Le nombre de mots est-il important en SEO ?

Comment connaître le nombre de pages d’un site ?

Les meilleurs outils SEO

Les facteurs de ranking de Yandex