SEO Tools

Générateur de fichier Robots.txt — Ce que c'est et comment en créer un

Découvrez le rôle d'un fichier robots.txt, le fonctionnement des règles d'exploration et comment générer un robots.txt correct pour votre site sans toucher au code.

8 min de lecture

Générateur de fichier robots.txt — robots d'exploration et SEO

Chaque site web est visité par des robots — Googlebot, Bingbot, les robots d'IA et des dizaines d'autres. Un fichier robots.txt est la façon dont vous leur indiquez ce qu'ils sont autorisés ou non à indexer. Configurez-le correctement et vous contrôlez ce qui apparaît dans les résultats de recherche. Faites une erreur et vous pouvez accidentellement bloquer l'intégralité de votre site sur Google.

Qu'est-ce qu'un fichier robots.txt ?

Un fichier robots.txt est un fichier texte brut placé à la racine de votre site web qui indique aux robots d'exploration quelles pages ou sections ils doivent explorer et lesquelles ils doivent ignorer. Il suit le Robots Exclusion Protocol — une norme informelle que pratiquement tous les grands robots respectent.

Lorsque Googlebot visite votre site, la toute première URL qu'il demande est :

https://yourdomain.com/robots.txt

Si le fichier existe, le robot lit les règles et adapte son exploration en conséquence. S'il n'existe pas, le robot considère que tout est ouvert à l'exploration.

Important : robots.txt est une directive, pas une mesure de sécurité. Il indique aux robots bien intentionnés ce qu'ils ne doivent pas explorer — il n'empêche pas l'accès. Les robots malveillants et les scrapers peuvent l'ignorer complètement. Ne vous fiez jamais à robots.txt pour masquer du contenu sensible.


Structure d'un fichier robots.txt

Un fichier robots.txt est composé d'un ou plusieurs enregistrements. Chaque enregistrement comprend :

  1. Une ligne User-agent — le robot auquel les règles s'appliquent
  2. Une ou plusieurs lignes Disallow ou Allow — les règles d'exploration
  3. Une directive Crawl-delay optionnelle
  4. Une directive Sitemap optionnelle (au niveau du fichier)
User-agent: Googlebot
Disallow: /admin/
Allow: /admin/public/

User-agent: *
Disallow: /private/
Crawl-delay: 10

Sitemap: https://yourdomain.com/sitemap.xml

Les directives principales expliquées

Directive Ce qu'elle fait
User-agent Spécifie le robot auquel les règles suivantes s'appliquent. * désigne tous les robots.
Disallow Bloque l'exploration du chemin spécifié.
Allow Autorise explicitement un chemin, même dans un répertoire parent bloqué.
Crawl-delay Demande au robot d'attendre N secondes entre les requêtes (non pris en charge par Google).
Sitemap Indique aux robots l'emplacement de votre sitemap XML.

Valeurs User-agent — à qui parlez-vous ?

Chaque robot possède une chaîne user-agent unique. Les plus importantes :

User-agent Robot Moteur
* Tous les robots
Googlebot Robot d'exploration web de Google Google Search
Googlebot-Image Robot d'exploration Google Images Google Images
Googlebot-Video Robot d'exploration Google Vidéo Google Video
Bingbot Robot d'exploration Microsoft Bing Bing Search
Slurp Robot d'exploration Yahoo! Yahoo Search
DuckDuckBot Robot d'exploration DuckDuckGo DuckDuckGo
Baiduspider Robot d'exploration Baidu Baidu Search
YandexBot Robot d'exploration Yandex Yandex Search
GPTBot Robot d'entraînement OpenAI ChatGPT
ClaudeBot Robot d'entraînement Anthropic Claude
CCBot Robot Common Crawl Divers jeux de données IA

Les règles sont appliquées par user-agent. Si un robot correspond à un enregistrement user-agent spécifique, ces règles s'appliquent. Si aucun enregistrement spécifique n'existe, les règles * (générique) s'appliquent.


Disallow et Allow — fonctionnement de la correspondance de chemins

Disallow

Disallow: /chemin/ bloque ce chemin et tout ce qui se trouve en dessous.

Disallow: /admin/       # bloque /admin/, /admin/users, /admin/login, etc.
Disallow: /private.html # bloque exactement ce fichier
Disallow: /             # bloque l'intégralité du site
Disallow:               # valeur vide = tout autoriser (aucune restriction)

Allow

Allow annule un Disallow pour un chemin plus spécifique. Les règles les plus spécifiques l'emportent.

User-agent: Googlebot
Disallow: /products/
Allow: /products/featured/   # Googlebot PEUT explorer /products/featured/ malgré le Disallow ci-dessus

Caractères génériques

La plupart des robots (dont Google) prennent en charge deux caractères génériques :

Modèle Signification Exemple
* Correspond à toute séquence de caractères Disallow: /*.pdf$
$ Correspond à la fin de l'URL Disallow: /*.pdf$ — bloque les URL se terminant par .pdf
Disallow: /*?           # bloque toutes les URL avec des chaînes de requête
Disallow: /*.pdf$       # bloque tous les fichiers PDF
Disallow: /tag/*/page/  # bloque les pages d'archives de tags paginées

Modèles robots.txt courants

Tout autoriser (comportement par défaut)

User-agent: *
Disallow:

Un Disallow vide signifie aucune restriction. C'est équivalent à ne pas avoir de fichier robots.txt du tout — mais il est recommandé d'avoir le fichier présent pour pouvoir y ajouter des règles ultérieurement.

Bloquer l'intégralité du site (ex. : environnement de staging)

User-agent: *
Disallow: /

Utilisez ceci sur les environnements de développement, de staging ou de prévisualisation pour empêcher leur indexation.

Bloquer des répertoires spécifiques

User-agent: *
Disallow: /admin/
Disallow: /wp-admin/
Disallow: /wp-login.php
Disallow: /checkout/
Disallow: /cart/
Disallow: /account/

Bloquer les robots d'entraînement IA

User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Google-Extended
Disallow: /

Site e-commerce — bloquer les pages non indexables

User-agent: *
Disallow: /cart/
Disallow: /checkout/
Disallow: /account/
Disallow: /wishlist/
Disallow: /*?sort=
Disallow: /*?filter=
Disallow: /*?ref=
Allow: /products/
Allow: /collections/

Sitemap: https://yourdomain.com/sitemap.xml

Site WordPress

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-login.php
Disallow: /wp-includes/
Disallow: /?s=
Disallow: /search/
Disallow: /trackback/

Sitemap: https://yourdomain.com/sitemap.xml

Comment générer un fichier robots.txt sans écrire de code

Rédiger un fichier robots.txt à la main est source d'erreurs — une simple faute de frappe peut bloquer des pages que vous vouliez autoriser. Notre Générateur de Robots.txt vous permet de :

  1. Sélectionner les robots à cibler
  2. Ajouter des règles d'autorisation et de blocage via un formulaire simple
  3. Définir un délai d'exploration si nécessaire
  4. Ajouter l'URL de votre sitemap
  5. Copier ou télécharger le fichier généré instantanément

Après la génération, utilisez le Testeur de Robots.txt pour vérifier que vos règles fonctionnent comme prévu avant le déploiement.


Où placer votre fichier robots.txt

Le fichier doit se trouver à la racine de votre domaine :

https://yourdomain.com/robots.txt    ✓ correct
https://yourdomain.com/robots/robots.txt    ✗ incorrect
https://subdomain.yourdomain.com/robots.txt    ✓ correct (pour un sous-domaine)

Chaque sous-domaine a besoin de son propre fichier robots.txt. Un fichier sur www.yourdomain.com/robots.txt ne s'applique pas à blog.yourdomain.com.

Déployer robots.txt

Site statique (HTML) : Téléchargez robots.txt à la racine du répertoire public de votre serveur web (/public_html/, /dist/, /public/, etc.).

WordPress : Placez-le à la racine de votre installation WordPress. De nombreux plugins SEO (Yoast, RankMath) le gèrent automatiquement via le panneau d'administration.

Next.js : Placez robots.txt dans le dossier /public, ou utilisez le fichier robots.js dans /app pour une génération programmatique (Next.js 13+).

Vercel / Netlify : Placez-le dans /public — il sera servi depuis la racine automatiquement lors du déploiement.


robots.txt et SEO — ce qu'il faut bien faire

Ne bloquez pas le CSS et le JavaScript

Une pratique héritée du passé consistait à bloquer /wp-content/ ou /assets/ pour économiser le budget d'exploration. Cela se retourne contre vous : Google a besoin de rendre vos pages pour les comprendre, et bloquer le CSS/JS l'en empêche. Ne bloquez que ce que vous ne souhaitez vraiment pas indexer.

robots.txt n'empêche pas l'indexation — noindex le fait

Disallow empêche Google d'explorer une URL. Cela n'empêche pas Google de l'indexer si un autre site y fait un lien. Pour empêcher l'indexation, utilisez la balise meta noindex ou l'en-tête HTTP X-Robots-Tag sur la page elle-même.

Déclaration du sitemap

Incluez toujours l'URL de votre sitemap dans robots.txt — c'est le moyen le plus fiable de s'assurer que les robots le trouvent :

Sitemap: https://yourdomain.com/sitemap.xml
Sitemap: https://yourdomain.com/sitemap-images.xml

Vous pouvez lister plusieurs sitemaps.

Budget d'exploration

Les grands sites (des milliers de pages) bénéficient le plus de l'optimisation via robots.txt. Bloquer les pages à faible valeur (URL filtrées, résultats de recherche interne, contenu dupliqué superficiel) aide Google à consacrer son budget d'exploration aux pages qui comptent vraiment.


Valider votre fichier robots.txt

Après avoir créé votre fichier, vérifiez-le avant de le déployer :

  1. Testeur de Robots.txt — collez votre fichier et testez des URL spécifiques pour confirmer le comportement d'autorisation/blocage
  2. Google Search Console — le rapport sur les statistiques d'exploration indique comment Google explore votre site ; l'outil d'inspection d'URL indique si des pages spécifiques sont bloquées
  3. Vérification manuelle — visitez https://yourdomain.com/robots.txt après le déploiement pour confirmer que le fichier est en ligne et correctement servi

Foire aux questions

Google suit-il toujours robots.txt ? Google respecte les directives Disallow pour l'exploration. Cependant, Google peut quand même indexer une URL bloquée s'il trouve des liens pointant vers elle — un Disallow bloque l'exploration, pas l'entrée dans l'index. Utilisez noindex sur la page elle-même pour empêcher l'indexation.

Puis-je avoir plusieurs blocs User-agent pour le même robot ? Non. Chaque user-agent ne doit apparaître que dans un seul bloc. Si vous avez des règles conflictuelles pour le même robot dans plusieurs blocs, le comportement est indéfini. Regroupez toutes les règles d'un user-agent donné dans un seul enregistrement.

Que se passe-t-il si mon fichier robots.txt contient une erreur de syntaxe ? La plupart des robots ignoreront soit la règle mal formée, soit s'arrêteront d'analyser à l'erreur. Google continuera généralement avec les règles qu'il a analysées avec succès avant l'erreur. Testez votre fichier avant de le déployer.

Dois-je bloquer Googlebot-Image ? Seulement si vous ne souhaitez pas que vos images apparaissent dans Google Images. Si vous vendez de la photographie ou gérez un site riche en images, bloquer Googlebot-Image pourrait réduire significativement votre trafic.

À quelle fréquence les robots relisent-ils robots.txt ? Google met généralement en cache robots.txt pendant 24 heures au maximum. Après une mise à jour du fichier, les changements peuvent prendre jusqu'à un jour pour se refléter dans le comportement d'exploration de Google.

robots.txt affecte-t-il la vitesse des pages ou les Core Web Vitals ? Non. robots.txt n'affecte que le comportement d'exploration, pas la façon dont les pages se chargent ou s'affichent pour les vrais utilisateurs.


Taille et limites du fichier robots.txt

  • Google prend en charge les fichiers robots.txt jusqu'à 500 Ko
  • Les fichiers de plus de 500 Ko sont tronqués — les règles au-delà de cette taille sont ignorées
  • Pas de limite officielle sur le nombre de règles, mais gardez les fichiers organisés et concis
  • L'encodage UTF-8 est recommandé ; l'ASCII fonctionne également

Outils associés