Générateur de fichier Robots.txt — Ce que c'est et comment en créer un
Découvrez le rôle d'un fichier robots.txt, le fonctionnement des règles d'exploration et comment générer un robots.txt correct pour votre site sans toucher au code.
Chaque site web est visité par des robots — Googlebot, Bingbot, les robots d'IA et des dizaines d'autres. Un fichier robots.txt est la façon dont vous leur indiquez ce qu'ils sont autorisés ou non à indexer. Configurez-le correctement et vous contrôlez ce qui apparaît dans les résultats de recherche. Faites une erreur et vous pouvez accidentellement bloquer l'intégralité de votre site sur Google.
Qu'est-ce qu'un fichier robots.txt ?
Un fichier robots.txt est un fichier texte brut placé à la racine de votre site web qui indique aux robots d'exploration quelles pages ou sections ils doivent explorer et lesquelles ils doivent ignorer. Il suit le Robots Exclusion Protocol — une norme informelle que pratiquement tous les grands robots respectent.
Lorsque Googlebot visite votre site, la toute première URL qu'il demande est :
https://yourdomain.com/robots.txt
Si le fichier existe, le robot lit les règles et adapte son exploration en conséquence. S'il n'existe pas, le robot considère que tout est ouvert à l'exploration.
Important : robots.txt est une directive, pas une mesure de sécurité. Il indique aux robots bien intentionnés ce qu'ils ne doivent pas explorer — il n'empêche pas l'accès. Les robots malveillants et les scrapers peuvent l'ignorer complètement. Ne vous fiez jamais à robots.txt pour masquer du contenu sensible.
Structure d'un fichier robots.txt
Un fichier robots.txt est composé d'un ou plusieurs enregistrements. Chaque enregistrement comprend :
- Une ligne
User-agent— le robot auquel les règles s'appliquent - Une ou plusieurs lignes
DisallowouAllow— les règles d'exploration - Une directive
Crawl-delayoptionnelle - Une directive
Sitemapoptionnelle (au niveau du fichier)
User-agent: Googlebot
Disallow: /admin/
Allow: /admin/public/
User-agent: *
Disallow: /private/
Crawl-delay: 10
Sitemap: https://yourdomain.com/sitemap.xml
Les directives principales expliquées
| Directive | Ce qu'elle fait |
|---|---|
User-agent |
Spécifie le robot auquel les règles suivantes s'appliquent. * désigne tous les robots. |
Disallow |
Bloque l'exploration du chemin spécifié. |
Allow |
Autorise explicitement un chemin, même dans un répertoire parent bloqué. |
Crawl-delay |
Demande au robot d'attendre N secondes entre les requêtes (non pris en charge par Google). |
Sitemap |
Indique aux robots l'emplacement de votre sitemap XML. |
Valeurs User-agent — à qui parlez-vous ?
Chaque robot possède une chaîne user-agent unique. Les plus importantes :
| User-agent | Robot | Moteur |
|---|---|---|
* |
Tous les robots | — |
Googlebot |
Robot d'exploration web de Google | Google Search |
Googlebot-Image |
Robot d'exploration Google Images | Google Images |
Googlebot-Video |
Robot d'exploration Google Vidéo | Google Video |
Bingbot |
Robot d'exploration Microsoft Bing | Bing Search |
Slurp |
Robot d'exploration Yahoo! | Yahoo Search |
DuckDuckBot |
Robot d'exploration DuckDuckGo | DuckDuckGo |
Baiduspider |
Robot d'exploration Baidu | Baidu Search |
YandexBot |
Robot d'exploration Yandex | Yandex Search |
GPTBot |
Robot d'entraînement OpenAI | ChatGPT |
ClaudeBot |
Robot d'entraînement Anthropic | Claude |
CCBot |
Robot Common Crawl | Divers jeux de données IA |
Les règles sont appliquées par user-agent. Si un robot correspond à un enregistrement user-agent spécifique, ces règles s'appliquent. Si aucun enregistrement spécifique n'existe, les règles * (générique) s'appliquent.
Disallow et Allow — fonctionnement de la correspondance de chemins
Disallow
Disallow: /chemin/ bloque ce chemin et tout ce qui se trouve en dessous.
Disallow: /admin/ # bloque /admin/, /admin/users, /admin/login, etc.
Disallow: /private.html # bloque exactement ce fichier
Disallow: / # bloque l'intégralité du site
Disallow: # valeur vide = tout autoriser (aucune restriction)
Allow
Allow annule un Disallow pour un chemin plus spécifique. Les règles les plus spécifiques l'emportent.
User-agent: Googlebot
Disallow: /products/
Allow: /products/featured/ # Googlebot PEUT explorer /products/featured/ malgré le Disallow ci-dessus
Caractères génériques
La plupart des robots (dont Google) prennent en charge deux caractères génériques :
| Modèle | Signification | Exemple |
|---|---|---|
* |
Correspond à toute séquence de caractères | Disallow: /*.pdf$ |
$ |
Correspond à la fin de l'URL | Disallow: /*.pdf$ — bloque les URL se terminant par .pdf |
Disallow: /*? # bloque toutes les URL avec des chaînes de requête
Disallow: /*.pdf$ # bloque tous les fichiers PDF
Disallow: /tag/*/page/ # bloque les pages d'archives de tags paginées
Modèles robots.txt courants
Tout autoriser (comportement par défaut)
User-agent: *
Disallow:
Un Disallow vide signifie aucune restriction. C'est équivalent à ne pas avoir de fichier robots.txt du tout — mais il est recommandé d'avoir le fichier présent pour pouvoir y ajouter des règles ultérieurement.
Bloquer l'intégralité du site (ex. : environnement de staging)
User-agent: *
Disallow: /
Utilisez ceci sur les environnements de développement, de staging ou de prévisualisation pour empêcher leur indexation.
Bloquer des répertoires spécifiques
User-agent: *
Disallow: /admin/
Disallow: /wp-admin/
Disallow: /wp-login.php
Disallow: /checkout/
Disallow: /cart/
Disallow: /account/
Bloquer les robots d'entraînement IA
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: Google-Extended
Disallow: /
Site e-commerce — bloquer les pages non indexables
User-agent: *
Disallow: /cart/
Disallow: /checkout/
Disallow: /account/
Disallow: /wishlist/
Disallow: /*?sort=
Disallow: /*?filter=
Disallow: /*?ref=
Allow: /products/
Allow: /collections/
Sitemap: https://yourdomain.com/sitemap.xml
Site WordPress
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-login.php
Disallow: /wp-includes/
Disallow: /?s=
Disallow: /search/
Disallow: /trackback/
Sitemap: https://yourdomain.com/sitemap.xml
Comment générer un fichier robots.txt sans écrire de code
Rédiger un fichier robots.txt à la main est source d'erreurs — une simple faute de frappe peut bloquer des pages que vous vouliez autoriser. Notre Générateur de Robots.txt vous permet de :
- Sélectionner les robots à cibler
- Ajouter des règles d'autorisation et de blocage via un formulaire simple
- Définir un délai d'exploration si nécessaire
- Ajouter l'URL de votre sitemap
- Copier ou télécharger le fichier généré instantanément
Après la génération, utilisez le Testeur de Robots.txt pour vérifier que vos règles fonctionnent comme prévu avant le déploiement.
Où placer votre fichier robots.txt
Le fichier doit se trouver à la racine de votre domaine :
https://yourdomain.com/robots.txt ✓ correct
https://yourdomain.com/robots/robots.txt ✗ incorrect
https://subdomain.yourdomain.com/robots.txt ✓ correct (pour un sous-domaine)
Chaque sous-domaine a besoin de son propre fichier robots.txt. Un fichier sur www.yourdomain.com/robots.txt ne s'applique pas à blog.yourdomain.com.
Déployer robots.txt
Site statique (HTML) : Téléchargez robots.txt à la racine du répertoire public de votre serveur web (/public_html/, /dist/, /public/, etc.).
WordPress : Placez-le à la racine de votre installation WordPress. De nombreux plugins SEO (Yoast, RankMath) le gèrent automatiquement via le panneau d'administration.
Next.js : Placez robots.txt dans le dossier /public, ou utilisez le fichier robots.js dans /app pour une génération programmatique (Next.js 13+).
Vercel / Netlify : Placez-le dans /public — il sera servi depuis la racine automatiquement lors du déploiement.
robots.txt et SEO — ce qu'il faut bien faire
Ne bloquez pas le CSS et le JavaScript
Une pratique héritée du passé consistait à bloquer /wp-content/ ou /assets/ pour économiser le budget d'exploration. Cela se retourne contre vous : Google a besoin de rendre vos pages pour les comprendre, et bloquer le CSS/JS l'en empêche. Ne bloquez que ce que vous ne souhaitez vraiment pas indexer.
robots.txt n'empêche pas l'indexation — noindex le fait
Disallow empêche Google d'explorer une URL. Cela n'empêche pas Google de l'indexer si un autre site y fait un lien. Pour empêcher l'indexation, utilisez la balise meta noindex ou l'en-tête HTTP X-Robots-Tag sur la page elle-même.
Déclaration du sitemap
Incluez toujours l'URL de votre sitemap dans robots.txt — c'est le moyen le plus fiable de s'assurer que les robots le trouvent :
Sitemap: https://yourdomain.com/sitemap.xml
Sitemap: https://yourdomain.com/sitemap-images.xml
Vous pouvez lister plusieurs sitemaps.
Budget d'exploration
Les grands sites (des milliers de pages) bénéficient le plus de l'optimisation via robots.txt. Bloquer les pages à faible valeur (URL filtrées, résultats de recherche interne, contenu dupliqué superficiel) aide Google à consacrer son budget d'exploration aux pages qui comptent vraiment.
Valider votre fichier robots.txt
Après avoir créé votre fichier, vérifiez-le avant de le déployer :
- Testeur de Robots.txt — collez votre fichier et testez des URL spécifiques pour confirmer le comportement d'autorisation/blocage
- Google Search Console — le rapport sur les statistiques d'exploration indique comment Google explore votre site ; l'outil d'inspection d'URL indique si des pages spécifiques sont bloquées
- Vérification manuelle — visitez
https://yourdomain.com/robots.txtaprès le déploiement pour confirmer que le fichier est en ligne et correctement servi
Foire aux questions
Google suit-il toujours robots.txt ?
Google respecte les directives Disallow pour l'exploration. Cependant, Google peut quand même indexer une URL bloquée s'il trouve des liens pointant vers elle — un Disallow bloque l'exploration, pas l'entrée dans l'index. Utilisez noindex sur la page elle-même pour empêcher l'indexation.
Puis-je avoir plusieurs blocs User-agent pour le même robot ? Non. Chaque user-agent ne doit apparaître que dans un seul bloc. Si vous avez des règles conflictuelles pour le même robot dans plusieurs blocs, le comportement est indéfini. Regroupez toutes les règles d'un user-agent donné dans un seul enregistrement.
Que se passe-t-il si mon fichier robots.txt contient une erreur de syntaxe ? La plupart des robots ignoreront soit la règle mal formée, soit s'arrêteront d'analyser à l'erreur. Google continuera généralement avec les règles qu'il a analysées avec succès avant l'erreur. Testez votre fichier avant de le déployer.
Dois-je bloquer Googlebot-Image ? Seulement si vous ne souhaitez pas que vos images apparaissent dans Google Images. Si vous vendez de la photographie ou gérez un site riche en images, bloquer Googlebot-Image pourrait réduire significativement votre trafic.
À quelle fréquence les robots relisent-ils robots.txt ? Google met généralement en cache robots.txt pendant 24 heures au maximum. Après une mise à jour du fichier, les changements peuvent prendre jusqu'à un jour pour se refléter dans le comportement d'exploration de Google.
robots.txt affecte-t-il la vitesse des pages ou les Core Web Vitals ? Non. robots.txt n'affecte que le comportement d'exploration, pas la façon dont les pages se chargent ou s'affichent pour les vrais utilisateurs.
Taille et limites du fichier robots.txt
- Google prend en charge les fichiers robots.txt jusqu'à 500 Ko
- Les fichiers de plus de 500 Ko sont tronqués — les règles au-delà de cette taille sont ignorées
- Pas de limite officielle sur le nombre de règles, mais gardez les fichiers organisés et concis
- L'encodage UTF-8 est recommandé ; l'ASCII fonctionne également
Outils associés
- Générateur de Robots.txt — générez un fichier robots.txt via une interface basée sur un formulaire
- Testeur de Robots.txt — validez vos règles et testez des URL spécifiques
- Générateur de Sitemap — générez un sitemap XML à associer à votre robots.txt
- Générateur de balises Meta — générez des balises meta SEO pour vos pages