Générateur de fichier Robots.txt — Ce que c'est et comment en créer un — FreeTool24

Générateur de fichier robots.txt — robots d'exploration et SEO

Chaque site web est visité par des robots — Googlebot, Bingbot, les robots d'IA et des dizaines d'autres. Un fichier robots.txt est la façon dont vous leur indiquez ce qu'ils sont autorisés ou non à indexer. Configurez-le correctement et vous contrôlez ce qui apparaît dans les résultats de recherche. Faites une erreur et vous pouvez accidentellement bloquer l'intégralité de votre site sur Google.

Qu'est-ce qu'un fichier robots.txt ?

Un fichier robots.txt est un fichier texte brut placé à la racine de votre site web qui indique aux robots d'exploration quelles pages ou sections ils doivent explorer et lesquelles ils doivent ignorer. Il suit le Robots Exclusion Protocol — une norme informelle que pratiquement tous les grands robots respectent.

Lorsque Googlebot visite votre site, la toute première URL qu'il demande est :

https://yourdomain.com/robots.txt

Si le fichier existe, le robot lit les règles et adapte son exploration en conséquence. S'il n'existe pas, le robot considère que tout est ouvert à l'exploration.

Important : robots.txt est une directive, pas une mesure de sécurité. Il indique aux robots bien intentionnés ce qu'ils ne doivent pas explorer — il n'empêche pas l'accès. Les robots malveillants et les scrapers peuvent l'ignorer complètement. Ne vous fiez jamais à robots.txt pour masquer du contenu sensible.

Structure d'un fichier robots.txt

Un fichier robots.txt est composé d'un ou plusieurs enregistrements. Chaque enregistrement comprend :

Une ligne User-agent — le robot auquel les règles s'appliquent
Une ou plusieurs lignes Disallow ou Allow — les règles d'exploration
Une directive Crawl-delay optionnelle
Une directive Sitemap optionnelle (au niveau du fichier)

User-agent: Googlebot
Disallow: /admin/
Allow: /admin/public/

User-agent: *
Disallow: /private/
Crawl-delay: 10

Sitemap: https://yourdomain.com/sitemap.xml

Les directives principales expliquées

Directive	Ce qu'elle fait
`User-agent`	Spécifie le robot auquel les règles suivantes s'appliquent. `*` désigne tous les robots.
`Disallow`	Bloque l'exploration du chemin spécifié.
`Allow`	Autorise explicitement un chemin, même dans un répertoire parent bloqué.
`Crawl-delay`	Demande au robot d'attendre N secondes entre les requêtes (non pris en charge par Google).
`Sitemap`	Indique aux robots l'emplacement de votre sitemap XML.

Valeurs User-agent — à qui parlez-vous ?

Chaque robot possède une chaîne user-agent unique. Les plus importantes :

User-agent	Robot	Moteur
`*`	Tous les robots	—
`Googlebot`	Robot d'exploration web de Google	Google Search
`Googlebot-Image`	Robot d'exploration Google Images	Google Images
`Googlebot-Video`	Robot d'exploration Google Vidéo	Google Video
`Bingbot`	Robot d'exploration Microsoft Bing	Bing Search
`Slurp`	Robot d'exploration Yahoo!	Yahoo Search
`DuckDuckBot`	Robot d'exploration DuckDuckGo	DuckDuckGo
`Baiduspider`	Robot d'exploration Baidu	Baidu Search
`YandexBot`	Robot d'exploration Yandex	Yandex Search
`GPTBot`	Robot d'entraînement OpenAI	ChatGPT
`ClaudeBot`	Robot d'entraînement Anthropic	Claude
`CCBot`	Robot Common Crawl	Divers jeux de données IA

Les règles sont appliquées par user-agent. Si un robot correspond à un enregistrement user-agent spécifique, ces règles s'appliquent. Si aucun enregistrement spécifique n'existe, les règles * (générique) s'appliquent.

Disallow et Allow — fonctionnement de la correspondance de chemins

Disallow

Disallow: /chemin/ bloque ce chemin et tout ce qui se trouve en dessous.

Disallow: /admin/       # bloque /admin/, /admin/users, /admin/login, etc.
Disallow: /private.html # bloque exactement ce fichier
Disallow: /             # bloque l'intégralité du site
Disallow:               # valeur vide = tout autoriser (aucune restriction)

Allow

Allow annule un Disallow pour un chemin plus spécifique. Les règles les plus spécifiques l'emportent.

User-agent: Googlebot
Disallow: /products/
Allow: /products/featured/   # Googlebot PEUT explorer /products/featured/ malgré le Disallow ci-dessus

Caractères génériques

La plupart des robots (dont Google) prennent en charge deux caractères génériques :

Modèle	Signification	Exemple
`*`	Correspond à toute séquence de caractères	`Disallow: /*.pdf$`
`$`	Correspond à la fin de l'URL	`Disallow: /*.pdf$` — bloque les URL se terminant par `.pdf`

Disallow: /*?           # bloque toutes les URL avec des chaînes de requête
Disallow: /*.pdf$       # bloque tous les fichiers PDF
Disallow: /tag/*/page/  # bloque les pages d'archives de tags paginées

Modèles robots.txt courants

Tout autoriser (comportement par défaut)

User-agent: *
Disallow:

Un Disallow vide signifie aucune restriction. C'est équivalent à ne pas avoir de fichier robots.txt du tout — mais il est recommandé d'avoir le fichier présent pour pouvoir y ajouter des règles ultérieurement.

Bloquer l'intégralité du site (ex. : environnement de staging)

User-agent: *
Disallow: /

Utilisez ceci sur les environnements de développement, de staging ou de prévisualisation pour empêcher leur indexation.

Bloquer des répertoires spécifiques

User-agent: *
Disallow: /admin/
Disallow: /wp-admin/
Disallow: /wp-login.php
Disallow: /checkout/
Disallow: /cart/
Disallow: /account/

Bloquer les robots d'entraînement IA

User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Google-Extended
Disallow: /

Site e-commerce — bloquer les pages non indexables

User-agent: *
Disallow: /cart/
Disallow: /checkout/
Disallow: /account/
Disallow: /wishlist/
Disallow: /*?sort=
Disallow: /*?filter=
Disallow: /*?ref=
Allow: /products/
Allow: /collections/

Sitemap: https://yourdomain.com/sitemap.xml

Site WordPress

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-login.php
Disallow: /wp-includes/
Disallow: /?s=
Disallow: /search/
Disallow: /trackback/

Sitemap: https://yourdomain.com/sitemap.xml

Comment générer un fichier robots.txt sans écrire de code

Rédiger un fichier robots.txt à la main est source d'erreurs — une simple faute de frappe peut bloquer des pages que vous vouliez autoriser. Notre Générateur de Robots.txt vous permet de :

Sélectionner les robots à cibler
Ajouter des règles d'autorisation et de blocage via un formulaire simple
Définir un délai d'exploration si nécessaire
Ajouter l'URL de votre sitemap
Copier ou télécharger le fichier généré instantanément

Après la génération, utilisez le Testeur de Robots.txt pour vérifier que vos règles fonctionnent comme prévu avant le déploiement.

Où placer votre fichier robots.txt

Le fichier doit se trouver à la racine de votre domaine :

https://yourdomain.com/robots.txt    ✓ correct
https://yourdomain.com/robots/robots.txt    ✗ incorrect
https://subdomain.yourdomain.com/robots.txt    ✓ correct (pour un sous-domaine)

Chaque sous-domaine a besoin de son propre fichier robots.txt. Un fichier sur www.yourdomain.com/robots.txt ne s'applique pas à blog.yourdomain.com.

Déployer robots.txt

Site statique (HTML) : Téléchargez robots.txt à la racine du répertoire public de votre serveur web (/public_html/, /dist/, /public/, etc.).

WordPress : Placez-le à la racine de votre installation WordPress. De nombreux plugins SEO (Yoast, RankMath) le gèrent automatiquement via le panneau d'administration.

Next.js : Placez robots.txt dans le dossier /public, ou utilisez le fichier robots.js dans /app pour une génération programmatique (Next.js 13+).

Vercel / Netlify : Placez-le dans /public — il sera servi depuis la racine automatiquement lors du déploiement.

robots.txt et SEO — ce qu'il faut bien faire

Ne bloquez pas le CSS et le JavaScript

Une pratique héritée du passé consistait à bloquer /wp-content/ ou /assets/ pour économiser le budget d'exploration. Cela se retourne contre vous : Google a besoin de rendre vos pages pour les comprendre, et bloquer le CSS/JS l'en empêche. Ne bloquez que ce que vous ne souhaitez vraiment pas indexer.

robots.txt n'empêche pas l'indexation — noindex le fait

Disallow empêche Google d'explorer une URL. Cela n'empêche pas Google de l'indexer si un autre site y fait un lien. Pour empêcher l'indexation, utilisez la balise meta noindex ou l'en-tête HTTP X-Robots-Tag sur la page elle-même.

Déclaration du sitemap

Incluez toujours l'URL de votre sitemap dans robots.txt — c'est le moyen le plus fiable de s'assurer que les robots le trouvent :

Sitemap: https://yourdomain.com/sitemap.xml
Sitemap: https://yourdomain.com/sitemap-images.xml

Vous pouvez lister plusieurs sitemaps.

Budget d'exploration

Les grands sites (des milliers de pages) bénéficient le plus de l'optimisation via robots.txt. Bloquer les pages à faible valeur (URL filtrées, résultats de recherche interne, contenu dupliqué superficiel) aide Google à consacrer son budget d'exploration aux pages qui comptent vraiment.

Valider votre fichier robots.txt

Après avoir créé votre fichier, vérifiez-le avant de le déployer :

Testeur de Robots.txt — collez votre fichier et testez des URL spécifiques pour confirmer le comportement d'autorisation/blocage
Google Search Console — le rapport sur les statistiques d'exploration indique comment Google explore votre site ; l'outil d'inspection d'URL indique si des pages spécifiques sont bloquées
Vérification manuelle — visitez https://yourdomain.com/robots.txt après le déploiement pour confirmer que le fichier est en ligne et correctement servi

Foire aux questions

Google suit-il toujours robots.txt ? Google respecte les directives Disallow pour l'exploration. Cependant, Google peut quand même indexer une URL bloquée s'il trouve des liens pointant vers elle — un Disallow bloque l'exploration, pas l'entrée dans l'index. Utilisez noindex sur la page elle-même pour empêcher l'indexation.

Puis-je avoir plusieurs blocs User-agent pour le même robot ? Non. Chaque user-agent ne doit apparaître que dans un seul bloc. Si vous avez des règles conflictuelles pour le même robot dans plusieurs blocs, le comportement est indéfini. Regroupez toutes les règles d'un user-agent donné dans un seul enregistrement.

Que se passe-t-il si mon fichier robots.txt contient une erreur de syntaxe ? La plupart des robots ignoreront soit la règle mal formée, soit s'arrêteront d'analyser à l'erreur. Google continuera généralement avec les règles qu'il a analysées avec succès avant l'erreur. Testez votre fichier avant de le déployer.

Dois-je bloquer Googlebot-Image ? Seulement si vous ne souhaitez pas que vos images apparaissent dans Google Images. Si vous vendez de la photographie ou gérez un site riche en images, bloquer Googlebot-Image pourrait réduire significativement votre trafic.

À quelle fréquence les robots relisent-ils robots.txt ? Google met généralement en cache robots.txt pendant 24 heures au maximum. Après une mise à jour du fichier, les changements peuvent prendre jusqu'à un jour pour se refléter dans le comportement d'exploration de Google.

robots.txt affecte-t-il la vitesse des pages ou les Core Web Vitals ? Non. robots.txt n'affecte que le comportement d'exploration, pas la façon dont les pages se chargent ou s'affichent pour les vrais utilisateurs.

Taille et limites du fichier robots.txt

Google prend en charge les fichiers robots.txt jusqu'à 500 Ko
Les fichiers de plus de 500 Ko sont tronqués — les règles au-delà de cette taille sont ignorées
Pas de limite officielle sur le nombre de règles, mais gardez les fichiers organisés et concis
L'encodage UTF-8 est recommandé ; l'ASCII fonctionne également

Outils associés

Générateur de Robots.txt — générez un fichier robots.txt via une interface basée sur un formulaire
Testeur de Robots.txt — validez vos règles et testez des URL spécifiques
Générateur de Sitemap — générez un sitemap XML à associer à votre robots.txt
Générateur de balises Meta — générez des balises meta SEO pour vos pages