Gerador de Arquivo Robots.txt — O Que É e Como Criar Um
Aprenda o que faz um arquivo robots.txt, como funcionam as regras de rastreamento e como gerar um robots.txt correto para o seu site sem precisar escrever código.
Todo site na internet é visitado por bots — Googlebot, Bingbot, crawlers de IA e dezenas de outros. Um arquivo robots.txt é a forma de informar a eles o que podem e o que não podem indexar. Faça isso corretamente e você controla o que aparece nos resultados de busca. Faça errado e você pode acidentalmente bloquear seu site inteiro do Google.
O que é um arquivo robots.txt?
Um arquivo robots.txt é um arquivo de texto simples colocado na raiz do seu site que instrui os crawlers sobre quais páginas ou seções devem ser rastreadas e quais devem ser ignoradas. Ele segue o Robots Exclusion Protocol — um padrão informal respeitado por praticamente todos os principais crawlers.
Quando o Googlebot visita seu site, a primeira URL que ele solicita é:
https://yourdomain.com/robots.txt
Se o arquivo existir, o bot lê as regras e ajusta o rastreamento de acordo. Se não existir, o bot assume que tudo está aberto para rastreamento.
Importante: robots.txt é uma diretiva, não uma medida de segurança. Ele informa a bots bem-comportados o que não rastrear — não impede o acesso. Bots maliciosos e scrapers podem ignorá-lo completamente. Nunca use o robots.txt para proteger conteúdo sensível.
Estrutura do arquivo robots.txt
Um arquivo robots.txt é composto por um ou mais registros. Cada registro consiste em:
- Uma linha
User-agent— para qual bot as regras se aplicam - Uma ou mais linhas
DisallowouAllow— as regras de rastreamento - Uma diretiva opcional
Crawl-delay - Uma diretiva opcional
Sitemap(no nível do arquivo)
User-agent: Googlebot
Disallow: /admin/
Allow: /admin/public/
User-agent: *
Disallow: /private/
Crawl-delay: 10
Sitemap: https://yourdomain.com/sitemap.xml
Principais diretivas explicadas
| Diretiva | O que faz |
|---|---|
User-agent |
Especifica qual crawler as regras seguintes se aplicam. * significa todos os bots. |
Disallow |
Bloqueia o caminho especificado de ser rastreado. |
Allow |
Permite explicitamente um caminho, mesmo dentro de um diretório pai bloqueado. |
Crawl-delay |
Solicita ao bot que aguarde N segundos entre as requisições (não suportado pelo Google). |
Sitemap |
Aponta os crawlers para o seu sitemap XML. |
Valores de User-agent — com quem você está falando?
Cada crawler possui uma string de user-agent única. Os mais importantes:
| User-agent | Crawler | Motor de Busca |
|---|---|---|
* |
Todos os crawlers | — |
Googlebot |
Crawler web do Google | Google Search |
Googlebot-Image |
Crawler de imagens do Google | Google Images |
Googlebot-Video |
Crawler de vídeos do Google | Google Video |
Bingbot |
Crawler da Microsoft Bing | Bing Search |
Slurp |
Crawler do Yahoo! | Yahoo Search |
DuckDuckBot |
Crawler do DuckDuckGo | DuckDuckGo |
Baiduspider |
Crawler do Baidu | Baidu Search |
YandexBot |
Crawler do Yandex | Yandex Search |
GPTBot |
Crawler de treinamento da OpenAI | ChatGPT |
ClaudeBot |
Crawler de treinamento da Anthropic | Claude |
CCBot |
Bot do Common Crawl | Vários datasets de IA |
As regras são aplicadas por user-agent. Se um bot corresponde a um registro específico de user-agent, essas regras se aplicam. Se nenhum registro específico existir, as regras do * (curinga) se aplicam.
Disallow e Allow — como funciona a correspondência de caminhos
Disallow
Disallow: /caminho/ bloqueia aquele caminho e tudo que está abaixo dele.
Disallow: /admin/ # bloqueia /admin/, /admin/users, /admin/login, etc.
Disallow: /private.html # bloqueia exatamente esse arquivo
Disallow: / # bloqueia o site inteiro
Disallow: # valor vazio = permite tudo (sem restrição)
Allow
Allow substitui um Disallow para um caminho mais específico. Regras mais específicas têm prioridade.
User-agent: Googlebot
Disallow: /products/
Allow: /products/featured/ # o Googlebot PODE rastrear /products/featured/ apesar do Disallow acima
Curingas
A maioria dos crawlers (incluindo o Google) suporta dois caracteres curinga:
| Padrão | Significado | Exemplo |
|---|---|---|
* |
Corresponde a qualquer sequência de caracteres | Disallow: /*.pdf$ |
$ |
Corresponde ao final da URL | Disallow: /*.pdf$ — bloqueia URLs terminadas em .pdf |
Disallow: /*? # bloqueia todas as URLs com query strings
Disallow: /*.pdf$ # bloqueia todos os arquivos PDF
Disallow: /tag/*/page/ # bloqueia páginas paginadas de arquivos de tags
Padrões comuns de robots.txt
Permitir tudo (comportamento padrão)
User-agent: *
Disallow:
Um Disallow vazio significa sem restrições. Isso é equivalente a não ter nenhum robots.txt — mas é uma boa prática ter o arquivo presente para que você possa adicionar regras depois.
Bloquear o site inteiro (ex.: ambiente de staging)
User-agent: *
Disallow: /
Use isso em ambientes de desenvolvimento, staging ou pré-visualização para evitar que sejam indexados.
Bloquear diretórios específicos
User-agent: *
Disallow: /admin/
Disallow: /wp-admin/
Disallow: /wp-login.php
Disallow: /checkout/
Disallow: /cart/
Disallow: /account/
Bloquear crawlers de treinamento de IA
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: Google-Extended
Disallow: /
Site de e-commerce — bloquear páginas não indexáveis
User-agent: *
Disallow: /cart/
Disallow: /checkout/
Disallow: /account/
Disallow: /wishlist/
Disallow: /*?sort=
Disallow: /*?filter=
Disallow: /*?ref=
Allow: /products/
Allow: /collections/
Sitemap: https://yourdomain.com/sitemap.xml
Site WordPress
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-login.php
Disallow: /wp-includes/
Disallow: /?s=
Disallow: /search/
Disallow: /trackback/
Sitemap: https://yourdomain.com/sitemap.xml
Como gerar um arquivo robots.txt sem escrever código
Escrever o robots.txt manualmente é propenso a erros — um único erro de digitação pode bloquear páginas que você pretendia permitir. Nosso Gerador de Robots.txt permite que você:
- Selecione quais bots deseja atingir
- Adicione regras de allow e disallow por meio de um formulário simples
- Defina o crawl delay se necessário
- Adicione a URL do seu sitemap
- Copie ou baixe o arquivo pronto instantaneamente
Após gerar, use o Testador de Robots.txt para verificar se suas regras funcionam conforme o esperado antes de publicar.
Onde colocar seu arquivo robots.txt
O arquivo deve estar na raiz do seu domínio:
https://yourdomain.com/robots.txt ✓ correto
https://yourdomain.com/robots/robots.txt ✗ errado
https://subdomain.yourdomain.com/robots.txt ✓ correto (para subdomínio)
Cada subdomínio precisa do seu próprio robots.txt. Um arquivo em www.yourdomain.com/robots.txt não se aplica a blog.yourdomain.com.
Publicando o robots.txt
Site estático (HTML): Faça o upload do robots.txt para a raiz do diretório público do seu servidor web (/public_html/, /dist/, /public/, etc.).
WordPress: Coloque-o na raiz da sua instalação do WordPress. Muitos plugins de SEO (Yoast, RankMath) o gerenciam automaticamente pelo painel administrativo.
Next.js: Coloque o robots.txt na pasta /public, ou use o arquivo robots.js em /app para geração programática (Next.js 13+).
Vercel / Netlify: Coloque em /public — ele será servido a partir da raiz automaticamente no deploy.
robots.txt e SEO — o que fazer corretamente
Não bloqueie CSS e JavaScript
Uma prática legada comum era bloquear /wp-content/ ou /assets/ para economizar crawl budget. Isso tem o efeito contrário: o Google precisa renderizar suas páginas para entendê-las, e bloquear CSS/JS impede isso. Bloqueie apenas o que você genuinamente não quer indexado.
robots.txt não impede indexação — noindex impede
Disallow impede o Google de rastrear uma URL. Não impede o Google de indexá-la se outro site tiver um link para ela. Para impedir a indexação, use a meta tag noindex ou o cabeçalho HTTP X-Robots-Tag na própria página.
Declaração do sitemap
Sempre inclua a URL do seu sitemap no robots.txt — é a forma mais confiável de garantir que os crawlers o encontrem:
Sitemap: https://yourdomain.com/sitemap.xml
Sitemap: https://yourdomain.com/sitemap-images.xml
Você pode listar múltiplos sitemaps.
Crawl budget
Sites grandes (com milhares de páginas) são os que mais se beneficiam da otimização do robots.txt. Bloquear páginas de baixo valor (URLs filtradas, resultados de busca interna, conteúdo duplicado e raso) ajuda o Google a investir seu crawl budget nas páginas que realmente importam.
Validando seu arquivo robots.txt
Após criar o arquivo, verifique-o antes de publicar:
- Testador de Robots.txt — cole seu arquivo e teste URLs específicas para confirmar o comportamento de allow/disallow
- Google Search Console — o relatório de Estatísticas de Rastreamento mostra como o Google está rastreando seu site; a ferramenta de Inspeção de URL mostra se páginas específicas estão bloqueadas
- Verificação manual — acesse
https://yourdomain.com/robots.txtapós publicar para confirmar que o arquivo está ativo e sendo servido corretamente
Perguntas frequentes
O Google sempre segue o robots.txt?
O Google respeita as diretivas Disallow para rastreamento. No entanto, o Google ainda pode indexar uma URL bloqueada se encontrar links para ela — um Disallow bloqueia o rastreamento, não a entrada no índice. Use noindex na própria página para impedir a indexação.
Posso ter múltiplos blocos de User-agent para o mesmo bot? Não. Cada user-agent deve aparecer em apenas um bloco. Se você tiver regras conflitantes para o mesmo bot em múltiplos blocos, o comportamento é indefinido. Combine todas as regras de um determinado user-agent em um único registro.
O que acontece se meu robots.txt tiver um erro de sintaxe? A maioria dos crawlers vai ignorar a regra malformada ou parar de processar no ponto do erro. O Google geralmente continua com as regras que processou com sucesso antes do erro. Teste seu arquivo antes de publicar.
Devo bloquear o Googlebot-Image? Somente se você especificamente não quiser que suas imagens apareçam nos resultados do Google Images. Se você vende fotografia ou mantém um site com muitas imagens, bloquear o Googlebot-Image pode reduzir significativamente o tráfego.
Com que frequência os crawlers releem o robots.txt? O Google normalmente armazena o robots.txt em cache por até 24 horas. Após você atualizar o arquivo, as alterações podem levar até um dia para ser refletidas no comportamento de rastreamento do Google.
O robots.txt afeta a velocidade da página ou os Core Web Vitals? Não. O robots.txt afeta apenas o comportamento de rastreamento, não como as páginas carregam ou se comportam para usuários reais.
Tamanho e limites do arquivo robots.txt
- O Google suporta arquivos robots.txt com até 500 KB de tamanho
- Arquivos maiores que 500 KB são truncados — regras além desse tamanho são ignoradas
- Não há limite oficial para o número de regras, mas mantenha os arquivos organizados e concisos
- A codificação UTF-8 é recomendada; ASCII também funciona
Ferramentas relacionadas
- Gerador de Robots.txt — gere um arquivo robots.txt usando uma interface baseada em formulário
- Testador de Robots.txt — valide suas regras e teste URLs específicas
- Gerador de Sitemap — gere um sitemap XML para usar junto com seu robots.txt
- Gerador de Meta Tags — gere meta tags SEO para suas páginas