SEO Tools

Gerador de Arquivo Robots.txt — O Que É e Como Criar Um

Aprenda o que faz um arquivo robots.txt, como funcionam as regras de rastreamento e como gerar um robots.txt correto para o seu site sem precisar escrever código.

8 min de leitura

Gerador de arquivo robots.txt — crawlers e SEO

Todo site na internet é visitado por bots — Googlebot, Bingbot, crawlers de IA e dezenas de outros. Um arquivo robots.txt é a forma de informar a eles o que podem e o que não podem indexar. Faça isso corretamente e você controla o que aparece nos resultados de busca. Faça errado e você pode acidentalmente bloquear seu site inteiro do Google.

O que é um arquivo robots.txt?

Um arquivo robots.txt é um arquivo de texto simples colocado na raiz do seu site que instrui os crawlers sobre quais páginas ou seções devem ser rastreadas e quais devem ser ignoradas. Ele segue o Robots Exclusion Protocol — um padrão informal respeitado por praticamente todos os principais crawlers.

Quando o Googlebot visita seu site, a primeira URL que ele solicita é:

https://yourdomain.com/robots.txt

Se o arquivo existir, o bot lê as regras e ajusta o rastreamento de acordo. Se não existir, o bot assume que tudo está aberto para rastreamento.

Importante: robots.txt é uma diretiva, não uma medida de segurança. Ele informa a bots bem-comportados o que não rastrear — não impede o acesso. Bots maliciosos e scrapers podem ignorá-lo completamente. Nunca use o robots.txt para proteger conteúdo sensível.


Estrutura do arquivo robots.txt

Um arquivo robots.txt é composto por um ou mais registros. Cada registro consiste em:

  1. Uma linha User-agent — para qual bot as regras se aplicam
  2. Uma ou mais linhas Disallow ou Allow — as regras de rastreamento
  3. Uma diretiva opcional Crawl-delay
  4. Uma diretiva opcional Sitemap (no nível do arquivo)
User-agent: Googlebot
Disallow: /admin/
Allow: /admin/public/

User-agent: *
Disallow: /private/
Crawl-delay: 10

Sitemap: https://yourdomain.com/sitemap.xml

Principais diretivas explicadas

Diretiva O que faz
User-agent Especifica qual crawler as regras seguintes se aplicam. * significa todos os bots.
Disallow Bloqueia o caminho especificado de ser rastreado.
Allow Permite explicitamente um caminho, mesmo dentro de um diretório pai bloqueado.
Crawl-delay Solicita ao bot que aguarde N segundos entre as requisições (não suportado pelo Google).
Sitemap Aponta os crawlers para o seu sitemap XML.

Valores de User-agent — com quem você está falando?

Cada crawler possui uma string de user-agent única. Os mais importantes:

User-agent Crawler Motor de Busca
* Todos os crawlers
Googlebot Crawler web do Google Google Search
Googlebot-Image Crawler de imagens do Google Google Images
Googlebot-Video Crawler de vídeos do Google Google Video
Bingbot Crawler da Microsoft Bing Bing Search
Slurp Crawler do Yahoo! Yahoo Search
DuckDuckBot Crawler do DuckDuckGo DuckDuckGo
Baiduspider Crawler do Baidu Baidu Search
YandexBot Crawler do Yandex Yandex Search
GPTBot Crawler de treinamento da OpenAI ChatGPT
ClaudeBot Crawler de treinamento da Anthropic Claude
CCBot Bot do Common Crawl Vários datasets de IA

As regras são aplicadas por user-agent. Se um bot corresponde a um registro específico de user-agent, essas regras se aplicam. Se nenhum registro específico existir, as regras do * (curinga) se aplicam.


Disallow e Allow — como funciona a correspondência de caminhos

Disallow

Disallow: /caminho/ bloqueia aquele caminho e tudo que está abaixo dele.

Disallow: /admin/       # bloqueia /admin/, /admin/users, /admin/login, etc.
Disallow: /private.html # bloqueia exatamente esse arquivo
Disallow: /             # bloqueia o site inteiro
Disallow:               # valor vazio = permite tudo (sem restrição)

Allow

Allow substitui um Disallow para um caminho mais específico. Regras mais específicas têm prioridade.

User-agent: Googlebot
Disallow: /products/
Allow: /products/featured/   # o Googlebot PODE rastrear /products/featured/ apesar do Disallow acima

Curingas

A maioria dos crawlers (incluindo o Google) suporta dois caracteres curinga:

Padrão Significado Exemplo
* Corresponde a qualquer sequência de caracteres Disallow: /*.pdf$
$ Corresponde ao final da URL Disallow: /*.pdf$ — bloqueia URLs terminadas em .pdf
Disallow: /*?           # bloqueia todas as URLs com query strings
Disallow: /*.pdf$       # bloqueia todos os arquivos PDF
Disallow: /tag/*/page/  # bloqueia páginas paginadas de arquivos de tags

Padrões comuns de robots.txt

Permitir tudo (comportamento padrão)

User-agent: *
Disallow:

Um Disallow vazio significa sem restrições. Isso é equivalente a não ter nenhum robots.txt — mas é uma boa prática ter o arquivo presente para que você possa adicionar regras depois.

Bloquear o site inteiro (ex.: ambiente de staging)

User-agent: *
Disallow: /

Use isso em ambientes de desenvolvimento, staging ou pré-visualização para evitar que sejam indexados.

Bloquear diretórios específicos

User-agent: *
Disallow: /admin/
Disallow: /wp-admin/
Disallow: /wp-login.php
Disallow: /checkout/
Disallow: /cart/
Disallow: /account/

Bloquear crawlers de treinamento de IA

User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Google-Extended
Disallow: /

Site de e-commerce — bloquear páginas não indexáveis

User-agent: *
Disallow: /cart/
Disallow: /checkout/
Disallow: /account/
Disallow: /wishlist/
Disallow: /*?sort=
Disallow: /*?filter=
Disallow: /*?ref=
Allow: /products/
Allow: /collections/

Sitemap: https://yourdomain.com/sitemap.xml

Site WordPress

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-login.php
Disallow: /wp-includes/
Disallow: /?s=
Disallow: /search/
Disallow: /trackback/

Sitemap: https://yourdomain.com/sitemap.xml

Como gerar um arquivo robots.txt sem escrever código

Escrever o robots.txt manualmente é propenso a erros — um único erro de digitação pode bloquear páginas que você pretendia permitir. Nosso Gerador de Robots.txt permite que você:

  1. Selecione quais bots deseja atingir
  2. Adicione regras de allow e disallow por meio de um formulário simples
  3. Defina o crawl delay se necessário
  4. Adicione a URL do seu sitemap
  5. Copie ou baixe o arquivo pronto instantaneamente

Após gerar, use o Testador de Robots.txt para verificar se suas regras funcionam conforme o esperado antes de publicar.


Onde colocar seu arquivo robots.txt

O arquivo deve estar na raiz do seu domínio:

https://yourdomain.com/robots.txt    ✓ correto
https://yourdomain.com/robots/robots.txt    ✗ errado
https://subdomain.yourdomain.com/robots.txt    ✓ correto (para subdomínio)

Cada subdomínio precisa do seu próprio robots.txt. Um arquivo em www.yourdomain.com/robots.txt não se aplica a blog.yourdomain.com.

Publicando o robots.txt

Site estático (HTML): Faça o upload do robots.txt para a raiz do diretório público do seu servidor web (/public_html/, /dist/, /public/, etc.).

WordPress: Coloque-o na raiz da sua instalação do WordPress. Muitos plugins de SEO (Yoast, RankMath) o gerenciam automaticamente pelo painel administrativo.

Next.js: Coloque o robots.txt na pasta /public, ou use o arquivo robots.js em /app para geração programática (Next.js 13+).

Vercel / Netlify: Coloque em /public — ele será servido a partir da raiz automaticamente no deploy.


robots.txt e SEO — o que fazer corretamente

Não bloqueie CSS e JavaScript

Uma prática legada comum era bloquear /wp-content/ ou /assets/ para economizar crawl budget. Isso tem o efeito contrário: o Google precisa renderizar suas páginas para entendê-las, e bloquear CSS/JS impede isso. Bloqueie apenas o que você genuinamente não quer indexado.

robots.txt não impede indexação — noindex impede

Disallow impede o Google de rastrear uma URL. Não impede o Google de indexá-la se outro site tiver um link para ela. Para impedir a indexação, use a meta tag noindex ou o cabeçalho HTTP X-Robots-Tag na própria página.

Declaração do sitemap

Sempre inclua a URL do seu sitemap no robots.txt — é a forma mais confiável de garantir que os crawlers o encontrem:

Sitemap: https://yourdomain.com/sitemap.xml
Sitemap: https://yourdomain.com/sitemap-images.xml

Você pode listar múltiplos sitemaps.

Crawl budget

Sites grandes (com milhares de páginas) são os que mais se beneficiam da otimização do robots.txt. Bloquear páginas de baixo valor (URLs filtradas, resultados de busca interna, conteúdo duplicado e raso) ajuda o Google a investir seu crawl budget nas páginas que realmente importam.


Validando seu arquivo robots.txt

Após criar o arquivo, verifique-o antes de publicar:

  1. Testador de Robots.txt — cole seu arquivo e teste URLs específicas para confirmar o comportamento de allow/disallow
  2. Google Search Console — o relatório de Estatísticas de Rastreamento mostra como o Google está rastreando seu site; a ferramenta de Inspeção de URL mostra se páginas específicas estão bloqueadas
  3. Verificação manual — acesse https://yourdomain.com/robots.txt após publicar para confirmar que o arquivo está ativo e sendo servido corretamente

Perguntas frequentes

O Google sempre segue o robots.txt? O Google respeita as diretivas Disallow para rastreamento. No entanto, o Google ainda pode indexar uma URL bloqueada se encontrar links para ela — um Disallow bloqueia o rastreamento, não a entrada no índice. Use noindex na própria página para impedir a indexação.

Posso ter múltiplos blocos de User-agent para o mesmo bot? Não. Cada user-agent deve aparecer em apenas um bloco. Se você tiver regras conflitantes para o mesmo bot em múltiplos blocos, o comportamento é indefinido. Combine todas as regras de um determinado user-agent em um único registro.

O que acontece se meu robots.txt tiver um erro de sintaxe? A maioria dos crawlers vai ignorar a regra malformada ou parar de processar no ponto do erro. O Google geralmente continua com as regras que processou com sucesso antes do erro. Teste seu arquivo antes de publicar.

Devo bloquear o Googlebot-Image? Somente se você especificamente não quiser que suas imagens apareçam nos resultados do Google Images. Se você vende fotografia ou mantém um site com muitas imagens, bloquear o Googlebot-Image pode reduzir significativamente o tráfego.

Com que frequência os crawlers releem o robots.txt? O Google normalmente armazena o robots.txt em cache por até 24 horas. Após você atualizar o arquivo, as alterações podem levar até um dia para ser refletidas no comportamento de rastreamento do Google.

O robots.txt afeta a velocidade da página ou os Core Web Vitals? Não. O robots.txt afeta apenas o comportamento de rastreamento, não como as páginas carregam ou se comportam para usuários reais.


Tamanho e limites do arquivo robots.txt

  • O Google suporta arquivos robots.txt com até 500 KB de tamanho
  • Arquivos maiores que 500 KB são truncados — regras além desse tamanho são ignoradas
  • Não há limite oficial para o número de regras, mas mantenha os arquivos organizados e concisos
  • A codificação UTF-8 é recomendada; ASCII também funciona

Ferramentas relacionadas