Gerador de Arquivo Robots.txt — O Que É e Como Criar Um — FreeTool24

Gerador de arquivo robots.txt — crawlers e SEO

Todo site na internet é visitado por bots — Googlebot, Bingbot, crawlers de IA e dezenas de outros. Um arquivo robots.txt é a forma de informar a eles o que podem e o que não podem indexar. Faça isso corretamente e você controla o que aparece nos resultados de busca. Faça errado e você pode acidentalmente bloquear seu site inteiro do Google.

O que é um arquivo robots.txt?

Um arquivo robots.txt é um arquivo de texto simples colocado na raiz do seu site que instrui os crawlers sobre quais páginas ou seções devem ser rastreadas e quais devem ser ignoradas. Ele segue o Robots Exclusion Protocol — um padrão informal respeitado por praticamente todos os principais crawlers.

Quando o Googlebot visita seu site, a primeira URL que ele solicita é:

https://yourdomain.com/robots.txt

Se o arquivo existir, o bot lê as regras e ajusta o rastreamento de acordo. Se não existir, o bot assume que tudo está aberto para rastreamento.

Importante: robots.txt é uma diretiva, não uma medida de segurança. Ele informa a bots bem-comportados o que não rastrear — não impede o acesso. Bots maliciosos e scrapers podem ignorá-lo completamente. Nunca use o robots.txt para proteger conteúdo sensível.

Estrutura do arquivo robots.txt

Um arquivo robots.txt é composto por um ou mais registros. Cada registro consiste em:

Uma linha User-agent — para qual bot as regras se aplicam
Uma ou mais linhas Disallow ou Allow — as regras de rastreamento
Uma diretiva opcional Crawl-delay
Uma diretiva opcional Sitemap (no nível do arquivo)

User-agent: Googlebot
Disallow: /admin/
Allow: /admin/public/

User-agent: *
Disallow: /private/
Crawl-delay: 10

Sitemap: https://yourdomain.com/sitemap.xml

Principais diretivas explicadas

Diretiva	O que faz
`User-agent`	Especifica qual crawler as regras seguintes se aplicam. `*` significa todos os bots.
`Disallow`	Bloqueia o caminho especificado de ser rastreado.
`Allow`	Permite explicitamente um caminho, mesmo dentro de um diretório pai bloqueado.
`Crawl-delay`	Solicita ao bot que aguarde N segundos entre as requisições (não suportado pelo Google).
`Sitemap`	Aponta os crawlers para o seu sitemap XML.

Valores de User-agent — com quem você está falando?

Cada crawler possui uma string de user-agent única. Os mais importantes:

User-agent	Crawler	Motor de Busca
`*`	Todos os crawlers	—
`Googlebot`	Crawler web do Google	Google Search
`Googlebot-Image`	Crawler de imagens do Google	Google Images
`Googlebot-Video`	Crawler de vídeos do Google	Google Video
`Bingbot`	Crawler da Microsoft Bing	Bing Search
`Slurp`	Crawler do Yahoo!	Yahoo Search
`DuckDuckBot`	Crawler do DuckDuckGo	DuckDuckGo
`Baiduspider`	Crawler do Baidu	Baidu Search
`YandexBot`	Crawler do Yandex	Yandex Search
`GPTBot`	Crawler de treinamento da OpenAI	ChatGPT
`ClaudeBot`	Crawler de treinamento da Anthropic	Claude
`CCBot`	Bot do Common Crawl	Vários datasets de IA

As regras são aplicadas por user-agent. Se um bot corresponde a um registro específico de user-agent, essas regras se aplicam. Se nenhum registro específico existir, as regras do * (curinga) se aplicam.

Disallow e Allow — como funciona a correspondência de caminhos

Disallow

Disallow: /caminho/ bloqueia aquele caminho e tudo que está abaixo dele.

Disallow: /admin/       # bloqueia /admin/, /admin/users, /admin/login, etc.
Disallow: /private.html # bloqueia exatamente esse arquivo
Disallow: /             # bloqueia o site inteiro
Disallow:               # valor vazio = permite tudo (sem restrição)

Allow

Allow substitui um Disallow para um caminho mais específico. Regras mais específicas têm prioridade.

User-agent: Googlebot
Disallow: /products/
Allow: /products/featured/   # o Googlebot PODE rastrear /products/featured/ apesar do Disallow acima

Curingas

A maioria dos crawlers (incluindo o Google) suporta dois caracteres curinga:

Padrão	Significado	Exemplo
`*`	Corresponde a qualquer sequência de caracteres	`Disallow: /*.pdf$`
`$`	Corresponde ao final da URL	`Disallow: /*.pdf$` — bloqueia URLs terminadas em `.pdf`

Disallow: /*?           # bloqueia todas as URLs com query strings
Disallow: /*.pdf$       # bloqueia todos os arquivos PDF
Disallow: /tag/*/page/  # bloqueia páginas paginadas de arquivos de tags

Padrões comuns de robots.txt

Permitir tudo (comportamento padrão)

User-agent: *
Disallow:

Um Disallow vazio significa sem restrições. Isso é equivalente a não ter nenhum robots.txt — mas é uma boa prática ter o arquivo presente para que você possa adicionar regras depois.

Bloquear o site inteiro (ex.: ambiente de staging)

User-agent: *
Disallow: /

Use isso em ambientes de desenvolvimento, staging ou pré-visualização para evitar que sejam indexados.

Bloquear diretórios específicos

User-agent: *
Disallow: /admin/
Disallow: /wp-admin/
Disallow: /wp-login.php
Disallow: /checkout/
Disallow: /cart/
Disallow: /account/

Bloquear crawlers de treinamento de IA

User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Google-Extended
Disallow: /

Site de e-commerce — bloquear páginas não indexáveis

User-agent: *
Disallow: /cart/
Disallow: /checkout/
Disallow: /account/
Disallow: /wishlist/
Disallow: /*?sort=
Disallow: /*?filter=
Disallow: /*?ref=
Allow: /products/
Allow: /collections/

Sitemap: https://yourdomain.com/sitemap.xml

Site WordPress

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-login.php
Disallow: /wp-includes/
Disallow: /?s=
Disallow: /search/
Disallow: /trackback/

Sitemap: https://yourdomain.com/sitemap.xml

Como gerar um arquivo robots.txt sem escrever código

Escrever o robots.txt manualmente é propenso a erros — um único erro de digitação pode bloquear páginas que você pretendia permitir. Nosso Gerador de Robots.txt permite que você:

Selecione quais bots deseja atingir
Adicione regras de allow e disallow por meio de um formulário simples
Defina o crawl delay se necessário
Adicione a URL do seu sitemap
Copie ou baixe o arquivo pronto instantaneamente

Após gerar, use o Testador de Robots.txt para verificar se suas regras funcionam conforme o esperado antes de publicar.

Onde colocar seu arquivo robots.txt

O arquivo deve estar na raiz do seu domínio:

https://yourdomain.com/robots.txt    ✓ correto
https://yourdomain.com/robots/robots.txt    ✗ errado
https://subdomain.yourdomain.com/robots.txt    ✓ correto (para subdomínio)

Cada subdomínio precisa do seu próprio robots.txt. Um arquivo em www.yourdomain.com/robots.txt não se aplica a blog.yourdomain.com.

Publicando o robots.txt

Site estático (HTML): Faça o upload do robots.txt para a raiz do diretório público do seu servidor web (/public_html/, /dist/, /public/, etc.).

WordPress: Coloque-o na raiz da sua instalação do WordPress. Muitos plugins de SEO (Yoast, RankMath) o gerenciam automaticamente pelo painel administrativo.

Next.js: Coloque o robots.txt na pasta /public, ou use o arquivo robots.js em /app para geração programática (Next.js 13+).

Vercel / Netlify: Coloque em /public — ele será servido a partir da raiz automaticamente no deploy.

robots.txt e SEO — o que fazer corretamente

Não bloqueie CSS e JavaScript

Uma prática legada comum era bloquear /wp-content/ ou /assets/ para economizar crawl budget. Isso tem o efeito contrário: o Google precisa renderizar suas páginas para entendê-las, e bloquear CSS/JS impede isso. Bloqueie apenas o que você genuinamente não quer indexado.

robots.txt não impede indexação — noindex impede

Disallow impede o Google de rastrear uma URL. Não impede o Google de indexá-la se outro site tiver um link para ela. Para impedir a indexação, use a meta tag noindex ou o cabeçalho HTTP X-Robots-Tag na própria página.

Declaração do sitemap

Sempre inclua a URL do seu sitemap no robots.txt — é a forma mais confiável de garantir que os crawlers o encontrem:

Sitemap: https://yourdomain.com/sitemap.xml
Sitemap: https://yourdomain.com/sitemap-images.xml

Você pode listar múltiplos sitemaps.

Crawl budget

Sites grandes (com milhares de páginas) são os que mais se beneficiam da otimização do robots.txt. Bloquear páginas de baixo valor (URLs filtradas, resultados de busca interna, conteúdo duplicado e raso) ajuda o Google a investir seu crawl budget nas páginas que realmente importam.

Validando seu arquivo robots.txt

Após criar o arquivo, verifique-o antes de publicar:

Testador de Robots.txt — cole seu arquivo e teste URLs específicas para confirmar o comportamento de allow/disallow
Google Search Console — o relatório de Estatísticas de Rastreamento mostra como o Google está rastreando seu site; a ferramenta de Inspeção de URL mostra se páginas específicas estão bloqueadas
Verificação manual — acesse https://yourdomain.com/robots.txt após publicar para confirmar que o arquivo está ativo e sendo servido corretamente

Perguntas frequentes

O Google sempre segue o robots.txt? O Google respeita as diretivas Disallow para rastreamento. No entanto, o Google ainda pode indexar uma URL bloqueada se encontrar links para ela — um Disallow bloqueia o rastreamento, não a entrada no índice. Use noindex na própria página para impedir a indexação.

Posso ter múltiplos blocos de User-agent para o mesmo bot? Não. Cada user-agent deve aparecer em apenas um bloco. Se você tiver regras conflitantes para o mesmo bot em múltiplos blocos, o comportamento é indefinido. Combine todas as regras de um determinado user-agent em um único registro.

O que acontece se meu robots.txt tiver um erro de sintaxe? A maioria dos crawlers vai ignorar a regra malformada ou parar de processar no ponto do erro. O Google geralmente continua com as regras que processou com sucesso antes do erro. Teste seu arquivo antes de publicar.

Devo bloquear o Googlebot-Image? Somente se você especificamente não quiser que suas imagens apareçam nos resultados do Google Images. Se você vende fotografia ou mantém um site com muitas imagens, bloquear o Googlebot-Image pode reduzir significativamente o tráfego.

Com que frequência os crawlers releem o robots.txt? O Google normalmente armazena o robots.txt em cache por até 24 horas. Após você atualizar o arquivo, as alterações podem levar até um dia para ser refletidas no comportamento de rastreamento do Google.

O robots.txt afeta a velocidade da página ou os Core Web Vitals? Não. O robots.txt afeta apenas o comportamento de rastreamento, não como as páginas carregam ou se comportam para usuários reais.

Tamanho e limites do arquivo robots.txt

O Google suporta arquivos robots.txt com até 500 KB de tamanho
Arquivos maiores que 500 KB são truncados — regras além desse tamanho são ignoradas
Não há limite oficial para o número de regras, mas mantenha os arquivos organizados e concisos
A codificação UTF-8 é recomendada; ASCII também funciona

Ferramentas relacionadas

Gerador de Robots.txt — gere um arquivo robots.txt usando uma interface baseada em formulário
Testador de Robots.txt — valide suas regras e teste URLs específicas
Gerador de Sitemap — gere um sitemap XML para usar junto com seu robots.txt
Gerador de Meta Tags — gere meta tags SEO para suas páginas