Generador de archivo Robots.txt — Qué es y cómo crearlo — FreeTool24

Generador de archivo robots.txt — rastreadores web y SEO

Todos los sitios web de internet reciben visitas de bots — Googlebot, Bingbot, rastreadores de IA y docenas más. Un archivo robots.txt es la forma en que les indicas qué pueden y qué no pueden indexar. Si lo configuras bien, controlas lo que aparece en los resultados de búsqueda. Si lo haces mal, puedes bloquear accidentalmente todo tu sitio en Google.

¿Qué es un archivo robots.txt?

Un archivo robots.txt es un archivo de texto plano ubicado en la raíz de tu sitio web que instruye a los rastreadores qué páginas o secciones deben rastrear y cuáles deben omitir. Sigue el Protocolo de Exclusión de Robots — un estándar informal que prácticamente todos los rastreadores principales respetan.

Cuando Googlebot visita tu sitio, la primera URL que solicita es:

https://yourdomain.com/robots.txt

Si el archivo existe, el bot lee las reglas y ajusta su rastreo en consecuencia. Si no existe, el bot asume que todo está disponible para rastrear.

Importante: robots.txt es una directiva, no una medida de seguridad. Le indica a los bots bien comportados qué no rastrear — no impide el acceso. Los bots maliciosos y los scrapers pueden ignorarlo por completo. Nunca dependas de robots.txt para ocultar contenido sensible.

Estructura del archivo robots.txt

Un archivo robots.txt está compuesto por uno o más registros. Cada registro consiste en:

Una línea User-agent — a qué bot se aplican las reglas
Una o más líneas Disallow o Allow — las reglas de rastreo
Una directiva opcional Crawl-delay
Una directiva opcional Sitemap (a nivel de archivo)

User-agent: Googlebot
Disallow: /admin/
Allow: /admin/public/

User-agent: *
Disallow: /private/
Crawl-delay: 10

Sitemap: https://yourdomain.com/sitemap.xml

Principales directivas explicadas

Directiva	Qué hace
`User-agent`	Especifica a qué rastreador se aplican las reglas siguientes. `*` significa todos los bots.
`Disallow`	Bloquea el rastreo de la ruta especificada.
`Allow`	Permite explícitamente una ruta, incluso dentro de un directorio padre bloqueado.
`Crawl-delay`	Solicita al bot que espere N segundos entre peticiones (no compatible con Google).
`Sitemap`	Indica a los rastreadores dónde está tu sitemap XML.

Valores de User-agent — ¿a quién le estás hablando?

Cada rastreador tiene una cadena de user-agent única. Los más importantes:

User-agent	Rastreador	Motor
`*`	Todos los rastreadores	—
`Googlebot`	Rastreador web de Google	Google Search
`Googlebot-Image`	Rastreador de Google Imágenes	Google Images
`Googlebot-Video`	Rastreador de Google Video	Google Video
`Bingbot`	Rastreador de Microsoft Bing	Bing Search
`Slurp`	Rastreador de Yahoo!	Yahoo Search
`DuckDuckBot`	Rastreador de DuckDuckGo	DuckDuckGo
`Baiduspider`	Rastreador de Baidu	Baidu Search
`YandexBot`	Rastreador de Yandex	Yandex Search
`GPTBot`	Rastreador de entrenamiento de OpenAI	ChatGPT
`ClaudeBot`	Rastreador de entrenamiento de Anthropic	Claude
`CCBot`	Bot de Common Crawl	Varios conjuntos de datos de IA

Las reglas se aplican por user-agent. Si un bot coincide con un registro de user-agent específico, se aplican esas reglas. Si no existe ningún registro específico, se aplican las reglas del comodín *.

Disallow y Allow — cómo funciona la coincidencia de rutas

Disallow

Disallow: /ruta/ bloquea esa ruta y todo lo que hay dentro de ella.

Disallow: /admin/       # bloquea /admin/, /admin/users, /admin/login, etc.
Disallow: /private.html # bloquea exactamente ese archivo
Disallow: /             # bloquea todo el sitio
Disallow:               # valor vacío = permitir todo (sin restricción)

Allow

Allow anula un Disallow para una ruta más específica. Las reglas más específicas tienen prioridad.

User-agent: Googlebot
Disallow: /products/
Allow: /products/featured/   # Googlebot SÍ puede rastrear /products/featured/ a pesar del Disallow anterior

Comodines

La mayoría de los rastreadores (incluido Google) admiten dos caracteres comodín:

Patrón	Significado	Ejemplo
`*`	Coincide con cualquier secuencia de caracteres	`Disallow: /*.pdf$`
`$`	Coincide con el final de la URL	`Disallow: /*.pdf$` — bloquea URLs que terminan en `.pdf`

Disallow: /*?           # bloquea todas las URLs con cadenas de consulta
Disallow: /*.pdf$       # bloquea todos los archivos PDF
Disallow: /tag/*/page/  # bloquea las páginas paginadas de archivos por etiqueta

Patrones comunes de robots.txt

Permitir todo (comportamiento predeterminado)

User-agent: *
Disallow:

Un Disallow vacío significa sin restricciones. Esto equivale a no tener ningún robots.txt — pero es una buena práctica tener el archivo presente para poder agregar reglas más adelante.

Bloquear todo el sitio (p. ej., entorno de staging)

User-agent: *
Disallow: /

Úsalo en entornos de desarrollo, staging o previsualización para evitar que sean indexados.

Bloquear directorios específicos

User-agent: *
Disallow: /admin/
Disallow: /wp-admin/
Disallow: /wp-login.php
Disallow: /checkout/
Disallow: /cart/
Disallow: /account/

Bloquear rastreadores de entrenamiento de IA

User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Google-Extended
Disallow: /

Sitio de comercio electrónico — bloquear páginas no indexables

User-agent: *
Disallow: /cart/
Disallow: /checkout/
Disallow: /account/
Disallow: /wishlist/
Disallow: /*?sort=
Disallow: /*?filter=
Disallow: /*?ref=
Allow: /products/
Allow: /collections/

Sitemap: https://yourdomain.com/sitemap.xml

Sitio WordPress

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-login.php
Disallow: /wp-includes/
Disallow: /?s=
Disallow: /search/
Disallow: /trackback/

Sitemap: https://yourdomain.com/sitemap.xml

Cómo generar un archivo robots.txt sin escribir código

Escribir robots.txt a mano es propenso a errores — un solo error tipográfico puede bloquear páginas que tenías intención de permitir. Nuestro Generador de Robots.txt te permite:

Seleccionar qué bots quieres configurar
Añadir reglas de allow y disallow mediante un formulario sencillo
Establecer el crawl delay si es necesario
Añadir la URL de tu sitemap
Copiar o descargar el archivo terminado al instante

Después de generarlo, usa el Robots.txt Tester para verificar que tus reglas funcionan como esperas antes de publicarlas.

Dónde colocar tu archivo robots.txt

El archivo debe estar en la raíz de tu dominio:

https://yourdomain.com/robots.txt    ✓ correcto
https://yourdomain.com/robots/robots.txt    ✗ incorrecto
https://subdomain.yourdomain.com/robots.txt    ✓ correcto (para subdominio)

Cada subdominio necesita su propio robots.txt. Un archivo en www.yourdomain.com/robots.txt no se aplica a blog.yourdomain.com.

Cómo desplegar robots.txt

Sitio estático (HTML): Sube robots.txt a la raíz del directorio público de tu servidor web (/public_html/, /dist/, /public/, etc.).

WordPress: Colócalo en la raíz de tu instalación de WordPress. Muchos plugins SEO (Yoast, RankMath) lo gestionan automáticamente desde el panel de administración.

Next.js: Coloca robots.txt en la carpeta /public, o usa el archivo robots.js en /app para generación programática (Next.js 13+).

Vercel / Netlify: Colócalo en /public — se servirá desde la raíz automáticamente al desplegarlo.

robots.txt y SEO — qué debes tener en cuenta

No bloquees CSS ni JavaScript

Una práctica heredada habitual era bloquear /wp-content/ o /assets/ para ahorrar presupuesto de rastreo. Esto resulta contraproducente: Google necesita renderizar tus páginas para entenderlas, y bloquear CSS/JS lo impide. Bloquea únicamente lo que realmente no quieres que sea indexado.

robots.txt no impide la indexación — noindex sí lo hace

Disallow impide que Google rastree una URL. No impide que Google la indexe si otro sitio enlaza a ella. Para evitar la indexación, usa la meta etiqueta noindex o la cabecera HTTP X-Robots-Tag en la propia página.

Declaración del sitemap

Incluye siempre la URL de tu sitemap en robots.txt — es la forma más fiable de asegurarte de que los rastreadores lo encuentren:

Sitemap: https://yourdomain.com/sitemap.xml
Sitemap: https://yourdomain.com/sitemap-images.xml

Puedes listar varios sitemaps.

Presupuesto de rastreo

Los sitios grandes (miles de páginas) son los que más se benefician de la optimización del robots.txt. Bloquear páginas de poco valor (URLs con filtros, resultados de búsqueda interna, contenido duplicado o pobre) ayuda a Google a dedicar su presupuesto de rastreo a las páginas que realmente importan.

Validar tu archivo robots.txt

Después de crear el archivo, verifica su funcionamiento antes de publicarlo:

Robots.txt Tester — pega tu archivo y prueba URLs específicas para confirmar el comportamiento de allow/disallow
Google Search Console — el informe de Estadísticas de rastreo muestra cómo Google está rastreando tu sitio; la herramienta de Inspección de URL muestra si páginas específicas están bloqueadas
Verificación manual — visita https://yourdomain.com/robots.txt tras publicarlo para confirmar que el archivo está activo y se sirve correctamente

Preguntas frecuentes

¿Google siempre sigue robots.txt? Google respeta las directivas Disallow para el rastreo. Sin embargo, Google puede seguir indexando una URL bloqueada si encuentra enlaces hacia ella — un Disallow bloquea el rastreo, no la entrada en el índice. Usa noindex en la propia página para evitar la indexación.

¿Puedo tener varios bloques de User-agent para el mismo bot? No. Cada user-agent debe aparecer en un único bloque. Si tienes reglas contradictorias para el mismo bot en varios bloques, el comportamiento es indefinido. Combina todas las reglas de un user-agent en un único registro.

¿Qué ocurre si mi robots.txt tiene un error de sintaxis? La mayoría de los rastreadores ignorarán la regla mal formada o dejarán de analizar en el punto del error. Google generalmente continuará con las reglas que analizó correctamente antes del error. Prueba el archivo antes de publicarlo.

¿Debo bloquear Googlebot-Image? Solo si específicamente no quieres que tus imágenes aparezcan en los resultados de Google Imágenes. Si vendes fotografía o gestionas un sitio con muchas imágenes, bloquear Googlebot-Image podría reducir el tráfico de forma significativa.

¿Con qué frecuencia vuelven a leer los rastreadores el robots.txt? Google normalmente almacena en caché el robots.txt hasta 24 horas. Tras actualizar el archivo, los cambios pueden tardar hasta un día en reflejarse en el comportamiento de rastreo de Google.

¿Afecta robots.txt a la velocidad de página o a las Core Web Vitals? No. robots.txt solo afecta al comportamiento de rastreo, no a cómo cargan o rinden las páginas para los usuarios reales.

Tamaño y límites del archivo robots.txt

Google admite archivos robots.txt de hasta 500 KB de tamaño
Los archivos de más de 500 KB se truncan — las reglas que superen ese tamaño se ignoran
No hay un límite oficial en el número de reglas, pero mantén los archivos organizados y concisos
Se recomienda la codificación UTF-8; ASCII también funciona

Herramientas relacionadas

Robots.txt Generator — genera un archivo robots.txt mediante una interfaz basada en formulario
Robots.txt Tester — valida tus reglas y prueba URLs específicas
Sitemap Generator — genera un sitemap XML para acompañar tu robots.txt
Meta Tag Generator — genera meta etiquetas SEO para tus páginas