Generador de archivo Robots.txt — Qué es y cómo crearlo
Aprende qué hace un archivo robots.txt, cómo funcionan las reglas de rastreo y cómo generar un robots.txt correcto para tu sitio web sin tocar código.
Todos los sitios web de internet reciben visitas de bots — Googlebot, Bingbot, rastreadores de IA y docenas más. Un archivo robots.txt es la forma en que les indicas qué pueden y qué no pueden indexar. Si lo configuras bien, controlas lo que aparece en los resultados de búsqueda. Si lo haces mal, puedes bloquear accidentalmente todo tu sitio en Google.
¿Qué es un archivo robots.txt?
Un archivo robots.txt es un archivo de texto plano ubicado en la raíz de tu sitio web que instruye a los rastreadores qué páginas o secciones deben rastrear y cuáles deben omitir. Sigue el Protocolo de Exclusión de Robots — un estándar informal que prácticamente todos los rastreadores principales respetan.
Cuando Googlebot visita tu sitio, la primera URL que solicita es:
https://yourdomain.com/robots.txt
Si el archivo existe, el bot lee las reglas y ajusta su rastreo en consecuencia. Si no existe, el bot asume que todo está disponible para rastrear.
Importante: robots.txt es una directiva, no una medida de seguridad. Le indica a los bots bien comportados qué no rastrear — no impide el acceso. Los bots maliciosos y los scrapers pueden ignorarlo por completo. Nunca dependas de robots.txt para ocultar contenido sensible.
Estructura del archivo robots.txt
Un archivo robots.txt está compuesto por uno o más registros. Cada registro consiste en:
- Una línea
User-agent— a qué bot se aplican las reglas - Una o más líneas
DisallowoAllow— las reglas de rastreo - Una directiva opcional
Crawl-delay - Una directiva opcional
Sitemap(a nivel de archivo)
User-agent: Googlebot
Disallow: /admin/
Allow: /admin/public/
User-agent: *
Disallow: /private/
Crawl-delay: 10
Sitemap: https://yourdomain.com/sitemap.xml
Principales directivas explicadas
| Directiva | Qué hace |
|---|---|
User-agent |
Especifica a qué rastreador se aplican las reglas siguientes. * significa todos los bots. |
Disallow |
Bloquea el rastreo de la ruta especificada. |
Allow |
Permite explícitamente una ruta, incluso dentro de un directorio padre bloqueado. |
Crawl-delay |
Solicita al bot que espere N segundos entre peticiones (no compatible con Google). |
Sitemap |
Indica a los rastreadores dónde está tu sitemap XML. |
Valores de User-agent — ¿a quién le estás hablando?
Cada rastreador tiene una cadena de user-agent única. Los más importantes:
| User-agent | Rastreador | Motor |
|---|---|---|
* |
Todos los rastreadores | — |
Googlebot |
Rastreador web de Google | Google Search |
Googlebot-Image |
Rastreador de Google Imágenes | Google Images |
Googlebot-Video |
Rastreador de Google Video | Google Video |
Bingbot |
Rastreador de Microsoft Bing | Bing Search |
Slurp |
Rastreador de Yahoo! | Yahoo Search |
DuckDuckBot |
Rastreador de DuckDuckGo | DuckDuckGo |
Baiduspider |
Rastreador de Baidu | Baidu Search |
YandexBot |
Rastreador de Yandex | Yandex Search |
GPTBot |
Rastreador de entrenamiento de OpenAI | ChatGPT |
ClaudeBot |
Rastreador de entrenamiento de Anthropic | Claude |
CCBot |
Bot de Common Crawl | Varios conjuntos de datos de IA |
Las reglas se aplican por user-agent. Si un bot coincide con un registro de user-agent específico, se aplican esas reglas. Si no existe ningún registro específico, se aplican las reglas del comodín *.
Disallow y Allow — cómo funciona la coincidencia de rutas
Disallow
Disallow: /ruta/ bloquea esa ruta y todo lo que hay dentro de ella.
Disallow: /admin/ # bloquea /admin/, /admin/users, /admin/login, etc.
Disallow: /private.html # bloquea exactamente ese archivo
Disallow: / # bloquea todo el sitio
Disallow: # valor vacío = permitir todo (sin restricción)
Allow
Allow anula un Disallow para una ruta más específica. Las reglas más específicas tienen prioridad.
User-agent: Googlebot
Disallow: /products/
Allow: /products/featured/ # Googlebot SÍ puede rastrear /products/featured/ a pesar del Disallow anterior
Comodines
La mayoría de los rastreadores (incluido Google) admiten dos caracteres comodín:
| Patrón | Significado | Ejemplo |
|---|---|---|
* |
Coincide con cualquier secuencia de caracteres | Disallow: /*.pdf$ |
$ |
Coincide con el final de la URL | Disallow: /*.pdf$ — bloquea URLs que terminan en .pdf |
Disallow: /*? # bloquea todas las URLs con cadenas de consulta
Disallow: /*.pdf$ # bloquea todos los archivos PDF
Disallow: /tag/*/page/ # bloquea las páginas paginadas de archivos por etiqueta
Patrones comunes de robots.txt
Permitir todo (comportamiento predeterminado)
User-agent: *
Disallow:
Un Disallow vacío significa sin restricciones. Esto equivale a no tener ningún robots.txt — pero es una buena práctica tener el archivo presente para poder agregar reglas más adelante.
Bloquear todo el sitio (p. ej., entorno de staging)
User-agent: *
Disallow: /
Úsalo en entornos de desarrollo, staging o previsualización para evitar que sean indexados.
Bloquear directorios específicos
User-agent: *
Disallow: /admin/
Disallow: /wp-admin/
Disallow: /wp-login.php
Disallow: /checkout/
Disallow: /cart/
Disallow: /account/
Bloquear rastreadores de entrenamiento de IA
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: Google-Extended
Disallow: /
Sitio de comercio electrónico — bloquear páginas no indexables
User-agent: *
Disallow: /cart/
Disallow: /checkout/
Disallow: /account/
Disallow: /wishlist/
Disallow: /*?sort=
Disallow: /*?filter=
Disallow: /*?ref=
Allow: /products/
Allow: /collections/
Sitemap: https://yourdomain.com/sitemap.xml
Sitio WordPress
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-login.php
Disallow: /wp-includes/
Disallow: /?s=
Disallow: /search/
Disallow: /trackback/
Sitemap: https://yourdomain.com/sitemap.xml
Cómo generar un archivo robots.txt sin escribir código
Escribir robots.txt a mano es propenso a errores — un solo error tipográfico puede bloquear páginas que tenías intención de permitir. Nuestro Generador de Robots.txt te permite:
- Seleccionar qué bots quieres configurar
- Añadir reglas de allow y disallow mediante un formulario sencillo
- Establecer el crawl delay si es necesario
- Añadir la URL de tu sitemap
- Copiar o descargar el archivo terminado al instante
Después de generarlo, usa el Robots.txt Tester para verificar que tus reglas funcionan como esperas antes de publicarlas.
Dónde colocar tu archivo robots.txt
El archivo debe estar en la raíz de tu dominio:
https://yourdomain.com/robots.txt ✓ correcto
https://yourdomain.com/robots/robots.txt ✗ incorrecto
https://subdomain.yourdomain.com/robots.txt ✓ correcto (para subdominio)
Cada subdominio necesita su propio robots.txt. Un archivo en www.yourdomain.com/robots.txt no se aplica a blog.yourdomain.com.
Cómo desplegar robots.txt
Sitio estático (HTML): Sube robots.txt a la raíz del directorio público de tu servidor web (/public_html/, /dist/, /public/, etc.).
WordPress: Colócalo en la raíz de tu instalación de WordPress. Muchos plugins SEO (Yoast, RankMath) lo gestionan automáticamente desde el panel de administración.
Next.js: Coloca robots.txt en la carpeta /public, o usa el archivo robots.js en /app para generación programática (Next.js 13+).
Vercel / Netlify: Colócalo en /public — se servirá desde la raíz automáticamente al desplegarlo.
robots.txt y SEO — qué debes tener en cuenta
No bloquees CSS ni JavaScript
Una práctica heredada habitual era bloquear /wp-content/ o /assets/ para ahorrar presupuesto de rastreo. Esto resulta contraproducente: Google necesita renderizar tus páginas para entenderlas, y bloquear CSS/JS lo impide. Bloquea únicamente lo que realmente no quieres que sea indexado.
robots.txt no impide la indexación — noindex sí lo hace
Disallow impide que Google rastree una URL. No impide que Google la indexe si otro sitio enlaza a ella. Para evitar la indexación, usa la meta etiqueta noindex o la cabecera HTTP X-Robots-Tag en la propia página.
Declaración del sitemap
Incluye siempre la URL de tu sitemap en robots.txt — es la forma más fiable de asegurarte de que los rastreadores lo encuentren:
Sitemap: https://yourdomain.com/sitemap.xml
Sitemap: https://yourdomain.com/sitemap-images.xml
Puedes listar varios sitemaps.
Presupuesto de rastreo
Los sitios grandes (miles de páginas) son los que más se benefician de la optimización del robots.txt. Bloquear páginas de poco valor (URLs con filtros, resultados de búsqueda interna, contenido duplicado o pobre) ayuda a Google a dedicar su presupuesto de rastreo a las páginas que realmente importan.
Validar tu archivo robots.txt
Después de crear el archivo, verifica su funcionamiento antes de publicarlo:
- Robots.txt Tester — pega tu archivo y prueba URLs específicas para confirmar el comportamiento de allow/disallow
- Google Search Console — el informe de Estadísticas de rastreo muestra cómo Google está rastreando tu sitio; la herramienta de Inspección de URL muestra si páginas específicas están bloqueadas
- Verificación manual — visita
https://yourdomain.com/robots.txttras publicarlo para confirmar que el archivo está activo y se sirve correctamente
Preguntas frecuentes
¿Google siempre sigue robots.txt?
Google respeta las directivas Disallow para el rastreo. Sin embargo, Google puede seguir indexando una URL bloqueada si encuentra enlaces hacia ella — un Disallow bloquea el rastreo, no la entrada en el índice. Usa noindex en la propia página para evitar la indexación.
¿Puedo tener varios bloques de User-agent para el mismo bot? No. Cada user-agent debe aparecer en un único bloque. Si tienes reglas contradictorias para el mismo bot en varios bloques, el comportamiento es indefinido. Combina todas las reglas de un user-agent en un único registro.
¿Qué ocurre si mi robots.txt tiene un error de sintaxis? La mayoría de los rastreadores ignorarán la regla mal formada o dejarán de analizar en el punto del error. Google generalmente continuará con las reglas que analizó correctamente antes del error. Prueba el archivo antes de publicarlo.
¿Debo bloquear Googlebot-Image? Solo si específicamente no quieres que tus imágenes aparezcan en los resultados de Google Imágenes. Si vendes fotografía o gestionas un sitio con muchas imágenes, bloquear Googlebot-Image podría reducir el tráfico de forma significativa.
¿Con qué frecuencia vuelven a leer los rastreadores el robots.txt? Google normalmente almacena en caché el robots.txt hasta 24 horas. Tras actualizar el archivo, los cambios pueden tardar hasta un día en reflejarse en el comportamiento de rastreo de Google.
¿Afecta robots.txt a la velocidad de página o a las Core Web Vitals? No. robots.txt solo afecta al comportamiento de rastreo, no a cómo cargan o rinden las páginas para los usuarios reales.
Tamaño y límites del archivo robots.txt
- Google admite archivos robots.txt de hasta 500 KB de tamaño
- Los archivos de más de 500 KB se truncan — las reglas que superen ese tamaño se ignoran
- No hay un límite oficial en el número de reglas, pero mantén los archivos organizados y concisos
- Se recomienda la codificación UTF-8; ASCII también funciona
Herramientas relacionadas
- Robots.txt Generator — genera un archivo robots.txt mediante una interfaz basada en formulario
- Robots.txt Tester — valida tus reglas y prueba URLs específicas
- Sitemap Generator — genera un sitemap XML para acompañar tu robots.txt
- Meta Tag Generator — genera meta etiquetas SEO para tus páginas