SEO Tools

Generador de archivo Robots.txt — Qué es y cómo crearlo

Aprende qué hace un archivo robots.txt, cómo funcionan las reglas de rastreo y cómo generar un robots.txt correcto para tu sitio web sin tocar código.

8 min de lectura

Generador de archivo robots.txt — rastreadores web y SEO

Todos los sitios web de internet reciben visitas de bots — Googlebot, Bingbot, rastreadores de IA y docenas más. Un archivo robots.txt es la forma en que les indicas qué pueden y qué no pueden indexar. Si lo configuras bien, controlas lo que aparece en los resultados de búsqueda. Si lo haces mal, puedes bloquear accidentalmente todo tu sitio en Google.

¿Qué es un archivo robots.txt?

Un archivo robots.txt es un archivo de texto plano ubicado en la raíz de tu sitio web que instruye a los rastreadores qué páginas o secciones deben rastrear y cuáles deben omitir. Sigue el Protocolo de Exclusión de Robots — un estándar informal que prácticamente todos los rastreadores principales respetan.

Cuando Googlebot visita tu sitio, la primera URL que solicita es:

https://yourdomain.com/robots.txt

Si el archivo existe, el bot lee las reglas y ajusta su rastreo en consecuencia. Si no existe, el bot asume que todo está disponible para rastrear.

Importante: robots.txt es una directiva, no una medida de seguridad. Le indica a los bots bien comportados qué no rastrear — no impide el acceso. Los bots maliciosos y los scrapers pueden ignorarlo por completo. Nunca dependas de robots.txt para ocultar contenido sensible.


Estructura del archivo robots.txt

Un archivo robots.txt está compuesto por uno o más registros. Cada registro consiste en:

  1. Una línea User-agent — a qué bot se aplican las reglas
  2. Una o más líneas Disallow o Allow — las reglas de rastreo
  3. Una directiva opcional Crawl-delay
  4. Una directiva opcional Sitemap (a nivel de archivo)
User-agent: Googlebot
Disallow: /admin/
Allow: /admin/public/

User-agent: *
Disallow: /private/
Crawl-delay: 10

Sitemap: https://yourdomain.com/sitemap.xml

Principales directivas explicadas

Directiva Qué hace
User-agent Especifica a qué rastreador se aplican las reglas siguientes. * significa todos los bots.
Disallow Bloquea el rastreo de la ruta especificada.
Allow Permite explícitamente una ruta, incluso dentro de un directorio padre bloqueado.
Crawl-delay Solicita al bot que espere N segundos entre peticiones (no compatible con Google).
Sitemap Indica a los rastreadores dónde está tu sitemap XML.

Valores de User-agent — ¿a quién le estás hablando?

Cada rastreador tiene una cadena de user-agent única. Los más importantes:

User-agent Rastreador Motor
* Todos los rastreadores
Googlebot Rastreador web de Google Google Search
Googlebot-Image Rastreador de Google Imágenes Google Images
Googlebot-Video Rastreador de Google Video Google Video
Bingbot Rastreador de Microsoft Bing Bing Search
Slurp Rastreador de Yahoo! Yahoo Search
DuckDuckBot Rastreador de DuckDuckGo DuckDuckGo
Baiduspider Rastreador de Baidu Baidu Search
YandexBot Rastreador de Yandex Yandex Search
GPTBot Rastreador de entrenamiento de OpenAI ChatGPT
ClaudeBot Rastreador de entrenamiento de Anthropic Claude
CCBot Bot de Common Crawl Varios conjuntos de datos de IA

Las reglas se aplican por user-agent. Si un bot coincide con un registro de user-agent específico, se aplican esas reglas. Si no existe ningún registro específico, se aplican las reglas del comodín *.


Disallow y Allow — cómo funciona la coincidencia de rutas

Disallow

Disallow: /ruta/ bloquea esa ruta y todo lo que hay dentro de ella.

Disallow: /admin/       # bloquea /admin/, /admin/users, /admin/login, etc.
Disallow: /private.html # bloquea exactamente ese archivo
Disallow: /             # bloquea todo el sitio
Disallow:               # valor vacío = permitir todo (sin restricción)

Allow

Allow anula un Disallow para una ruta más específica. Las reglas más específicas tienen prioridad.

User-agent: Googlebot
Disallow: /products/
Allow: /products/featured/   # Googlebot SÍ puede rastrear /products/featured/ a pesar del Disallow anterior

Comodines

La mayoría de los rastreadores (incluido Google) admiten dos caracteres comodín:

Patrón Significado Ejemplo
* Coincide con cualquier secuencia de caracteres Disallow: /*.pdf$
$ Coincide con el final de la URL Disallow: /*.pdf$ — bloquea URLs que terminan en .pdf
Disallow: /*?           # bloquea todas las URLs con cadenas de consulta
Disallow: /*.pdf$       # bloquea todos los archivos PDF
Disallow: /tag/*/page/  # bloquea las páginas paginadas de archivos por etiqueta

Patrones comunes de robots.txt

Permitir todo (comportamiento predeterminado)

User-agent: *
Disallow:

Un Disallow vacío significa sin restricciones. Esto equivale a no tener ningún robots.txt — pero es una buena práctica tener el archivo presente para poder agregar reglas más adelante.

Bloquear todo el sitio (p. ej., entorno de staging)

User-agent: *
Disallow: /

Úsalo en entornos de desarrollo, staging o previsualización para evitar que sean indexados.

Bloquear directorios específicos

User-agent: *
Disallow: /admin/
Disallow: /wp-admin/
Disallow: /wp-login.php
Disallow: /checkout/
Disallow: /cart/
Disallow: /account/

Bloquear rastreadores de entrenamiento de IA

User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Google-Extended
Disallow: /

Sitio de comercio electrónico — bloquear páginas no indexables

User-agent: *
Disallow: /cart/
Disallow: /checkout/
Disallow: /account/
Disallow: /wishlist/
Disallow: /*?sort=
Disallow: /*?filter=
Disallow: /*?ref=
Allow: /products/
Allow: /collections/

Sitemap: https://yourdomain.com/sitemap.xml

Sitio WordPress

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-login.php
Disallow: /wp-includes/
Disallow: /?s=
Disallow: /search/
Disallow: /trackback/

Sitemap: https://yourdomain.com/sitemap.xml

Cómo generar un archivo robots.txt sin escribir código

Escribir robots.txt a mano es propenso a errores — un solo error tipográfico puede bloquear páginas que tenías intención de permitir. Nuestro Generador de Robots.txt te permite:

  1. Seleccionar qué bots quieres configurar
  2. Añadir reglas de allow y disallow mediante un formulario sencillo
  3. Establecer el crawl delay si es necesario
  4. Añadir la URL de tu sitemap
  5. Copiar o descargar el archivo terminado al instante

Después de generarlo, usa el Robots.txt Tester para verificar que tus reglas funcionan como esperas antes de publicarlas.


Dónde colocar tu archivo robots.txt

El archivo debe estar en la raíz de tu dominio:

https://yourdomain.com/robots.txt    ✓ correcto
https://yourdomain.com/robots/robots.txt    ✗ incorrecto
https://subdomain.yourdomain.com/robots.txt    ✓ correcto (para subdominio)

Cada subdominio necesita su propio robots.txt. Un archivo en www.yourdomain.com/robots.txt no se aplica a blog.yourdomain.com.

Cómo desplegar robots.txt

Sitio estático (HTML): Sube robots.txt a la raíz del directorio público de tu servidor web (/public_html/, /dist/, /public/, etc.).

WordPress: Colócalo en la raíz de tu instalación de WordPress. Muchos plugins SEO (Yoast, RankMath) lo gestionan automáticamente desde el panel de administración.

Next.js: Coloca robots.txt en la carpeta /public, o usa el archivo robots.js en /app para generación programática (Next.js 13+).

Vercel / Netlify: Colócalo en /public — se servirá desde la raíz automáticamente al desplegarlo.


robots.txt y SEO — qué debes tener en cuenta

No bloquees CSS ni JavaScript

Una práctica heredada habitual era bloquear /wp-content/ o /assets/ para ahorrar presupuesto de rastreo. Esto resulta contraproducente: Google necesita renderizar tus páginas para entenderlas, y bloquear CSS/JS lo impide. Bloquea únicamente lo que realmente no quieres que sea indexado.

robots.txt no impide la indexación — noindex sí lo hace

Disallow impide que Google rastree una URL. No impide que Google la indexe si otro sitio enlaza a ella. Para evitar la indexación, usa la meta etiqueta noindex o la cabecera HTTP X-Robots-Tag en la propia página.

Declaración del sitemap

Incluye siempre la URL de tu sitemap en robots.txt — es la forma más fiable de asegurarte de que los rastreadores lo encuentren:

Sitemap: https://yourdomain.com/sitemap.xml
Sitemap: https://yourdomain.com/sitemap-images.xml

Puedes listar varios sitemaps.

Presupuesto de rastreo

Los sitios grandes (miles de páginas) son los que más se benefician de la optimización del robots.txt. Bloquear páginas de poco valor (URLs con filtros, resultados de búsqueda interna, contenido duplicado o pobre) ayuda a Google a dedicar su presupuesto de rastreo a las páginas que realmente importan.


Validar tu archivo robots.txt

Después de crear el archivo, verifica su funcionamiento antes de publicarlo:

  1. Robots.txt Tester — pega tu archivo y prueba URLs específicas para confirmar el comportamiento de allow/disallow
  2. Google Search Console — el informe de Estadísticas de rastreo muestra cómo Google está rastreando tu sitio; la herramienta de Inspección de URL muestra si páginas específicas están bloqueadas
  3. Verificación manual — visita https://yourdomain.com/robots.txt tras publicarlo para confirmar que el archivo está activo y se sirve correctamente

Preguntas frecuentes

¿Google siempre sigue robots.txt? Google respeta las directivas Disallow para el rastreo. Sin embargo, Google puede seguir indexando una URL bloqueada si encuentra enlaces hacia ella — un Disallow bloquea el rastreo, no la entrada en el índice. Usa noindex en la propia página para evitar la indexación.

¿Puedo tener varios bloques de User-agent para el mismo bot? No. Cada user-agent debe aparecer en un único bloque. Si tienes reglas contradictorias para el mismo bot en varios bloques, el comportamiento es indefinido. Combina todas las reglas de un user-agent en un único registro.

¿Qué ocurre si mi robots.txt tiene un error de sintaxis? La mayoría de los rastreadores ignorarán la regla mal formada o dejarán de analizar en el punto del error. Google generalmente continuará con las reglas que analizó correctamente antes del error. Prueba el archivo antes de publicarlo.

¿Debo bloquear Googlebot-Image? Solo si específicamente no quieres que tus imágenes aparezcan en los resultados de Google Imágenes. Si vendes fotografía o gestionas un sitio con muchas imágenes, bloquear Googlebot-Image podría reducir el tráfico de forma significativa.

¿Con qué frecuencia vuelven a leer los rastreadores el robots.txt? Google normalmente almacena en caché el robots.txt hasta 24 horas. Tras actualizar el archivo, los cambios pueden tardar hasta un día en reflejarse en el comportamiento de rastreo de Google.

¿Afecta robots.txt a la velocidad de página o a las Core Web Vitals? No. robots.txt solo afecta al comportamiento de rastreo, no a cómo cargan o rinden las páginas para los usuarios reales.


Tamaño y límites del archivo robots.txt

  • Google admite archivos robots.txt de hasta 500 KB de tamaño
  • Los archivos de más de 500 KB se truncan — las reglas que superen ese tamaño se ignoran
  • No hay un límite oficial en el número de reglas, pero mantén los archivos organizados y concisos
  • Se recomienda la codificación UTF-8; ASCII también funciona

Herramientas relacionadas