Robots.txt-Datei-Generator — Was es ist und wie man eine erstellt — FreeTool24

Robots.txt-Datei-Generator — Web-Crawler und SEO

Jede Website im Internet wird von Bots besucht — Googlebot, Bingbot, KI-Crawler und Dutzende weitere. Eine robots.txt-Datei ist die Möglichkeit, ihnen mitzuteilen, was sie indexieren dürfen und was nicht. Wenn Sie es richtig machen, kontrollieren Sie, was in den Suchergebnissen erscheint. Wenn Sie es falsch machen, können Sie versehentlich Ihre gesamte Website für Google sperren.

Was ist eine robots.txt-Datei?

Eine robots.txt-Datei ist eine einfache Textdatei, die im Stammverzeichnis Ihrer Website abgelegt wird und Web-Crawlern mitteilt, welche Seiten oder Bereiche sie crawlen sollen und welche sie überspringen sollen. Sie folgt dem Robots Exclusion Protocol — einem inoffiziellen Standard, den praktisch alle wichtigen Crawler respektieren.

Wenn Googlebot Ihre Website besucht, ist die allererste URL, die er anfordert:

https://yourdomain.com/robots.txt

Wenn die Datei vorhanden ist, liest der Bot die Regeln und passt sein Crawling entsprechend an. Wenn sie nicht vorhanden ist, geht der Bot davon aus, dass alles zum Crawlen freigegeben ist.

Wichtig: robots.txt ist eine Anweisung, keine Sicherheitsmaßnahme. Sie teilt wohlverhaltenen Bots mit, was sie nicht crawlen sollen — sie verhindert keinen Zugriff. Bösartige Bots und Scraper können sie vollständig ignorieren. Verlassen Sie sich niemals auf robots.txt, um sensible Inhalte zu verbergen.

Struktur einer robots.txt-Datei

Eine robots.txt-Datei besteht aus einem oder mehreren Einträgen. Jeder Eintrag besteht aus:

Einer User-agent-Zeile — für welchen Bot die Regeln gelten
Einer oder mehreren Disallow- oder Allow-Zeilen — die Crawl-Regeln
Einer optionalen Crawl-delay-Direktive
Einer optionalen Sitemap-Direktive (auf Dateiebene)

User-agent: Googlebot
Disallow: /admin/
Allow: /admin/public/

User-agent: *
Disallow: /private/
Crawl-delay: 10

Sitemap: https://yourdomain.com/sitemap.xml

Wichtige Direktiven erklärt

Direktive	Was sie bewirkt
`User-agent`	Legt fest, für welchen Crawler die nachfolgenden Regeln gelten. `*` bedeutet alle Bots.
`Disallow`	Sperrt den angegebenen Pfad für das Crawlen.
`Allow`	Erlaubt einen Pfad ausdrücklich, auch innerhalb eines gesperrten übergeordneten Verzeichnisses.
`Crawl-delay`	Bittet den Bot, N Sekunden zwischen Anfragen zu warten (wird von Google nicht unterstützt).
`Sitemap`	Verweist Crawler auf Ihre XML-Sitemap.

User-agent-Werte — mit wem sprechen Sie?

Jeder Crawler hat einen eindeutigen User-agent-String. Die wichtigsten:

User-agent	Crawler	Suchmaschine
`*`	Alle Crawler	—
`Googlebot`	Google-Web-Crawler	Google Search
`Googlebot-Image`	Google-Bilder-Crawler	Google Images
`Googlebot-Video`	Google-Video-Crawler	Google Video
`Bingbot`	Microsoft-Bing-Crawler	Bing Search
`Slurp`	Yahoo!-Crawler	Yahoo Search
`DuckDuckBot`	DuckDuckGo-Crawler	DuckDuckGo
`Baiduspider`	Baidu-Crawler	Baidu Search
`YandexBot`	Yandex-Crawler	Yandex Search
`GPTBot`	OpenAI-Trainingscrawler	ChatGPT
`ClaudeBot`	Anthropic-Trainingscrawler	Claude
`CCBot`	Common-Crawl-Bot	Verschiedene KI-Datensätze

Regeln werden pro User-agent angewendet. Wenn ein Bot einem bestimmten User-agent-Eintrag entspricht, gelten dessen Regeln. Wenn kein spezifischer Eintrag vorhanden ist, gelten die *-Regeln (Platzhalter).

Disallow und Allow — wie die Pfadübereinstimmung funktioniert

Disallow

Disallow: /pfad/ sperrt diesen Pfad und alles darunter.

Disallow: /admin/       # sperrt /admin/, /admin/users, /admin/login usw.
Disallow: /private.html # sperrt genau diese Datei
Disallow: /             # sperrt die gesamte Website
Disallow:               # leerer Wert = alles erlauben (keine Einschränkung)

Allow

Allow überschreibt ein Disallow für einen spezifischeren Pfad. Spezifischere Regeln haben Vorrang.

User-agent: Googlebot
Disallow: /products/
Allow: /products/featured/   # Googlebot DARF /products/featured/ crawlen, trotz des obigen Disallow

Platzhalter

Die meisten Crawler (einschließlich Google) unterstützen zwei Platzhalterzeichen:

Muster	Bedeutung	Beispiel
`*`	Entspricht einer beliebigen Zeichenfolge	`Disallow: /*.pdf$`
`$`	Entspricht dem Ende der URL	`Disallow: /*.pdf$` — sperrt URLs, die auf `.pdf` enden

Disallow: /*?           # sperrt alle URLs mit Query-Strings
Disallow: /*.pdf$       # sperrt alle PDF-Dateien
Disallow: /tag/*/page/  # sperrt paginierte Tag-Archivseiten

Häufige robots.txt-Muster

Alles erlauben (Standardverhalten)

User-agent: *
Disallow:

Ein leeres Disallow bedeutet keine Einschränkungen. Dies entspricht dem Fehlen einer robots.txt-Datei — es ist jedoch gute Praxis, die Datei zu haben, damit Sie später Regeln hinzufügen können.

Die gesamte Website sperren (z. B. Staging-Umgebung)

User-agent: *
Disallow: /

Verwenden Sie dies in Entwicklungs-, Staging- oder Vorschau-Umgebungen, um zu verhindern, dass sie indexiert werden.

Bestimmte Verzeichnisse sperren

User-agent: *
Disallow: /admin/
Disallow: /wp-admin/
Disallow: /wp-login.php
Disallow: /checkout/
Disallow: /cart/
Disallow: /account/

KI-Trainingscrawler sperren

User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Google-Extended
Disallow: /

E-Commerce-Website — nicht indexierbare Seiten sperren

User-agent: *
Disallow: /cart/
Disallow: /checkout/
Disallow: /account/
Disallow: /wishlist/
Disallow: /*?sort=
Disallow: /*?filter=
Disallow: /*?ref=
Allow: /products/
Allow: /collections/

Sitemap: https://yourdomain.com/sitemap.xml

WordPress-Website

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-login.php
Disallow: /wp-includes/
Disallow: /?s=
Disallow: /search/
Disallow: /trackback/

Sitemap: https://yourdomain.com/sitemap.xml

So generieren Sie eine robots.txt-Datei ohne Code zu schreiben

Das manuelle Schreiben einer robots.txt ist fehleranfällig — ein einzelner Tippfehler kann Seiten sperren, die Sie eigentlich erlauben wollten. Unser Robots.txt-Generator ermöglicht Ihnen:

Auswählen, welche Bots angesprochen werden sollen
Hinzufügen von Allow- und Disallow-Regeln über ein einfaches Formular
Crawl-Delay bei Bedarf festlegen
Ihre Sitemap-URL hinzufügen
Die fertige Datei sofort kopieren oder herunterladen

Nach der Generierung verwenden Sie den Robots.txt-Tester, um zu überprüfen, ob Ihre Regeln wie gewünscht funktionieren, bevor Sie sie bereitstellen.

Wo Sie Ihre robots.txt-Datei ablegen

Die Datei muss im Stammverzeichnis Ihrer Domain abgelegt werden:

https://yourdomain.com/robots.txt    ✓ korrekt
https://yourdomain.com/robots/robots.txt    ✗ falsch
https://subdomain.yourdomain.com/robots.txt    ✓ korrekt (für Subdomain)

Jede Subdomain benötigt ihre eigene robots.txt. Eine Datei unter www.yourdomain.com/robots.txt gilt nicht für blog.yourdomain.com.

robots.txt bereitstellen

Statische Website (HTML): Laden Sie robots.txt in das Stammverzeichnis des öffentlichen Verzeichnisses Ihres Webservers hoch (/public_html/, /dist/, /public/ usw.).

WordPress: Legen Sie die Datei im Stammverzeichnis Ihrer WordPress-Installation ab. Viele SEO-Plugins (Yoast, RankMath) verwalten sie automatisch über das Admin-Panel.

Next.js: Legen Sie robots.txt im /public-Ordner ab, oder verwenden Sie die robots.js-Datei in /app für die programmatische Generierung (Next.js 13+).

Vercel / Netlify: In /public ablegen — die Datei wird bei der Bereitstellung automatisch vom Stammverzeichnis aus ausgeliefert.

robots.txt und SEO — worauf es ankommt

CSS und JavaScript nicht sperren

Eine verbreitete veraltete Praxis war es, /wp-content/ oder /assets/ zu sperren, um Crawl-Budget zu sparen. Das wirkt sich nachteilig aus: Google muss Ihre Seiten rendern, um sie zu verstehen, und das Sperren von CSS/JS verhindert dies. Sperren Sie nur, was Sie wirklich nicht indexiert haben möchten.

robots.txt verhindert keine Indexierung — noindex tut das

Disallow verhindert, dass Google eine URL crawlt. Es verhindert nicht, dass Google sie indexiert, wenn eine andere Website auf sie verlinkt. Um die Indexierung zu verhindern, verwenden Sie das noindex-Meta-Tag oder den X-Robots-Tag-HTTP-Header auf der Seite selbst.

Sitemap-Angabe

Geben Sie Ihre Sitemap-URL immer in der robots.txt an — das ist der zuverlässigste Weg, um sicherzustellen, dass Crawler sie finden:

Sitemap: https://yourdomain.com/sitemap.xml
Sitemap: https://yourdomain.com/sitemap-images.xml

Sie können mehrere Sitemaps angeben.

Crawl-Budget

Große Websites (Tausende von Seiten) profitieren am meisten von der robots.txt-Optimierung. Das Sperren von Seiten mit geringem Wert (gefilterte URLs, interne Suchergebnisse, dünne doppelte Inhalte) hilft Google, sein Crawl-Budget für Seiten einzusetzen, die wirklich wichtig sind.

Ihre robots.txt-Datei validieren

Nachdem Sie Ihre Datei erstellt haben, überprüfen Sie sie vor der Bereitstellung:

Robots.txt-Tester — fügen Sie Ihre Datei ein und testen Sie bestimmte URLs, um das Allow/Disallow-Verhalten zu bestätigen
Google Search Console — der Crawl-Statistikbericht zeigt, wie Google Ihre Website crawlt; das URL-Inspektionstool zeigt, ob bestimmte Seiten gesperrt sind
Manuelle Überprüfung — besuchen Sie https://yourdomain.com/robots.txt nach der Bereitstellung, um zu bestätigen, dass die Datei live ist und korrekt ausgeliefert wird

Häufig gestellte Fragen

Befolgt Google immer robots.txt? Google respektiert Disallow-Direktiven beim Crawlen. Google kann jedoch eine gesperrte URL weiterhin indexieren, wenn es Links dazu findet — ein Disallow blockiert das Crawlen, nicht den Indexeintrag. Verwenden Sie noindex auf der Seite selbst, um die Indexierung zu verhindern.

Kann ich mehrere User-agent-Blöcke für denselben Bot haben? Nein. Jeder User-agent sollte nur in einem Block erscheinen. Wenn Sie widersprüchliche Regeln für denselben Bot in mehreren Blöcken haben, ist das Verhalten undefiniert. Fassen Sie alle Regeln für einen bestimmten User-agent in einem einzigen Eintrag zusammen.

Was passiert, wenn meine robots.txt einen Syntaxfehler hat? Die meisten Crawler ignorieren entweder die fehlerhafte Regel oder hören beim Fehler mit dem Parsen auf. Google fährt in der Regel mit den Regeln fort, die es vor dem Fehler erfolgreich geparst hat. Testen Sie Ihre Datei vor der Bereitstellung.

Sollte ich Googlebot-Image sperren? Nur wenn Sie ausdrücklich nicht möchten, dass Ihre Bilder in den Google-Bildergebnissen erscheinen. Wenn Sie Fotografie verkaufen oder eine bildlastige Website betreiben, könnte das Sperren von Googlebot-Image den Traffic erheblich reduzieren.

Wie oft lesen Crawler robots.txt erneut? Google speichert robots.txt in der Regel bis zu 24 Stunden im Cache. Nachdem Sie die Datei aktualisiert haben, kann es bis zu einem Tag dauern, bis die Änderungen im Crawl-Verhalten von Google widergespiegelt werden.

Beeinflusst robots.txt die Seitengeschwindigkeit oder Core Web Vitals? Nein. robots.txt beeinflusst nur das Crawl-Verhalten, nicht das Laden oder die Performance von Seiten für echte Nutzer.

Dateigröße und Limits für robots.txt

Google unterstützt robots.txt-Dateien bis zu 500 KB Größe
Dateien über 500 KB werden abgeschnitten — Regeln jenseits dieser Größe werden ignoriert
Kein offizielles Limit für die Anzahl der Regeln, aber halten Sie Dateien organisiert und prägnant
UTF-8-Kodierung wird empfohlen; ASCII funktioniert ebenfalls