Robots.txt-Datei-Generator — Was es ist und wie man eine erstellt
Erfahren Sie, was eine robots.txt-Datei bewirkt, wie Crawl-Regeln funktionieren und wie Sie eine korrekte robots.txt für Ihre Website erstellen – ganz ohne Code.
Jede Website im Internet wird von Bots besucht — Googlebot, Bingbot, KI-Crawler und Dutzende weitere. Eine robots.txt-Datei ist die Möglichkeit, ihnen mitzuteilen, was sie indexieren dürfen und was nicht. Wenn Sie es richtig machen, kontrollieren Sie, was in den Suchergebnissen erscheint. Wenn Sie es falsch machen, können Sie versehentlich Ihre gesamte Website für Google sperren.
Was ist eine robots.txt-Datei?
Eine robots.txt-Datei ist eine einfache Textdatei, die im Stammverzeichnis Ihrer Website abgelegt wird und Web-Crawlern mitteilt, welche Seiten oder Bereiche sie crawlen sollen und welche sie überspringen sollen. Sie folgt dem Robots Exclusion Protocol — einem inoffiziellen Standard, den praktisch alle wichtigen Crawler respektieren.
Wenn Googlebot Ihre Website besucht, ist die allererste URL, die er anfordert:
https://yourdomain.com/robots.txt
Wenn die Datei vorhanden ist, liest der Bot die Regeln und passt sein Crawling entsprechend an. Wenn sie nicht vorhanden ist, geht der Bot davon aus, dass alles zum Crawlen freigegeben ist.
Wichtig: robots.txt ist eine Anweisung, keine Sicherheitsmaßnahme. Sie teilt wohlverhaltenen Bots mit, was sie nicht crawlen sollen — sie verhindert keinen Zugriff. Bösartige Bots und Scraper können sie vollständig ignorieren. Verlassen Sie sich niemals auf robots.txt, um sensible Inhalte zu verbergen.
Struktur einer robots.txt-Datei
Eine robots.txt-Datei besteht aus einem oder mehreren Einträgen. Jeder Eintrag besteht aus:
- Einer
User-agent-Zeile — für welchen Bot die Regeln gelten - Einer oder mehreren
Disallow- oderAllow-Zeilen — die Crawl-Regeln - Einer optionalen
Crawl-delay-Direktive - Einer optionalen
Sitemap-Direktive (auf Dateiebene)
User-agent: Googlebot
Disallow: /admin/
Allow: /admin/public/
User-agent: *
Disallow: /private/
Crawl-delay: 10
Sitemap: https://yourdomain.com/sitemap.xml
Wichtige Direktiven erklärt
| Direktive | Was sie bewirkt |
|---|---|
User-agent |
Legt fest, für welchen Crawler die nachfolgenden Regeln gelten. * bedeutet alle Bots. |
Disallow |
Sperrt den angegebenen Pfad für das Crawlen. |
Allow |
Erlaubt einen Pfad ausdrücklich, auch innerhalb eines gesperrten übergeordneten Verzeichnisses. |
Crawl-delay |
Bittet den Bot, N Sekunden zwischen Anfragen zu warten (wird von Google nicht unterstützt). |
Sitemap |
Verweist Crawler auf Ihre XML-Sitemap. |
User-agent-Werte — mit wem sprechen Sie?
Jeder Crawler hat einen eindeutigen User-agent-String. Die wichtigsten:
| User-agent | Crawler | Suchmaschine |
|---|---|---|
* |
Alle Crawler | — |
Googlebot |
Google-Web-Crawler | Google Search |
Googlebot-Image |
Google-Bilder-Crawler | Google Images |
Googlebot-Video |
Google-Video-Crawler | Google Video |
Bingbot |
Microsoft-Bing-Crawler | Bing Search |
Slurp |
Yahoo!-Crawler | Yahoo Search |
DuckDuckBot |
DuckDuckGo-Crawler | DuckDuckGo |
Baiduspider |
Baidu-Crawler | Baidu Search |
YandexBot |
Yandex-Crawler | Yandex Search |
GPTBot |
OpenAI-Trainingscrawler | ChatGPT |
ClaudeBot |
Anthropic-Trainingscrawler | Claude |
CCBot |
Common-Crawl-Bot | Verschiedene KI-Datensätze |
Regeln werden pro User-agent angewendet. Wenn ein Bot einem bestimmten User-agent-Eintrag entspricht, gelten dessen Regeln. Wenn kein spezifischer Eintrag vorhanden ist, gelten die *-Regeln (Platzhalter).
Disallow und Allow — wie die Pfadübereinstimmung funktioniert
Disallow
Disallow: /pfad/ sperrt diesen Pfad und alles darunter.
Disallow: /admin/ # sperrt /admin/, /admin/users, /admin/login usw.
Disallow: /private.html # sperrt genau diese Datei
Disallow: / # sperrt die gesamte Website
Disallow: # leerer Wert = alles erlauben (keine Einschränkung)
Allow
Allow überschreibt ein Disallow für einen spezifischeren Pfad. Spezifischere Regeln haben Vorrang.
User-agent: Googlebot
Disallow: /products/
Allow: /products/featured/ # Googlebot DARF /products/featured/ crawlen, trotz des obigen Disallow
Platzhalter
Die meisten Crawler (einschließlich Google) unterstützen zwei Platzhalterzeichen:
| Muster | Bedeutung | Beispiel |
|---|---|---|
* |
Entspricht einer beliebigen Zeichenfolge | Disallow: /*.pdf$ |
$ |
Entspricht dem Ende der URL | Disallow: /*.pdf$ — sperrt URLs, die auf .pdf enden |
Disallow: /*? # sperrt alle URLs mit Query-Strings
Disallow: /*.pdf$ # sperrt alle PDF-Dateien
Disallow: /tag/*/page/ # sperrt paginierte Tag-Archivseiten
Häufige robots.txt-Muster
Alles erlauben (Standardverhalten)
User-agent: *
Disallow:
Ein leeres Disallow bedeutet keine Einschränkungen. Dies entspricht dem Fehlen einer robots.txt-Datei — es ist jedoch gute Praxis, die Datei zu haben, damit Sie später Regeln hinzufügen können.
Die gesamte Website sperren (z. B. Staging-Umgebung)
User-agent: *
Disallow: /
Verwenden Sie dies in Entwicklungs-, Staging- oder Vorschau-Umgebungen, um zu verhindern, dass sie indexiert werden.
Bestimmte Verzeichnisse sperren
User-agent: *
Disallow: /admin/
Disallow: /wp-admin/
Disallow: /wp-login.php
Disallow: /checkout/
Disallow: /cart/
Disallow: /account/
KI-Trainingscrawler sperren
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: Google-Extended
Disallow: /
E-Commerce-Website — nicht indexierbare Seiten sperren
User-agent: *
Disallow: /cart/
Disallow: /checkout/
Disallow: /account/
Disallow: /wishlist/
Disallow: /*?sort=
Disallow: /*?filter=
Disallow: /*?ref=
Allow: /products/
Allow: /collections/
Sitemap: https://yourdomain.com/sitemap.xml
WordPress-Website
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-login.php
Disallow: /wp-includes/
Disallow: /?s=
Disallow: /search/
Disallow: /trackback/
Sitemap: https://yourdomain.com/sitemap.xml
So generieren Sie eine robots.txt-Datei ohne Code zu schreiben
Das manuelle Schreiben einer robots.txt ist fehleranfällig — ein einzelner Tippfehler kann Seiten sperren, die Sie eigentlich erlauben wollten. Unser Robots.txt-Generator ermöglicht Ihnen:
- Auswählen, welche Bots angesprochen werden sollen
- Hinzufügen von Allow- und Disallow-Regeln über ein einfaches Formular
- Crawl-Delay bei Bedarf festlegen
- Ihre Sitemap-URL hinzufügen
- Die fertige Datei sofort kopieren oder herunterladen
Nach der Generierung verwenden Sie den Robots.txt-Tester, um zu überprüfen, ob Ihre Regeln wie gewünscht funktionieren, bevor Sie sie bereitstellen.
Wo Sie Ihre robots.txt-Datei ablegen
Die Datei muss im Stammverzeichnis Ihrer Domain abgelegt werden:
https://yourdomain.com/robots.txt ✓ korrekt
https://yourdomain.com/robots/robots.txt ✗ falsch
https://subdomain.yourdomain.com/robots.txt ✓ korrekt (für Subdomain)
Jede Subdomain benötigt ihre eigene robots.txt. Eine Datei unter www.yourdomain.com/robots.txt gilt nicht für blog.yourdomain.com.
robots.txt bereitstellen
Statische Website (HTML): Laden Sie robots.txt in das Stammverzeichnis des öffentlichen Verzeichnisses Ihres Webservers hoch (/public_html/, /dist/, /public/ usw.).
WordPress: Legen Sie die Datei im Stammverzeichnis Ihrer WordPress-Installation ab. Viele SEO-Plugins (Yoast, RankMath) verwalten sie automatisch über das Admin-Panel.
Next.js: Legen Sie robots.txt im /public-Ordner ab, oder verwenden Sie die robots.js-Datei in /app für die programmatische Generierung (Next.js 13+).
Vercel / Netlify: In /public ablegen — die Datei wird bei der Bereitstellung automatisch vom Stammverzeichnis aus ausgeliefert.
robots.txt und SEO — worauf es ankommt
CSS und JavaScript nicht sperren
Eine verbreitete veraltete Praxis war es, /wp-content/ oder /assets/ zu sperren, um Crawl-Budget zu sparen. Das wirkt sich nachteilig aus: Google muss Ihre Seiten rendern, um sie zu verstehen, und das Sperren von CSS/JS verhindert dies. Sperren Sie nur, was Sie wirklich nicht indexiert haben möchten.
robots.txt verhindert keine Indexierung — noindex tut das
Disallow verhindert, dass Google eine URL crawlt. Es verhindert nicht, dass Google sie indexiert, wenn eine andere Website auf sie verlinkt. Um die Indexierung zu verhindern, verwenden Sie das noindex-Meta-Tag oder den X-Robots-Tag-HTTP-Header auf der Seite selbst.
Sitemap-Angabe
Geben Sie Ihre Sitemap-URL immer in der robots.txt an — das ist der zuverlässigste Weg, um sicherzustellen, dass Crawler sie finden:
Sitemap: https://yourdomain.com/sitemap.xml
Sitemap: https://yourdomain.com/sitemap-images.xml
Sie können mehrere Sitemaps angeben.
Crawl-Budget
Große Websites (Tausende von Seiten) profitieren am meisten von der robots.txt-Optimierung. Das Sperren von Seiten mit geringem Wert (gefilterte URLs, interne Suchergebnisse, dünne doppelte Inhalte) hilft Google, sein Crawl-Budget für Seiten einzusetzen, die wirklich wichtig sind.
Ihre robots.txt-Datei validieren
Nachdem Sie Ihre Datei erstellt haben, überprüfen Sie sie vor der Bereitstellung:
- Robots.txt-Tester — fügen Sie Ihre Datei ein und testen Sie bestimmte URLs, um das Allow/Disallow-Verhalten zu bestätigen
- Google Search Console — der Crawl-Statistikbericht zeigt, wie Google Ihre Website crawlt; das URL-Inspektionstool zeigt, ob bestimmte Seiten gesperrt sind
- Manuelle Überprüfung — besuchen Sie
https://yourdomain.com/robots.txtnach der Bereitstellung, um zu bestätigen, dass die Datei live ist und korrekt ausgeliefert wird
Häufig gestellte Fragen
Befolgt Google immer robots.txt?
Google respektiert Disallow-Direktiven beim Crawlen. Google kann jedoch eine gesperrte URL weiterhin indexieren, wenn es Links dazu findet — ein Disallow blockiert das Crawlen, nicht den Indexeintrag. Verwenden Sie noindex auf der Seite selbst, um die Indexierung zu verhindern.
Kann ich mehrere User-agent-Blöcke für denselben Bot haben? Nein. Jeder User-agent sollte nur in einem Block erscheinen. Wenn Sie widersprüchliche Regeln für denselben Bot in mehreren Blöcken haben, ist das Verhalten undefiniert. Fassen Sie alle Regeln für einen bestimmten User-agent in einem einzigen Eintrag zusammen.
Was passiert, wenn meine robots.txt einen Syntaxfehler hat? Die meisten Crawler ignorieren entweder die fehlerhafte Regel oder hören beim Fehler mit dem Parsen auf. Google fährt in der Regel mit den Regeln fort, die es vor dem Fehler erfolgreich geparst hat. Testen Sie Ihre Datei vor der Bereitstellung.
Sollte ich Googlebot-Image sperren? Nur wenn Sie ausdrücklich nicht möchten, dass Ihre Bilder in den Google-Bildergebnissen erscheinen. Wenn Sie Fotografie verkaufen oder eine bildlastige Website betreiben, könnte das Sperren von Googlebot-Image den Traffic erheblich reduzieren.
Wie oft lesen Crawler robots.txt erneut? Google speichert robots.txt in der Regel bis zu 24 Stunden im Cache. Nachdem Sie die Datei aktualisiert haben, kann es bis zu einem Tag dauern, bis die Änderungen im Crawl-Verhalten von Google widergespiegelt werden.
Beeinflusst robots.txt die Seitengeschwindigkeit oder Core Web Vitals? Nein. robots.txt beeinflusst nur das Crawl-Verhalten, nicht das Laden oder die Performance von Seiten für echte Nutzer.
Dateigröße und Limits für robots.txt
- Google unterstützt robots.txt-Dateien bis zu 500 KB Größe
- Dateien über 500 KB werden abgeschnitten — Regeln jenseits dieser Größe werden ignoriert
- Kein offizielles Limit für die Anzahl der Regeln, aber halten Sie Dateien organisiert und prägnant
- UTF-8-Kodierung wird empfohlen; ASCII funktioniert ebenfalls
Verwandte Tools
- Robots.txt-Generator — robots.txt-Datei über eine formularbasierte Oberfläche generieren
- Robots.txt-Tester — Ihre Regeln validieren und bestimmte URLs testen
- Sitemap-Generator — eine XML-Sitemap zur Verwendung mit Ihrer robots.txt generieren
- Meta-Tag-Generator — SEO-Meta-Tags für Ihre Seiten generieren