robots.txt: Der ultimative Leitfaden
Die robots.txt-Datei ist das Eingangstor zu deiner Website für Suchmaschinen und KI-Crawler.
Sie teilt Web-Robots (Crawlern) mit, welche Seiten oder Dateien sie von deiner Website anfordern dürfen
und welche nicht. Dieser Leitfaden deckt alles ab, was du wissen musst,
von der grundlegenden Syntax bis zum Blockieren fortgeschrittener KI-Bots.
1. Was ist eine robots.txt-Datei?
Eine robots.txt-Datei ist eine einfache Textdatei, die das Robots Exclusion Protocol
(REP) verwendet. Sie dient in erster Linie dazu, den Crawler-Verkehr auf deiner Website zu
steuern und zu verhindern, dass dein Server durch Anfragen überlastet wird.
Wichtig: Sie ist kein Mechanismus, um eine Webseite aus Google
herauszuhalten. Um eine Seite aus dem Index fernzuhalten,
musst du noindex-Tags verwenden oder die Seite mit einem Passwort schützen.
2. Wohin gehört die robots.txt?
Die Datei muss im obersten Verzeichnis (Root) deiner Website abgelegt werden und muss
exakt robots.txt heißen (alles in Kleinbuchstaben).
- Richtig:
https: //www.rankosaur.com/robots.txt - Falsch:
https: //www.rankosaur.com/assets/robots.txt - Falsch:
https: //www.rankosaur.com/Robots.TXT
3. Grundlegende Syntax & Direktiven
Eine robots.txt-Datei besteht aus einer oder mehreren „Gruppen" von Regeln. Jede Gruppe
beginnt mit einer User-agent-Zeile,
gefolgt von Disallow- oder Allow-Regeln.
User-agent:Identifiziert den konkreten Bot, für den die Regel gilt (z. B.Googlebot,Bingbot). Ein Sternchen (*) gilt für alle Bots.Disallow:Teilt dem User-Agent mit, einen bestimmten URL-Pfad oder ein Verzeichnis nicht zu crawlen.Allow:Teilt dem User-Agent mit, dass er eine bestimmte URL oder ein Verzeichnis crawlen darf. Dies wird oft genutzt, um eine umfassendereDisallow-Regel zu überschreiben.Sitemap:Verweist Crawler auf deine XML-Sitemap. Dies muss nicht an einen bestimmten User-Agent gebunden sein.Crawl-delay:Teilt Nicht-Google-Bots mit, wie viele Sekunden sie zwischen Anfragen warten sollen (Googlebot ignoriert dies; für Googles Crawling-Rate musst du die Google Search Console verwenden).#(Kommentare): Alles nach einer Raute wird von Crawlern ignoriert.
4. Häufige Code-Beispiele
Szenario A: Alles erlauben (Standard)
Wenn du keine robots.txt hast oder sie komplett leer ist, gehen Bots davon aus, dass sie
alles crawlen dürfen. Du kannst dies auch ausdrücklich angeben:
User-agent: * Disallow:
(Beachte das Leerzeichen nach Disallow)
Szenario B: Die gesamte Website blockieren
Wird für Staging-Umgebungen oder Websites verwendet, die sich noch in der Entwicklung befinden.
User-agent: * Disallow: /
Szenario C: Ein bestimmtes Verzeichnis blockieren
Verhindert das Crawlen interner oder Admin-Seiten.
User-agent: * Disallow: /admin/ Disallow: /internal-search/
Szenario D: Einen bestimmten Bot blockieren
Erlaube allen den Zugriff, blockiere aber einen bestimmten Crawler (z. B. den Crawler eines toxischen SEO-Tools).
User-agent: AhrefsBot Disallow: / User-agent: * Disallow:
Szenario E: Eine bestimmte Datei in einem blockierten Verzeichnis erlauben
User-agent: * Disallow: /images/ Allow: /images/logo.png
Szenario F: Eine Sitemap hinzufügen
User-agent: * Disallow: /private/ Sitemap: https: //www.rankosaur.com/sitemap_index.xml
5. Fortgeschrittenes Pattern Matching
Googlebot und Bingbot unterstützen reguläre Ausdrücke (RegEx) für komplexere Regeln.
*(Wildcard): Steht für eine beliebige Zeichenfolge.$(Ende der URL): Markiert das exakte Ende einer URL-Zeichenkette.
Alle URLs blockieren, die einen bestimmten Parameter enthalten (z. B. die interne Suche):
User-agent: * Disallow:
/*?search=
Alle Dateien eines bestimmten Typs blockieren (z. B. PDFs):
User-agent: *
Disallow: /*.pdf$
(Dies blockiert document.pdf, erlaubt aber document.pdf?version=2, sofern du
das $ nicht entfernst)
6. KI- & LLM-Bots steuern (Wichtig!)
Mit dem Aufstieg von ChatGPT, Claude und Google SGE durchforsten KI-Unternehmen das Web aggressiv, um ihre Large Language Models (LLMs) zu trainieren. Du kannst sie blockieren und gleichzeitig die normale Indexierung durch Suchmaschinen weiterhin zulassen.
Hinweis: Rank-O-Saur hat eine eingebaute Funktion, mit der du sofort sichtbar machst, ob diese KI-Bots auf der Seite, die du gerade ansiehst, blockiert sind!
Code-Snippet zum Blockieren der gängigsten KI-/LLM-Scraper:
# OpenAI blockieren (ChatGPT & Trainings-Bots)
User-agent: GPTBot
Disallow: /
User-agent: ChatGPT-User
Disallow: /
User-agent: OAI-SearchBot
Disallow: /
# Anthropic blockieren (Claude)
User-agent: ClaudeBot
Disallow: /
User-agent: Claude-Web
Disallow: /
# Googles erweitertes KI-Training blockieren (Blockiert NICHT Googlebot für die normale Suche)
User-agent: Google-Extended
Disallow: /
# Common Crawl blockieren (Wird oft für Open-Source-KI-Training wie LLaMA genutzt)
User-agent: CCBot
Disallow: /
7. Wichtige Regeln & Best Practices
- Groß-/Kleinschreibung: Verzeichnisnamen sind case-sensitiv.
Disallow: /Admin/blockiert nicht/admin/. - Reihenfolge der Priorität: Die spezifischste
Allow- oderDisallow-Regel gewinnt bei Googlebot in der Regel anhand der Länge des URL-Pfads. - Gruppen-Isolation: Regeln für einen bestimmten
User-agentgelten nur für diesen Agenten. Wenn du Regeln fürUser-agent: Googlebotund Regeln fürUser-agent: *hast, befolgt Googlebot nur den Googlebot-Block und ignoriert den*-Block. - Größenbeschränkung der Datei: Google erzwingt derzeit ein Größenlimit von 500 KB für
die
robots.txt. Alles darüber hinaus wird ignoriert. - UTF-8-Kodierung: Die Datei muss UTF-8-kodiert sein.
8. robots.txt vs. noindex
Dies ist das häufigste SEO-Missverständnis.
robots.txt(Disallow): Hindert einen Bot daran, die Seite zu crawlen. Wenn die Seite jedoch von anderswo verlinkt ist, kann Google sie trotzdem indexieren (und zeigt dann nur die URL in den Suchergebnissen ohne Beschreibung an).noindex(Meta-Tag oder HTTP-Header): Teilt dem Bot mit, die Seite nicht zu indexieren. Entscheidend: Damit Google dennoindex-Tag sehen kann, MUSS es die Seite crawlen können.
Warnung: Wenn du eine URL in die robots.txt einträgst UND ihr einen
noindex-Tag gibst, wird Google sie niemals crawlen, niemals den noindex-Tag
sehen und sie womöglich unbegrenzt im Suchindex behalten! Blockiere eine Seite niemals in der
robots.txt, wenn dein Ziel ist, sie aus dem Index zu entfernen.