< !DOCTYPE html> robots.txt: Syntax, Beispiele & Anleitung - Rank-O-Saur

robots.txt: Der ultimative Leitfaden

Die robots.txt-Datei ist das Eingangstor zu deiner Website für Suchmaschinen und KI-Crawler. Sie teilt Web-Robots (Crawlern) mit, welche Seiten oder Dateien sie von deiner Website anfordern dürfen und welche nicht. Dieser Leitfaden deckt alles ab, was du wissen musst, von der grundlegenden Syntax bis zum Blockieren fortgeschrittener KI-Bots.

Teste jetzt deine robots.txt Prüfe mit unserem kostenlosen robots.txt-Validator sofort, ob eine URL erlaubt oder blockiert ist — für Googlebot, KI-Crawler oder einen eigenen User-Agent.
Validator öffnen →

1. Was ist eine robots.txt-Datei?

Eine robots.txt-Datei ist eine einfache Textdatei, die das Robots Exclusion Protocol (REP) verwendet. Sie dient in erster Linie dazu, den Crawler-Verkehr auf deiner Website zu steuern und zu verhindern, dass dein Server durch Anfragen überlastet wird.

Wichtig: Sie ist kein Mechanismus, um eine Webseite aus Google herauszuhalten. Um eine Seite aus dem Index fernzuhalten, musst du noindex-Tags verwenden oder die Seite mit einem Passwort schützen.

2. Wohin gehört die robots.txt?

Die Datei muss im obersten Verzeichnis (Root) deiner Website abgelegt werden und muss exakt robots.txt heißen (alles in Kleinbuchstaben).

  • Richtig: https: //www.rankosaur.com/robots.txt
  • Falsch: https: //www.rankosaur.com/assets/robots.txt
  • Falsch: https: //www.rankosaur.com/Robots.TXT

3. Grundlegende Syntax & Direktiven

Eine robots.txt-Datei besteht aus einer oder mehreren „Gruppen" von Regeln. Jede Gruppe beginnt mit einer User-agent-Zeile, gefolgt von Disallow- oder Allow-Regeln.

  • User-agent: Identifiziert den konkreten Bot, für den die Regel gilt (z. B. Googlebot, Bingbot). Ein Sternchen (*) gilt für alle Bots.
  • Disallow: Teilt dem User-Agent mit, einen bestimmten URL-Pfad oder ein Verzeichnis nicht zu crawlen.
  • Allow: Teilt dem User-Agent mit, dass er eine bestimmte URL oder ein Verzeichnis crawlen darf. Dies wird oft genutzt, um eine umfassendere Disallow-Regel zu überschreiben.
  • Sitemap: Verweist Crawler auf deine XML-Sitemap. Dies muss nicht an einen bestimmten User-Agent gebunden sein.
  • Crawl-delay: Teilt Nicht-Google-Bots mit, wie viele Sekunden sie zwischen Anfragen warten sollen (Googlebot ignoriert dies; für Googles Crawling-Rate musst du die Google Search Console verwenden).
  • # (Kommentare): Alles nach einer Raute wird von Crawlern ignoriert.

4. Häufige Code-Beispiele

Szenario A: Alles erlauben (Standard)

Wenn du keine robots.txt hast oder sie komplett leer ist, gehen Bots davon aus, dass sie alles crawlen dürfen. Du kannst dies auch ausdrücklich angeben:

User-agent: * Disallow: 

(Beachte das Leerzeichen nach Disallow)

Szenario B: Die gesamte Website blockieren

Wird für Staging-Umgebungen oder Websites verwendet, die sich noch in der Entwicklung befinden.

User-agent: * Disallow: /

Szenario C: Ein bestimmtes Verzeichnis blockieren

Verhindert das Crawlen interner oder Admin-Seiten.

User-agent: * Disallow: /admin/ Disallow: /internal-search/

Szenario D: Einen bestimmten Bot blockieren

Erlaube allen den Zugriff, blockiere aber einen bestimmten Crawler (z. B. den Crawler eines toxischen SEO-Tools).

User-agent: AhrefsBot Disallow: / User-agent: * Disallow:

Szenario E: Eine bestimmte Datei in einem blockierten Verzeichnis erlauben

User-agent: * Disallow: /images/ Allow: /images/logo.png

Szenario F: Eine Sitemap hinzufügen

User-agent: * Disallow: /private/ Sitemap: https: //www.rankosaur.com/sitemap_index.xml

5. Fortgeschrittenes Pattern Matching

Googlebot und Bingbot unterstützen reguläre Ausdrücke (RegEx) für komplexere Regeln.

  • * (Wildcard): Steht für eine beliebige Zeichenfolge.
  • $ (Ende der URL): Markiert das exakte Ende einer URL-Zeichenkette.

Alle URLs blockieren, die einen bestimmten Parameter enthalten (z. B. die interne Suche):

User-agent: * Disallow:
    /*?search=

Alle Dateien eines bestimmten Typs blockieren (z. B. PDFs):

User-agent: *
Disallow: /*.pdf$

(Dies blockiert document.pdf, erlaubt aber document.pdf?version=2, sofern du das $ nicht entfernst)

6. KI- & LLM-Bots steuern (Wichtig!)

Mit dem Aufstieg von ChatGPT, Claude und Google SGE durchforsten KI-Unternehmen das Web aggressiv, um ihre Large Language Models (LLMs) zu trainieren. Du kannst sie blockieren und gleichzeitig die normale Indexierung durch Suchmaschinen weiterhin zulassen.

Hinweis: Rank-O-Saur hat eine eingebaute Funktion, mit der du sofort sichtbar machst, ob diese KI-Bots auf der Seite, die du gerade ansiehst, blockiert sind!

Code-Snippet zum Blockieren der gängigsten KI-/LLM-Scraper:

# OpenAI blockieren (ChatGPT & Trainings-Bots)
User-agent: GPTBot
Disallow: /
User-agent: ChatGPT-User
Disallow: /
User-agent: OAI-SearchBot
Disallow: /

# Anthropic blockieren (Claude)
User-agent: ClaudeBot
Disallow: /
User-agent: Claude-Web
Disallow: /

# Googles erweitertes KI-Training blockieren (Blockiert NICHT Googlebot für die normale Suche)
User-agent: Google-Extended
Disallow: /

# Common Crawl blockieren (Wird oft für Open-Source-KI-Training wie LLaMA genutzt)
User-agent: CCBot
Disallow: /

7. Wichtige Regeln & Best Practices

  1. Groß-/Kleinschreibung: Verzeichnisnamen sind case-sensitiv. Disallow: /Admin/ blockiert nicht /admin/.
  2. Reihenfolge der Priorität: Die spezifischste Allow- oder Disallow-Regel gewinnt bei Googlebot in der Regel anhand der Länge des URL-Pfads.
  3. Gruppen-Isolation: Regeln für einen bestimmten User-agent gelten nur für diesen Agenten. Wenn du Regeln für User-agent: Googlebot und Regeln für User-agent: * hast, befolgt Googlebot nur den Googlebot-Block und ignoriert den *-Block.
  4. Größenbeschränkung der Datei: Google erzwingt derzeit ein Größenlimit von 500 KB für die robots.txt. Alles darüber hinaus wird ignoriert.
  5. UTF-8-Kodierung: Die Datei muss UTF-8-kodiert sein.

8. robots.txt vs. noindex

Dies ist das häufigste SEO-Missverständnis.

  • robots.txt (Disallow): Hindert einen Bot daran, die Seite zu crawlen. Wenn die Seite jedoch von anderswo verlinkt ist, kann Google sie trotzdem indexieren (und zeigt dann nur die URL in den Suchergebnissen ohne Beschreibung an).
  • noindex (Meta-Tag oder HTTP-Header): Teilt dem Bot mit, die Seite nicht zu indexieren. Entscheidend: Damit Google den noindex-Tag sehen kann, MUSS es die Seite crawlen können.

Warnung: Wenn du eine URL in die robots.txt einträgst UND ihr einen noindex-Tag gibst, wird Google sie niemals crawlen, niemals den noindex-Tag sehen und sie womöglich unbegrenzt im Suchindex behalten! Blockiere eine Seite niemals in der robots.txt, wenn dein Ziel ist, sie aus dem Index zu entfernen.

Christoph Hein, Head of SEO und Search Consultant
Über den Autor

Christoph Hein

Head of SEO bei der Popken Fashion Group & unabhängiger Search Consultant

Christoph ist seit über 10 Jahren im Suchmaschinenbereich tätig und steuert derzeit die Organic-Strategie für 5 Modemarken in 13 Ländern und über 30 Domains. Neben seiner Inhouse- und Beratungsarbeit hat er Nischen-Content-Portale wie Angelmagazin.de und BaristaCompass.com gegründet und die Rank-O-Saur-Erweiterung entwickelt, um technische SEO-Audits mühelos zu machen. Jeder Leitfaden hier basiert auf praxisnaher, datengetriebener Erfahrung statt auf Theorie.