robots.txt Disallow: Crawler gezielt steuern & Bereiche schützen

Was bedeutet die Disallow-Funktion in der Robots.txt

Die Disallow-Anweisung in der robots.txt gibt an, welche Bereiche Ihrer Website Crawler nicht besuchen dürfen. Sie legen fest, ob Suchmaschinen-Bots bestimmte Verzeichnisse oder einzelne Dateien auslesen können. Das schützt Login-Bereiche, verhindert doppelte Inhalte durch Filterseiten und spart Crawling-Ressourcen. Die robots.txt liegt immer im Hauptverzeichnis Ihrer Domain unter beispiel.de/robots.txt. Dort definieren Sie für jeden Bot einzeln oder für alle zusammen, welche Pfade tabu sind. Die Datei ist öffentlich einsehbar, bietet also keinen Zugriffsschutz für sensible Daten.

Syntax und Funktionsweise

Die robots.txt steuert Crawler durch einfache Textanweisungen. Jede Regel besteht aus einem User-Agent und den zugehörigen Disallow-Einträgen. Der Aufbau folgt klaren Mustern, die Sie schnell beherrschen. Die Datei können Sie mit jedem Texteditor erstellen und bearbeiten. Sie müssen keine Programmiersprache lernen oder technische Vorkenntnisse mitbringen. Die Syntax ist bewusst einfach gehalten, damit Webmaster ohne Entwicklerhintergrund ihre Website-Bereiche selbst verwalten können. Bei einigen CMS wie WordPress können Sie die robots.txt automatisch erstellen lassen und direkt bearbeiten. Drei grundlegende Elemente bilden das Fundament: User-Agent-Angaben, Disallow-Anweisungen und optionale Wildcards für erweiterte Kontrolle.

Die Grundbausteine

Der User-Agent bestimmt, welcher Crawler angesprochen wird. Das Sternchen erfasst alle Bots gleichzeitig. Disallow definiert die gesperrten Bereiche. Jeder Pfad beginnt mit einem Schrägstrich und muss exakt geschrieben werden. Groß- und Kleinschreibung unterscheiden verschiedene Verzeichnisse: /admin/ ist nicht /Admin/.

User-agent: *
Disallow: /admin/
Disallow: /temp/

Wildcards für flexible Regeln

Der Asterisk ersetzt beliebige Zeichen in Pfaden. So blockieren Sie alle Verzeichnisse, die mit /fotos beginnen, egal was danach folgt. Das Dollarzeichen markiert das URL-Ende und verhindert, dass die Regel zu weit greift.

User-agent: *
Disallow: /fotos*
Disallow: /*.pdf$

Kommentare und Formatierung

Das Hashtag kennzeichnet Kommentare, die Crawler ignorieren. Nach jedem Doppelpunkt folgt ein Leerzeichen. Diese Formatierung ist Pflicht, damit Bots die Anweisungen korrekt verarbeiten. Kommentare helfen Ihnen, die Struktur auch Monate später noch zu verstehen. Bei den Pfadangaben sollten Sie auf den Trailing Slash achten, da er Teil der URL-Struktur ist.

# Blockiert Admin-Bereich
User-agent: *
Disallow: /admin/

Wichtige User-Agents

Jeder Crawler identifiziert sich mit einem eindeutigen User-Agent-Namen. Diese Namen nutzen Sie in der robots.txt, um gezielt einzelne Bots anzusprechen oder auszuschließen. Die bekanntesten Crawler stammen von Suchmaschinen wie Google oder Bing, aber auch KI-Systeme nutzen eigene User-Agents. In der folgenden Tabelle finden Sie die wichtigsten Bots und ihre Betreiber.

User-Agent	Anbieter
Googlebot	Google
Googlebot-Image	Google
Bingbot	Microsoft
Applebot	Apple
DuckDuckBot	DuckDuckGo
GPTBot	OpenAI
CCBot	Common Crawl
Google-Extended	Google
ClaudeBot	Anthropic
PerplexityBot	Perplexity

Sie können für jeden Bot unterschiedliche Regeln definieren. Oder Sie nutzen den Platzhalter für alle:
User-agent: *
Disallow: /admin/

User-agent: Googlebot
Allow: /admin/statistik/
Hier dürfen alle Bots nicht in /admin/, aber Googlebot bekommt Zugriff auf /admin/statistik/. Die spezifischere Regel überschreibt die allgemeine.

Disallow für KI-Systeme

KI-Systeme nutzen eigene Crawler, um Trainingsdaten zu sammeln. Diese Bots lassen sich genauso über die robots.txt steuern wie Suchmaschinen-Crawler. Sie können gezielt festlegen, welche Inhalte für KI-Training gesperrt bleiben und welche gecrawlt werden dürfen. Der wichtigste Unterschied zu Suchmaschinen: Die Anweisungen wirken nur für zukünftiges Crawling. Daten, die bereits gesammelt wurden, bleiben in den Trainingsdatensätzen der KI-Modelle.

Die Trennung zwischen Such-Crawlern und Trainings-Crawlern ermöglicht gezielte Steuerung. Sie können in Suchmaschinen sichtbar bleiben und gleichzeitig KI-Training verhindern. Google-Extended blockiert ausschließlich das Training von Gemini, lässt aber die normale Google-Suche durch Googlebot unberührt. So bleiben Ihre Inhalte auffindbar, ohne dass sie für KI-Modelle verwendet werden. Ähnlich verhält es sich mit ChatGPT und Perplexity, die ebenfalls separate Crawler für das Training einsetzen.

Die Einhaltung der robots.txt durch KI-Crawler unterscheidet sich stark. Seriöse Unternehmen wie OpenAI, Anthropic, Google oder Microsoft respektieren die Regeln. Ihre Crawler halten sich an Disallow-Anweisungen und crawlen nur erlaubte Bereiche. Kleinere oder unbekannte KI-Crawler ignorieren die Datei häufig. Wenn Sie feststellen, dass bestimmte Bots die Anweisungen missachten, blockieren Sie diese über die .htaccess-Datei oder Firewall-Regeln auf Serverebene.

Disallow in der praktischen Anwendung

Die Disallow-Anweisung löst konkrete Probleme im Websitebetrieb. Sie schützt Bereiche vor unerwünschtem Crawling, vermeidet doppelte Inhalte im Suchindex und spart wertvolles Crawl-Budget für wichtige Seiten. Die folgenden Szenarien zeigen, wann und wie Sie Disallow sinnvoll einsetzen. Jeder Anwendungsfall kommt mit einem direkt nutzbaren Code-Beispiel, das Sie an Ihre Website anpassen können.

Login-Bereiche schützen

Bereiche mit Login-Formularen oder geschützten Inhalten gehören nicht in die SERPs. Nutzer können ohne Zugangsdaten ohnehin nichts mit diesen Seiten anfangen. Wenn Google solche Seiten indexiert, verschwenden Sie Crawl-Budget für irrelevante Inhalte. Mitgliederbereiche, Kundenkonten oder interne Dashboards sollten Sie grundsätzlich ausschließen. Das verbessert die Qualität Ihres Suchindex und verhindert, dass Nutzer auf Login-Seiten landen, wenn sie nach Inhalten suchen.

User-agent: *
Disallow: /login/
Disallow: /mitglieder/
Disallow: /konto/

Duplicate Content vermeiden

Filterfunktionen in Shops erzeugen oft identische Inhalte mit verschiedenen URLs. Ein Produkt erscheint in der Kategorie, in der gefilterten Ansicht nach Preis, in der sortierten Liste nach Beliebtheit und in der Markenübersicht. Google sieht vier verschiedene URLs mit dem gleichen Inhalt. Das verwässert die Relevanz Ihrer Seiten und verschwendet Crawl-Budget. Druckversionen von Artikeln oder PDF-Generierungen erzeugen dasselbe Problem. Sie blockieren diese parametrisierten URLs, damit Google nur die Hauptversion indexiert.

User-agent: *
Disallow: /*?filter=
Disallow: /*?sort=
Disallow: /druckversion/

Staging-Umgebungen ausschließen

Entwicklungs- und Testumgebungen laufen oft auf Subdomains oder in Unterverzeichnissen Ihrer Live-Domain. Diese Bereiche enthalten unfertige Inhalte, Testdaten oder experimentelle Features. Wenn Google diese Seiten indexiert, konkurrieren sie mit Ihren echten Inhalten um Rankings. Nutzer landen auf kaputten oder unfertigen Seiten. Außerdem können Entwicklerdaten sensible Informationen enthalten, die nicht öffentlich sein sollen. Sperren Sie diese Bereiche konsequent.

User-agent: *
Disallow: /staging/
Disallow: /dev/
Disallow: /test/

Temporäre Dateien blockieren

Cache-Verzeichnisse oder temporäre Uploads belasten das Crawl-Budget unnötig. Diese Dateien ändern sich ständig, haben keinen Mehrwert für Nutzer und sollen nie in Suchergebnissen erscheinen. Jedes Mal, wenn ein Bot diese Verzeichnisse crawlt, verschwendet er Ressourcen, die besser für wichtige Inhalte genutzt würden. Upload-Ordner für Formulare oder Session-Daten gehören ebenfalls nicht in den Index. Sie enthalten oft nur temporäre Dateien, die nach kurzer Zeit wieder gelöscht werden.

User-agent: *
Disallow: /tmp/
Disallow: /cache/
Disallow: /_temp/

KI-Crawler von bestimmten Inhalten fernhalten

Sie möchten, dass Suchmaschinen Ihre Blog-Artikel finden, aber KI-Systeme sollen sie nicht zum Training nutzen. Ihre Inhalte bleiben in Google sichtbar und generieren Website Traffic. Gleichzeitig schützen Sie Ihre Texte vor der Verwendung in KI-Modellen. Das funktioniert durch gezielte Regeln für verschiedene User-Agents. Sie erlauben allen Crawlern den Zugriff, blockieren aber explizit die KI-Bots für bestimmte Bereiche.

User-agent: *
Allow: /

User-agent: GPTBot
Disallow: /blog/

User-agent: CCBot
Disallow: /blog/

Disallow vs. Noindex

Disallow und Noindex wirken auf den ersten Blick ähnlich, unterscheiden sich aber grundlegend in ihrer Funktionsweise. Beide Methoden steuern, ob Seiten in Suchmaschinen erscheinen, setzen aber an verschiedenen Punkten an. Disallow verhindert das Crawling über die robots.txt, während Noindex das Crawling zulässt und nur die Indexierung blockiert. Die Wahl der richtigen Methode hängt davon ab, was Sie erreichen möchten und in welchem Zustand sich Ihre Seiten befinden.

Merkmal	Disallow	Noindex
Crawling	Verhindert Crawling	Erlaubt Crawling
Indexierung	Keine Garantie gegen Indexierung	Verhindert Indexierung
Einsatz im	robots.txt	HTML Meta-Tag
Links folgen	Bot sieht keine Links	Bot kann Links folgen
Bereits indexierte Seiten	Können im Index bleiben	Werden aktiv entfernt
Backlinks wirksam	Können Sperre umgehen	Schützen trotz Backlinks
Umsetzung	Eine Datei für ganze Website	Jede Seite einzeln
Geeignet für	Admin-Bereiche, temporäre Dateien	Danke-Seiten, Warenkorb, duplicate Pages

Disallow eignet sich für Bereiche, die Crawler grundsätzlich nicht besuchen sollen. Das betrifft vor allem technische Verzeichnisse wie Admin-Panels, Entwicklungsumgebungen oder temporäre Dateien, die keinerlei Mehrwert für Suchmaschinen bieten. Diese Bereiche enthalten oft sensible Daten oder ändern sich so häufig, dass ein Crawling nur Ressourcen verschwendet. Noindex nutzen Sie dagegen für Seiten, die Crawler durchaus analysieren dürfen, die aber nicht in Suchergebnissen erscheinen sollen.

Dazu gehören Danke-Seiten nach Formularabsendungen, Warenkorb-Ansichten oder Filterseiten mit doppeltem Inhalt. Der Bot kann diese Seiten besuchen, einen Link verfolgen und die Struktur Ihrer Website verstehen, nimmt sie aber bewusst nicht in den Index auf. Ein entscheidender Unterschied zeigt sich bei bereits indexierten Seiten: Wenn Sie Disallow auf eine Seite anwenden, die schon im Index ist, kann Google das Noindex-Tag nicht mehr lesen und die Seite bleibt möglicherweise sichtbar. Noindex hingegen sorgt dafür, dass der Bot die Seite weiter besucht, das Tag ausliest und die Seite aktiv aus dem Index entfernt. Beide Methoden gleichzeitig einzusetzen ist kontraproduktiv, weil Disallow verhindert, dass der Bot überhaupt auf die Seite zugreifen und das Noindex-Tag lesen kann.

Häufige Probleme bei der Disallow-Umsetzung

Auch bei korrekt eingerichteter robots.txt treten immer wieder typische Fehler auf, die verhindern, dass die Sperrungen wie gewünscht wirken. Nachfolgend sind die häufigsten Stolperfallen aufgelistet, die in der Praxis immer wieder auftreten.

Komplette Website wird blockiert

Ein häufiger Fehler in der robots.txt ist die komplette Sperrung der URL durch die Anweisung Disallow: /. In diesem Fall wird sämtlicher Zugriff für alle Suchmaschinen-Crawler untersagt. Das bedeutet, dass keine Seite der Website indexiert wird – auch Inhalte, die eigentlich für die Öffentlichkeit sichtbar sein sollen, bleiben für Suchmaschinen unsichtbar.

Falscher Pfad durch Tippfehler

Tippfehler in der Pfadangabe können dazu führen, dass eigentlich gesperrte Bereiche versehentlich zugänglich bleiben. Ein klassisches Beispiel ist Disallow: /admn/ statt /admin/. Durch die falsche Schreibweise wird das beabsichtigte Verzeichnis nicht blockiert, während die Anweisung formal korrekt ist.

Fehlendes Leerzeichen nach dem Doppelpunkt

Die Syntax der robots.txt verlangt ein Leerzeichen nach dem Doppelpunkt in den Direktiven, z. B. Disallow: /admin/. Wird dieses Leerzeichen vergessen, wie in Disallow:/admin/, ignorieren viele Suchmaschinen-Crawler die Anweisung. Das Problem liegt also nicht am Pfad selbst, sondern an der formalen Schreibweise.

robots.txt im falschen Verzeichnis

Die robots.txt muss im Root-Verzeichnis der Website liegen, also direkt unter beispiel.de /robots.txt. Wenn die Datei in einem Unterordner abgelegt wird, zum Beispiel beispiel.de /unterordner /robots.txt, suchen Suchmaschinen sie nicht und ignorieren alle darin enthaltenen Regeln. Dies führt dazu, dass weder gesperrte noch freigegebene Bereiche wie gewünscht behandelt werden.

Groß- und Kleinschreibung nicht beachtet

Die Pfadangaben in der robots.txt sind case-sensitive, das heißt, sie unterscheiden zwischen Groß- und Kleinschreibung. Ein Beispiel ist Disallow: /Admin/, während das tatsächliche Verzeichnis /admin/ heißt. In diesem Fall blockiert die Anweisung das Ziel nicht, und Crawler haben weiterhin Zugriff.

FAQs zur Disallow-Funktion in der Robots.txt

Muss ich eine robots.txt haben?

Kann ich Disallow und Noindex kombinieren?

Wie teste ich meine robots.txt?

Kann ich mit Disallow verhindern, dass meine Seite in Google erscheint?

Philipp Nessmann

Seit über 20 Jahren im SEO aktiv – mit technischem Tiefgang, Unternehmergeist und dem Blick fürs Wesentliche. Ich habe über 1100 Kunden betreut und erfolgreiche Firmen wie Contentbär, Jurawelt und trauringspezialisten.de aufgebaut.

Wir bewegen uns genau am digitalen Zeitgeist – und sorgen dafür, dass unsere Kunden nicht nur bei Google, sondern auch in KI-Systemen wie ChatGPT, Gemini & Co. ganz oben auftauchen.

Referenzen

Contentbär Blog