Robots.txt

Oleg Vöhringer · Zuletzt aktualisiert: März 12, 2026
2 Min. Lesedauer

Was ist eine robots.txt?

Die robots.txt ist eine Textdatei im Stammverzeichnis einer Website, die Suchmaschinen-Crawlern vorgibt, welche Bereiche sie durchsuchen dürfen und welche nicht. Sie dient als erste Anlaufstelle für Bots und hilft dabei, das Crawl-Budget effizient zu nutzen sowie sensible oder irrelevante Inhalte von der Indexierung auszuschließen.

Definition und Funktion

Als Bestandteil des technischen SEO steuert die robots.txt das Crawling-Verhalten von Suchmaschinen. Sie enthält einfache Direktiven wieUser-agent,DisallowundAllow, um den Zugriff auf bestimmte Verzeichnisse oder Dateien zu gewähren oder zu sperren.

Vorteile und Ziele

Optimierung des Crawl-Budgets durch gezielte Steuerung
Schutz sensibler oder interner Bereiche vor Indexierung
Vermeidung von Duplicate Content durch Ausschluss doppelter Seiten
Verbesserte Performance und Relevanz der Suchergebnisse

Die robots.txt hilft, Crawler-Aktivitäten präzise zu lenken und sorgt dafür, dass nur gewünschte Inhalte indexiert werden.

Aufbau und Syntax

Eine typische robots.txt besteht aus Abschnitten für verschiedene User-Agents und den zugehörigen Pfadangaben:

User-agent

Legt fest, welcher Crawler-Regelsatz angewendet wird (z. B.Googlebotoder*für alle Bots).

Disallow

Verhindert das Crawlen einzelner Seiten oder ganzer Verzeichnisse.

Allow

Ermöglicht den Zugriff auf zuvor gesperrte Unterverzeichnisse.

Best Practices

Empfohlene Umsetzung

Folgende Maßnahmen sorgen für eine effektive robots.txt:

Platzierung stets im Root-Verzeichnis der Domain
Verweise auf XML-Sitemap für schnellere Auffindbarkeit
Präzise und nachvollziehbare Pfadangaben
Regelmäßige Überprüfung und Anpassung nach Strukturänderungen

Vergleich: robots.txt vs. Meta Robots Tag

robots.txt	Meta Robots Tag
Steuert ausschließlich das Crawling	Regelt Indexierung und Snippet-Erstellung auf Seitenebene
Wird vor dem HTTP-Request ausgewertet	Gilt erst nach Herunterladen der Seite
Nur im Stammverzeichnis verfügbar	Direkt im HTML-Quellcode jeder Seite

Häufige Fehler und Risiken

Falsche oder absichtlich zu breite Disallow-Regeln blockieren wichtige Inhalte
Fehlende Verlinkung der Sitemap erschwert das Auffinden neuer Seiten
Syntaxfehler, etwa durch fehlenden Zeilenumbruch oder falsche Groß-/Kleinschreibung

Fazit

Eine korrekt konfigurierte robots.txt ist essenziell für ein sauberes Crawling und eine effiziente Indexierung. Sie schützt sensible Bereiche, vermeidet Duplicate Content und trägt entscheidend zur Optimierung des Crawl-Budgets bei.