Robots.txt
Was ist eine robots.txt?
Die robots.txt ist eine Textdatei im Stammverzeichnis einer Website, die Suchmaschinen-Crawlern vorgibt, welche Bereiche sie durchsuchen dürfen und welche nicht. Sie dient als erste Anlaufstelle für Bots und hilft dabei, das Crawl-Budget effizient zu nutzen sowie sensible oder irrelevante Inhalte von der Indexierung auszuschließen.
Definition und Funktion
Als Bestandteil des technischen SEO steuert die robots.txt das Crawling-Verhalten von Suchmaschinen. Sie enthält einfache Direktiven wieUser-agent,DisallowundAllow, um den Zugriff auf bestimmte Verzeichnisse oder Dateien zu gewähren oder zu sperren.
Vorteile und Ziele
- Optimierung des Crawl-Budgets durch gezielte Steuerung
- Schutz sensibler oder interner Bereiche vor Indexierung
- Vermeidung von Duplicate Content durch Ausschluss doppelter Seiten
- Verbesserte Performance und Relevanz der Suchergebnisse
Die robots.txt hilft, Crawler-Aktivitäten präzise zu lenken und sorgt dafür, dass nur gewünschte Inhalte indexiert werden.
Aufbau und Syntax
Eine typische robots.txt besteht aus Abschnitten für verschiedene User-Agents und den zugehörigen Pfadangaben:
User-agent
Legt fest, welcher Crawler-Regelsatz angewendet wird (z. B.Googlebotoder*für alle Bots).
Disallow
Verhindert das Crawlen einzelner Seiten oder ganzer Verzeichnisse.
Allow
Ermöglicht den Zugriff auf zuvor gesperrte Unterverzeichnisse.
Best Practices
Empfohlene Umsetzung
Folgende Maßnahmen sorgen für eine effektive robots.txt:
- Platzierung stets im Root-Verzeichnis der Domain
- Verweise auf XML-Sitemap für schnellere Auffindbarkeit
- Präzise und nachvollziehbare Pfadangaben
- Regelmäßige Überprüfung und Anpassung nach Strukturänderungen
Vergleich: robots.txt vs. Meta Robots Tag
| robots.txt | Meta Robots Tag |
|---|---|
| Steuert ausschließlich das Crawling | Regelt Indexierung und Snippet-Erstellung auf Seitenebene |
| Wird vor dem HTTP-Request ausgewertet | Gilt erst nach Herunterladen der Seite |
| Nur im Stammverzeichnis verfügbar | Direkt im HTML-Quellcode jeder Seite |
Häufige Fehler und Risiken
- Falsche oder absichtlich zu breite Disallow-Regeln blockieren wichtige Inhalte
- Fehlende Verlinkung der Sitemap erschwert das Auffinden neuer Seiten
- Syntaxfehler, etwa durch fehlenden Zeilenumbruch oder falsche Groß-/Kleinschreibung
Fazit
Eine korrekt konfigurierte robots.txt ist essenziell für ein sauberes Crawling und eine effiziente Indexierung. Sie schützt sensible Bereiche, vermeidet Duplicate Content und trägt entscheidend zur Optimierung des Crawl-Budgets bei.