Robots.txt

Was ist eine robots.txt?

Die robots.txt ist eine Textdatei im Stammverzeichnis einer Website, die Suchmaschinen-Crawlern vorgibt, welche Bereiche sie durchsuchen dürfen und welche nicht. Sie dient als erste Anlaufstelle für Bots und hilft dabei, das Crawl-Budget effizient zu nutzen sowie sensible oder irrelevante Inhalte von der Indexierung auszuschließen.

Definition und Funktion

Als Bestandteil des technischen SEO steuert die robots.txt das Crawling-Verhalten von Suchmaschinen. Sie enthält einfache Direktiven wieUser-agent,DisallowundAllow, um den Zugriff auf bestimmte Verzeichnisse oder Dateien zu gewähren oder zu sperren.

Vorteile und Ziele

  • Optimierung des Crawl-Budgets durch gezielte Steuerung
  • Schutz sensibler oder interner Bereiche vor Indexierung
  • Vermeidung von Duplicate Content durch Ausschluss doppelter Seiten
  • Verbesserte Performance und Relevanz der Suchergebnisse

Die robots.txt hilft, Crawler-Aktivitäten präzise zu lenken und sorgt dafür, dass nur gewünschte Inhalte indexiert werden.

Aufbau und Syntax

Eine typische robots.txt besteht aus Abschnitten für verschiedene User-Agents und den zugehörigen Pfadangaben:

User-agent

Legt fest, welcher Crawler-Regelsatz angewendet wird (z. B.Googlebotoder*für alle Bots).

Disallow

Verhindert das Crawlen einzelner Seiten oder ganzer Verzeichnisse.

Allow

Ermöglicht den Zugriff auf zuvor gesperrte Unterverzeichnisse.

Best Practices

Empfohlene Umsetzung

Folgende Maßnahmen sorgen für eine effektive robots.txt:

  1. Platzierung stets im Root-Verzeichnis der Domain
  2. Verweise auf XML-Sitemap für schnellere Auffindbarkeit
  3. Präzise und nachvollziehbare Pfadangaben
  4. Regelmäßige Überprüfung und Anpassung nach Strukturänderungen

Vergleich: robots.txt vs. Meta Robots Tag

robots.txtMeta Robots Tag
Steuert ausschließlich das CrawlingRegelt Indexierung und Snippet-Erstellung auf Seitenebene
Wird vor dem HTTP-Request ausgewertetGilt erst nach Herunterladen der Seite
Nur im Stammverzeichnis verfügbarDirekt im HTML-Quellcode jeder Seite

Häufige Fehler und Risiken

  • Falsche oder absichtlich zu breite Disallow-Regeln blockieren wichtige Inhalte
  • Fehlende Verlinkung der Sitemap erschwert das Auffinden neuer Seiten
  • Syntaxfehler, etwa durch fehlenden Zeilenumbruch oder falsche Groß-/Kleinschreibung

Fazit

Eine korrekt konfigurierte robots.txt ist essenziell für ein sauberes Crawling und eine effiziente Indexierung. Sie schützt sensible Bereiche, vermeidet Duplicate Content und trägt entscheidend zur Optimierung des Crawl-Budgets bei.