Suchmaschinenoptimierung (SEO)


Tipps und Tricks für eine erfolgreiche Webseitenoptimierung
Online Marketing>Suchmaschinenoptimierung>Robots.txt

Robots.txt

Wie konfiguriert man die robots.txt? Welche Auswirkungen haben die Einstellungen in einer robots.txt auf die Indexierung einer Webseite?
  1. Gut zu wissen - Das Wichtigste bei einer robots.txt
  2. Empfehlungen - 5 hilfreiche Tipps wie man eine robots.txt richtig einsetzt
  3. Konfiguration und Aufbau - Nutzen Sie die Beschreibung wie man eine robots.txt richtig konfiguriert
  4. Beispiele – 14 Beispiele wie die robots.txt Ihrer Webseite aussehen könnte

Gut zu wissen

  1. Funktion: Im Wesentlichen werden in einer robots.txt globale Anweisungen hinterlegt, welche eine Suchmaschine beim Durchsuchen / Crawlen einer Webseite befolgen soll. Bei diesen Anweisungen handelt es sich um den Zugriff auf die Webseite, Webseitenbereiche oder URL-Typen dieser Webseite.
  2. Beachten Sie! Mit robots.txt kann eine Sperrung der Inhalte nicht verhindert werden, indem auf diese zugegriffen wird. Sie können lediglich die Indexierung Ihrer Webseite steuern und die Webseitenbereiche für das Anzeigen in den Suchergebnissen blockieren.
  3. Optimierung von Crawl-Budget und Indexierung - Durch das Blockieren unwichtiger Inhalte helfen Sie einer Suchmaschine Ihre Webseite besser zu verstehen. Somit kann eine Suchmaschine sich auf die wichtigen Inhalte fokussieren und das Crawl-Budget / die Ressourcen an der richtigen Stelle einzusetzen. Zusammenfassend erhöhen Sie die SEO-Qualität Ihrer Webseite.

Empfehlungen

  1. Einstellungen prüfen – Wenn Sie die robots.txt aktualisiert haben, testen Sie diese z.B. in Google Webmaster Tools. Es kann schnell passieren, dass wichtige Webseitenbereiche blockiert sind und somit die SEO Ihrer Webseite beträchtlich benachteiligt wird.
  2. Unwichtige Bots blockieren - Blockieren Sie für Ihr Land unwichtigen Suchmaschinen-Bots. Sie verursachen einen Traffic und belastet somit Ihren Server, ohne einen Nutzen zu bringen. Es gibt leider Bots, welche die Anweisungen in der robots.txt nicht befolgen. Hier empfiehlt sich die IP-Sperrung dieser Bots z.B. in einer .htaccess-Datei.
  3. Inhalte blockieren - Blockieren Sie die Bereiche und Dateien auf Ihrer Webseite, welche nicht indexiert werden sollen:
    • Geschützte Bereiche (z.B. Login-Bereich)
    • Bereiche mit dynamischem und sehr ähnlichen Content, welche Double Content verursachen. Klassischer Beispiel ist der Suchbereich, bei welchem eine Unmenge an URLs erzeugt wird.
    • Für die Indexierug sinnlose Bereiche, welche den Suchmaschinen auch nicht helfen, die neuen Inhalte zu finden.
  4. Nicht blockieren - Blockieren Sie auf keinem Fall die Javascripts oder CSS-Dateien. Somit verbieten Sie den Suchmaschinen das Design und die Funktionen Ihrer Webseite zu sehen. Die Suchmaschinen können kein eindeutiges Bild über Ihre Webseite machen, misstrauen dieser und schliesslich kann sie stark an Ranking verlieren.
  5. Sitemap verlinken – Wenn Ihre Webseite eine Sitemap besitzt, verlinken Sie diese von der robots.txt-Datei. So können die Suchmaschinen auf diese bequem zugreifen. Fügen Sie folgende Zeile in Ihre robots.txt ein:
    Sitemap: http://ihre-webseite.com/sitemap.xml
  6. Noindex mit robots.txt - Blockieren Sie die Indexierung der dynamischen URLs, welche immer mit einem Noindex-Tag versehen sind.
    • Noindex in robots.txt ist nur eine Erweiterung bzw. zusätliche Möglichkeit die Crawling für die Suchmaschinen zu erleichtern. Deswegen sollen diese URLs auch weiterhin über einen Meta-Robots-Tag mit "NOindex" verfügen. Es liegt auch daran, dass sich nicht alle Suchmaschinen an die Anweisung (Noindex in robots.txt) halten oder gar ignorieren.
    • Fall: Eine URL ist bei Google zu finden, obwohl diese bei robots.txt mit "Disallow" blockiert ist.

      Mit "Disallow" wird lediglich der Zugriff auf eine URL verboten und nicht das Anzeigen dieser URL in den Suchergebnissen. Da den Suchmaschinen der Zugriff auf jeweilige URL verweigert ist, liegt keine Möglichkeit für sie vor den Meta-Tag auszulesen bzw. zu erfahren, ob es ein Noindex-Tag vorhanden ist. In der Regel werden die bei robots.txt blockierten URLs nicht in die Suchergebnisse aufgenommen. Wenn dies doch eintrifft, dann sieht die SERPs-Beschreibung wie folgt aus: "Für diese Seite sind keine Informationen verfügbar".

      Wenn man verhindern möchte, dass eine URL nicht mehr auffindbar bei Google ist, sollte man sich an folgende 2 Möglichkeiten halten:
      • "Disallow in robots.txt entfernen" und den Meta-Robots-Tag mit "NOindex" einsetzen bzw. den Suchmaschinen den Zugriff auf die URL wieder erlaubt bekommen, damit sie "NOindex" sehen können.
      • "Disallow" + "Noindex" - Die Crawling und Indexierung für die URL in robots.txt blockieren.
    • Beispiel: (Blockierung und Deindexirung vom "offer_type"-Parameter)
      User-Agent: *
      Disallow: *?*offer_type=*
      Noindex: *?*offer_type=*
      

Konfiguration und Aufbau von robots.txt

  1. Speicherort

    Die robots.txt-Datei muss im Hauptverzeichnis Ihrer Webseite abgelegt werden bzw. unter folgender Adresse erreichbar sein:
    http://www.ihre-webseite.com/robots.txt
  2. Wichtige Anweisungen:

    Eine robots.txt kann folgende Funktionen beinhalten:
    • User-Agent: - Angabe von Robot-Namen.
      • User-Agent:* – Darauffolgende Anweisungen beziehen sich auf alle Bots
      • User-Agent: Googlebot – Drauffolgende Anweisungen beziehen sich nur auf bestimmtes Bot. In diesem Fall das „Googlebot“.
    • Disallow – Zugriff blockieren
    • Allow – Zugriff erlauben. Diese Funktion wird lediglich benötigt, um die Ausnahmen in einem blockierten Bereich zu definieren. (Siehe Beispiel 5, unten). Ansonsten brauchen Sie nicht jeden einzelnen Bereich freizugeben. Solange es keine Blockierungen mit "disallow" gibt, ist die ganze Webseite zum Crawlen freigegeben.
    • Noindex – Indexierung einer URL, URL-Typs oder Webseitenbereichs verhindern
    • Sitemap – URL zur Sitemap angeben
    • Crawl-delay – Auslesegeschwindigkeit drosseln bzw. die Zugriffsintensität von bestimmten Bots auf Ihre Webseite beschränken. Diese Funktion finden selten Einsatz.
  3. Zusatzkommandos:
    • $ - Bedeutet Zeilenende
    • * - Beliebig viele Zeichen
    • # - Alles was nach der Raute in einer Zeile steht wird ignoriert. So können Sie ein Kommentar hinterlassen.
  4. Reihenfolge der User-Agents:

    Beachten Sie die Reihenfolgen von User-Agents!
    User-Agent: * 
    # Ihre Anweisungen
    1 User-Agent: Googlebot
    # Anweisungen bezogen auf Googlebot
    User-Agent: Googlebot-news
    # Anweisungen bezogen nur auf google-news Bot
    

Beispiele

  1. Alles erlauben - Zugriff für alle Suchmaschinen erlauben:
    User-agent: *
    Disallow: 
    
  2. Alles verbieten - Zugriff für alle Suchmaschinen verbieten:
    User-agent: *
    Disallow: /
    
  3. Zugriff nur für einen Bot erlauben:

    z.B. nur Google darf Ihre Webseite crawlen (Google-Bot Name ist „google“). Für alle andere Bots ist der Zugriff auf die ganze Webseite nicht erlaubt.
    User-agent: Googlebot
    Disallow: 
    User-agent: *
    Disallow: /
    
  4. Zugriff von einen Bot verbieten:

    z.B. die Yandex-Suchmaschine (Name des Bots: yandex) darf Ihre Webseite nicht crawlen.
    User-agent: *
    Disallow: 
    User-agent: yandex
    Disallow: /
    
  5. Ausnahme in einem blockierten Ordner zulassen:

    Im folgenden Beispiel ist der Zugriff auf das Verzeichnis „/ordner/“ nicht erlaubt. Es ist jedoch erlaubt auf das Unterverzeichnis „/ordner/videos/“ und die Datei „/ordner/mein-video.avi“ zuzugreifen.
    User-Agent: *
    Disallow: /ordner/
    Allow: /ordner/videos/
    Allow: /ordner/mein-video.avi
    
  6. Alle Unterverzeichnisse blockieren, die mit "ordner" beginnen
    User-agent: *
    Disallow: /ordner*/
    
  7. Alle Unterverzeichnisse blockieren, die "ordner" enthalten
    User-agent: *
    Disallow: /*ordner/
    
  8. Nur ein ausgewähltes Verzeichnis blockieren
    Dabei werden die hierarchisch tiefergelegen Verzeichnisse und Dateien nicht gesperrt.
    User-agent: *
    Disallow: /ordner/$
    
  9. Dateien mit einer Dateiendung blockieren

    z.B. alle PDF-Dateien sollen blockiert werden:
    User-agent: *
    Disallow: /*.pdf$
    
  10. Dateien mit einer Dateiendung blockieren und nur eine Datei zulassen

    z.B. alle AVI-Dateien sollen blockiert und nur eine (/ordner/mein-cooles-video.avi) erlaubt werden:
    User-agent: *
    Disallow: /*.avi$
    Allow: /ordner/mein-cooles-video.avi
    
  11. Nur eine Datei blockieren

    z.B. die Datei (/ordner/mein-geheimes-video.avi) soll blockiert werden:
    User-agent: *
    Disallow: /ordner/mein-geheimes-video.avi
    
  12. Seiten mit URL-Parameter blockieren
    User-agent: *
    Disallow: /*?
    
  13. Auslesegeschwindigkeit von Bots drosseln

    Diese Konfigutation wird selten eingesetzt bzw. erst dann, wenn das Performance der Webseite durch das Crawlen bestimmter Bots beeinträchtigt ist.

    z.B. „msnbot“ darf auf Ihre Webseite nur einmal pro 15 Sekunden zugreifen
    User-agent: *
    Disallow: 
    User-agent: msnbot
    Crawl-delay: 15
    
  14. Komplexer Beispiel:

    Anforderung:
    • Bots: Zugriff für alle Bots ausser „testbot“ erlauben
    • Das Verzeichnis „/search/“ blockieren
    • Alle Verzeichnisse blockieren, welche am Anfang „conf“ haben.
    • Alle Dateien mit der Endung „.pdf“ blockieren
    • Nur die Datei "/ordner/seo.pdf" darf indexiert werden
    • Zugriff auf die URLs mit Parametern verbieten

    Inhalt der robots.txt-Datei sieht so aus:
    User-agent: *
    Disallow: /search/
    Disallow: /conf*/
    Disallow: /*.pdf$  
    Allow: /ordner/seo.pdf
    Disallow: /*?
    
    User-agent: testbot
    Disallow: /
    
Copyright © Andreas Reisch