AI-Crawler & robots.txt – KI-Bots konfigurieren
Welche AI-Crawler gibt es? Wie erlaubt oder blockiert man sie? Und warum ist die robots.txt-Konfiguration so entscheidend für GEO?- Was sind AI-Crawler?
- Training-Crawler
- Such-Crawler (Retrieval)
- Warum sollte man AI-Crawler erlauben?
- robots.txt für AI-Crawler konfigurieren
- Wann sollte man AI-Crawler blockieren?
- Crawler verifizieren
Was sind AI-Crawler?
AI-Crawler sind spezialisierte Bots, die entweder Trainingsdaten für Sprachmodelle sammeln oder in Echtzeit Webinhalte für AI-Antworten abrufen. Es gibt zwei Hauptkategorien:
- Training-Crawler – Sammeln Daten, mit denen LLMs trainiert werden. Wer hier blockiert wird, fehlt im Trainingskorpus des Modells.
- Retrieval-Crawler (RAG) – Holen in Echtzeit Inhalte für aktuelle Suchantworten. Wer hier blockiert wird, fehlt in Live-Antworten.
Training-Crawler
Training-Crawler sammeln Daten zum Trainieren von Sprachmodellen. Sie crawlen das Web ähnlich wie Googlebot, aber mit dem Ziel der Modellerstellung statt der Suchindexierung:
| Bot-Name | Anbieter | Verwendung |
|---|---|---|
| GPTBot | OpenAI | Training für ChatGPT-Modelle |
| ClaudeBot | Anthropic | Training für Claude-Modelle |
| Google-Extended | Training für Gemini und AI Overviews | |
| CCBot | Common Crawl | Open-Source-Trainingsdaten |
| Applebot-Extended | Apple | Apple AI-Funktionen |
| ByteSpider | ByteDance | TikTok/Douyin AI-Systeme |
| AI2Bot | Allen Institute | Akademische Forschung |
| Cohere-ai | Cohere | Cohere-Sprachmodelle |
Such-Crawler (Retrieval)
Retrieval-Crawler (RAG-Crawler) holen Inhalte in Echtzeit, wenn ein Nutzer eine Anfrage stellt. Diese Bots entscheiden direkt, ob Ihre Website als aktuelle Quelle in KI-Antworten erscheint:
| Bot-Name | Anbieter | Sichtbarkeit in |
|---|---|---|
| OAI-SearchBot | OpenAI | ChatGPT-Suche |
| ChatGPT-User | OpenAI | ChatGPT-Browser-Modus |
| PerplexityBot | Perplexity | Perplexity AI |
| Claude-SearchBot | Anthropic | Claude mit Webzugriff |
| BingBot / Copilot | Microsoft | Bing Copilot |
| Amazonbot | Amazon | Alexa AI-Antworten |
Warum sollte man AI-Crawler erlauben?
Die robots.txt-Konfiguration hat direkten Einfluss auf die GEO-Sichtbarkeit:
- GPTBot blockiert → 73 % weniger ChatGPT-Zitierungen: Wenn OpenAI Ihre Seite nicht crawlen kann, fehlen Ihre Inhalte sowohl im Training als auch in aktuellen Antworten.
- Google-Extended blockiert → keine AI-Overview-Erwähnungen: Google verwendet diese Daten explizit für Gemini und AI Overviews.
- PerplexityBot blockiert → kein Perplexity-Traffic: Perplexity liefert messbaren Referral-Traffic an erlaubte Websites.
robots.txt für AI-Crawler konfigurieren
Empfehlung: Alle AI-Crawler erlauben (für maximale GEO-Sichtbarkeit):
User-agent: * Allow: / # Training-Crawler erlauben User-agent: GPTBot Allow: / User-agent: ClaudeBot Allow: / User-agent: Google-Extended Allow: / User-agent: CCBot Allow: / User-agent: Applebot-Extended Allow: / # Retrieval-Crawler erlauben User-agent: OAI-SearchBot Allow: / User-agent: PerplexityBot Allow: / User-agent: ChatGPT-User Allow: / Sitemap: https://ihre-webseite.com/sitemap.xml
Selektives Blockieren – Nur Training blockieren, Retrieval erlauben:
# Training-Crawler blockieren (kein Modell-Training) User-agent: GPTBot Disallow: / User-agent: ClaudeBot Disallow: / # Aber Retrieval für Live-Antworten erlauben User-agent: OAI-SearchBot Allow: / User-agent: PerplexityBot Allow: /
Nur bestimmte Bereiche schützen:
User-agent: GPTBot Disallow: /mitglieder/ Disallow: /bezahlte-inhalte/ Allow: /
Wann sollte man AI-Crawler blockieren?
Es gibt legitime Gründe, bestimmte AI-Crawler zu blockieren:
- Bezahlte Inhalte (Paywalls) – Inhalte, die nur Abonnenten zugänglich sein sollen.
- Proprietäre Daten – Datenbanken, Preislisten oder interne Dokumente.
- Rechtliche Gründe – Inhalte, für die kein AI-Training-Recht besteht.
- Login-Bereiche – Personalisierte Seiten ohne öffentlichen Mehrwert.
Wichtig: Blockieren Sie AI-Crawler nie unbeabsichtigt durch eine zu restriktive allgemeine User-agent: * Disallow-Regel.
Crawler verifizieren
Nicht jeder Bot, der sich als «GPTBot» ausgibt, ist auch OpenAI. Seriöse AI-Firmen veröffentlichen offizielle IP-Ranges zur Verifizierung:
- OpenAI: IP-Ranges über das OpenAI-Developer-Portal
- Google: Verifizierung über Reverse-DNS-Lookup (*.googlebot.com)
- Anthropic: Dokumentation auf anthropic.com/claude
Für genaue Einblicke, welche Crawler Ihre Website tatsächlich besuchen, lesen Sie Log-File-Analyse. Weiterführend: Die llms.txt-Datei für erweiterte AI-Zugriffssteuerung.