AI-Crawler & robots.txt – KI-Bots konfigurieren

Welche AI-Crawler gibt es? Wie erlaubt oder blockiert man sie? Und warum ist die robots.txt-Konfiguration so entscheidend für GEO?
  1. Was sind AI-Crawler?
  2. Training-Crawler
  3. Such-Crawler (Retrieval)
  4. Warum sollte man AI-Crawler erlauben?
  5. robots.txt für AI-Crawler konfigurieren
  6. Wann sollte man AI-Crawler blockieren?
  7. Crawler verifizieren

Was sind AI-Crawler?

AI-Crawler sind spezialisierte Bots, die entweder Trainingsdaten für Sprachmodelle sammeln oder in Echtzeit Webinhalte für AI-Antworten abrufen. Es gibt zwei Hauptkategorien:

Wichtige Zahl: Websites, die GPTBot blockieren, werden in ChatGPT-Antworten 73 % weniger häufig zitiert als vergleichbare Seiten, die ihn zulassen.

Training-Crawler

Training-Crawler sammeln Daten zum Trainieren von Sprachmodellen. Sie crawlen das Web ähnlich wie Googlebot, aber mit dem Ziel der Modellerstellung statt der Suchindexierung:

Bot-NameAnbieterVerwendung
GPTBotOpenAITraining für ChatGPT-Modelle
ClaudeBotAnthropicTraining für Claude-Modelle
Google-ExtendedGoogleTraining für Gemini und AI Overviews
CCBotCommon CrawlOpen-Source-Trainingsdaten
Applebot-ExtendedAppleApple AI-Funktionen
ByteSpiderByteDanceTikTok/Douyin AI-Systeme
AI2BotAllen InstituteAkademische Forschung
Cohere-aiCohereCohere-Sprachmodelle

Such-Crawler (Retrieval)

Retrieval-Crawler (RAG-Crawler) holen Inhalte in Echtzeit, wenn ein Nutzer eine Anfrage stellt. Diese Bots entscheiden direkt, ob Ihre Website als aktuelle Quelle in KI-Antworten erscheint:

Bot-NameAnbieterSichtbarkeit in
OAI-SearchBotOpenAIChatGPT-Suche
ChatGPT-UserOpenAIChatGPT-Browser-Modus
PerplexityBotPerplexityPerplexity AI
Claude-SearchBotAnthropicClaude mit Webzugriff
BingBot / CopilotMicrosoftBing Copilot
AmazonbotAmazonAlexa AI-Antworten

Warum sollte man AI-Crawler erlauben?

Die robots.txt-Konfiguration hat direkten Einfluss auf die GEO-Sichtbarkeit:

robots.txt für AI-Crawler konfigurieren

Empfehlung: Alle AI-Crawler erlauben (für maximale GEO-Sichtbarkeit):

User-agent: *
Allow: /

# Training-Crawler erlauben
User-agent: GPTBot
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: Google-Extended
Allow: /

User-agent: CCBot
Allow: /

User-agent: Applebot-Extended
Allow: /

# Retrieval-Crawler erlauben
User-agent: OAI-SearchBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: ChatGPT-User
Allow: /

Sitemap: https://ihre-webseite.com/sitemap.xml

Selektives Blockieren – Nur Training blockieren, Retrieval erlauben:

# Training-Crawler blockieren (kein Modell-Training)
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

# Aber Retrieval für Live-Antworten erlauben
User-agent: OAI-SearchBot
Allow: /

User-agent: PerplexityBot
Allow: /

Nur bestimmte Bereiche schützen:

User-agent: GPTBot
Disallow: /mitglieder/
Disallow: /bezahlte-inhalte/
Allow: /

Wann sollte man AI-Crawler blockieren?

Es gibt legitime Gründe, bestimmte AI-Crawler zu blockieren:

Wichtig: Blockieren Sie AI-Crawler nie unbeabsichtigt durch eine zu restriktive allgemeine User-agent: * Disallow-Regel.

Crawler verifizieren

Nicht jeder Bot, der sich als «GPTBot» ausgibt, ist auch OpenAI. Seriöse AI-Firmen veröffentlichen offizielle IP-Ranges zur Verifizierung:

Für genaue Einblicke, welche Crawler Ihre Website tatsächlich besuchen, lesen Sie Log-File-Analyse. Weiterführend: Die llms.txt-Datei für erweiterte AI-Zugriffssteuerung.