#Technologie

KI-Crawler und robots.txt: Wer liest deine Website – und darf er das?

Pascal Widmer Technical Director

GPTBot, ClaudeBot, PerplexityBot – KI-Unternehmen schicken Crawler auf deine Website, um Trainingsdata zu sammeln. Wir erklären, wer das ist, was robots.txt dazu sagt, und was Schweizer KMU jetzt tun sollten.

Wenn du heute eine Website betreibst, liest sie nicht nur Google. KI-Unternehmen schicken eigene Crawler, die deine Inhalte für Trainingsdata und Live-Suche verwenden. Was du darüber weisst – und welche Kontrolle du hast – entscheidet mit darüber, wie KI-Systeme dein Unternehmen in Zukunft darstellen.

Wer noch gar nicht weiss, ob KI-Systeme das eigene Unternehmen überhaupt kennen, beginnt am besten mit: KI-Sichtbarkeit messen.

Die wichtigsten KI-Crawler

Diese KI-Crawler sind heute aktiv und besuchen öffentlich zugängliche Websites:

  • GPTBot (OpenAI): Sammelt Trainingsdata für GPT-Modelle. User-Agent: GPTBot. Opt-out via robots.txt respektiert.
  • ClaudeBot (Anthropic): Crawler für Claude-Trainingsdata und Websuche. User-Agent: ClaudeBot. Respektiert robots.txt-Direktiven.
  • PerplexityBot: Live-Websuche für Perplexity AI. Besucht Seiten bei jeder Anfrage, nicht nur beim Training.
  • Google-Extended: Googles eigener KI-Crawler für Bard/Gemini-Trainingsdata – separat von Googlebot für die reguläre Suche.
  • Applebot-Extended: Crawlt für Apple Intelligence und Siri. Seit 2024 aktiv.
  • meta-externalagent: Metas Crawler für KI-Produkttraining (Llama, Meta AI).

Das bedeutet: Auf einer Website ohne robots.txt-Einschränkungen können heute sechs oder mehr KI-Crawler aktiv sein – zusätzlich zu Google, Bing und anderen Suchmaschinen.

Wie robots.txt funktioniert

robots.txt ist eine Textdatei unter yourdomain.com/robots.txt. Sie kommuniziert über das Robots Exclusion Protocol, welche Crawler welche Bereiche deiner Website besuchen dürfen.

Das Grundprinzip:

User-agent: GPTBot

Disallow: /

Diese zwei Zeilen blockieren GPTBot von deiner gesamten Website. Du kannst auch einzelne Bereiche freigeben:

User-agent: GPTBot

Allow: /insights/

Disallow: /

Damit crawlt GPTBot nur deine Insights-Seiten – und ignoriert den Rest. Das ist sinnvoll, wenn du dein Blog als Quelle für KI-Antworten nutzen willst, aber sensible Bereiche (Kundendaten, interne Dokumentation) schützen möchtest.

Wichtig: robots.txt ist eine Konvention, kein technischer Sperrriegel. Seriöse Crawler – alle oben genannten – halten sich daran. Unseriöse Scraper ignorieren sie.

Die 80%-Falle: Schweigen ist Erlaubnis

Laut einer Analyse von Originality.ai (2024) haben über 80 % der untersuchten Websites entweder gar keine robots.txt oder eine, die KI-Crawler explizit erlaubt – oft ohne es zu wissen.

Das passiert aus zwei Gründen:

  • Viele robots.txt-Dateien wurden erstellt, bevor KI-Crawler existierten. Sie kennen GPTBot und ClaudeBot nicht.
  • Der Default aller Crawler ist: Alles erlaubt, was nicht explizit verboten ist.

Das bedeutet: Wer heute nichts tut, erlaubt automatisch alles. Die Frage ist nicht, ob KI-Crawler deine Website lesen dürfen – sondern ob du das bewusst entschieden hast.

In drei Schritten zur sauberen Konfiguration

Schritt 1 – Bestehende robots.txt prüfen:

Ruf yourdomain.com/robots.txt direkt im Browser auf. Wenn die Seite 404 zurückgibt oder nur Googlebot erwähnt, ist Handlungsbedarf.

Schritt 2 – Entscheiden, was du willst:

  • Volle Sichtbarkeit: KI-Crawler alles erlauben → kein Eintrag oder Allow: / für alle
  • Selektive Sichtbarkeit: Nur bestimmte Bereiche freigeben (z. B. /insights/, /blog/)
  • Kein KI-Training, aber Live-Suche: PerplexityBot erlauben, GPTBot blockieren
  • Komplett blockieren: Disallow: / für alle KI-Crawler

Schritt 3 – robots.txt aktualisieren:

Eine typische robots.txt, die KI-Crawler differenziert behandelt:

# Suchmaschinen – alles erlaubt

User-agent: *

Allow: /

# KI-Training blockieren, Live-Suche erlauben

User-agent: GPTBot

Disallow: /

User-agent: Google-Extended

Disallow: /

# Perplexity Live-Suche erlauben (crawlt für Antworten, nicht Training)

User-agent: PerplexityBot

Allow: /

robots.txt + llms.txt: Das Zusammenspiel

robots.txt und llms.txt sind komplementär – sie lösen verschiedene Probleme:

  • robots.txt: Zugang. Wer darf was crawlen?
  • llms.txt: Kontext. Was soll das KI-System über dich wissen?

Die sinnvollste Kombination: KI-Crawler via robots.txt auf relevante Bereiche beschränken und gleichzeitig mit llms.txt aktiv erklären, was dort zu finden ist. So kontrollierst du sowohl was gecrawlt wird als auch wie es interpretiert wird.

Wie llms.txt aufgebaut ist und was du dort schreiben solltest: llms.txt erklärt.

Das Wesentliche auf einen Blick

  • GPTBot, ClaudeBot, PerplexityBot, Google-Extended und weitere KI-Crawler lesen heute aktiv öffentliche Websites.
  • robots.txt steuert den Zugang – wer sie nicht kennt, erlaubt per Default alles.
  • Über 80 % der Websites haben keine Konfiguration für KI-Crawler (Originality.ai, 2024).
  • Die wichtigste Entscheidung: Willst du KI-Training erlauben, Live-Suche erlauben, oder beides blockieren?
  • robots.txt regelt Zugang, llms.txt liefert Kontext – beides zusammen ergibt eine vollständige KI-Sichtbarkeitsstrategie.
  • Aufwand für eine erste Konfiguration: unter 30 Minuten – aber eine bewusste Entscheidung, keine Standardeinstellung.

Möchtest Du informiert bleiben?