Grundlagen

Halluzination

Sprachmodell-Ausgabe, die plausibel und selbstsicher klingt, aber sachlich falsch oder erfunden ist und nicht durch Trainingsdaten oder Quellen gedeckt wird.

Eine Halluzination ist die Ausgabe eines KI-Modells — typischerweise eines Großen Sprachmodells —, die flüssig, selbstsicher und sachlich falsch ist. Häufige Formen: erfundene Zitate auf nicht existierende Paper, fabrizierte Aussagen, frei erfundene Rechtsprechung, falsche API-Signaturen oder plausibel klingende, aber falsche biografische Details. Das Modell „lügt” nicht; es erzeugt eine statistisch wahrscheinliche Fortsetzung, die zufällig nicht der Wahrheit entspricht.

Ursachen sind: Lücken in den Trainingsdaten, widersprüchliche Informationen im Training, mehrdeutige Prompts, die zur Erfindung einladen, sowie die grundlegende Natur der Next-Token-Vorhersage (die Plausibilität, nicht Wahrheit optimiert).

Strategien zur Abschwächung:

  • Retrieval-Augmented Generation (RAG): Antworten in einer verifizierten Wissensbasis verankern
  • Quellenangaben: Das Modell anweisen, Quellen aus dem Prompt zu zitieren
  • Reasoning-Modelle: Längeres Chain-of-Thought reduziert bestimmte Fehlerklassen
  • Verifier-Modelle: Ein zweites Modell prüft die Aussagen des ersten
  • Niedrigere Temperatur: Weniger kreatives Sampling auf Kosten der Vielfalt
  • System-Prompts: Explizit „Sag ‘Ich weiß es nicht’, wenn du unsicher bist”

Die Halluzinationsraten sind seit der GPT-3.5-Ära bis zu aktuellen Frontier-Modellen erheblich gesunken, aber das Problem ist nicht gelöst. Produktions-KI-Systeme erfordern sorgfältige Evaluierung und die Aufklärung der Nutzerinnen und Nutzer, dass LLM-Ausgaben ohne Überprüfung keine autoritativen Quellen sind.

Quellen

Siehe auch