Grundlagen
Halluzination
Sprachmodell-Ausgabe, die plausibel und selbstsicher klingt, aber sachlich falsch oder erfunden ist und nicht durch Trainingsdaten oder Quellen gedeckt wird.
Eine Halluzination ist die Ausgabe eines KI-Modells — typischerweise eines Großen Sprachmodells —, die flüssig, selbstsicher und sachlich falsch ist. Häufige Formen: erfundene Zitate auf nicht existierende Paper, fabrizierte Aussagen, frei erfundene Rechtsprechung, falsche API-Signaturen oder plausibel klingende, aber falsche biografische Details. Das Modell „lügt” nicht; es erzeugt eine statistisch wahrscheinliche Fortsetzung, die zufällig nicht der Wahrheit entspricht.
Ursachen sind: Lücken in den Trainingsdaten, widersprüchliche Informationen im Training, mehrdeutige Prompts, die zur Erfindung einladen, sowie die grundlegende Natur der Next-Token-Vorhersage (die Plausibilität, nicht Wahrheit optimiert).
Strategien zur Abschwächung:
- Retrieval-Augmented Generation (RAG): Antworten in einer verifizierten Wissensbasis verankern
- Quellenangaben: Das Modell anweisen, Quellen aus dem Prompt zu zitieren
- Reasoning-Modelle: Längeres Chain-of-Thought reduziert bestimmte Fehlerklassen
- Verifier-Modelle: Ein zweites Modell prüft die Aussagen des ersten
- Niedrigere Temperatur: Weniger kreatives Sampling auf Kosten der Vielfalt
- System-Prompts: Explizit „Sag ‘Ich weiß es nicht’, wenn du unsicher bist”
Die Halluzinationsraten sind seit der GPT-3.5-Ära bis zu aktuellen Frontier-Modellen erheblich gesunken, aber das Problem ist nicht gelöst. Produktions-KI-Systeme erfordern sorgfältige Evaluierung und die Aufklärung der Nutzerinnen und Nutzer, dass LLM-Ausgaben ohne Überprüfung keine autoritativen Quellen sind.