🤖 24 AI
🟢 🤖 Modelle Dienstag, 21. April 2026 · 4 Min. Lesezeit

Warum fördert Fine-Tuning Halluzinationen? Interferenz zwischen semantischen Repräsentationen, und die Lösung ist Self-Distillation SFT

Editorialna ilustracija: Zašto fine-tuning potiče halucinacije? Interference među semantičkim reprezentacijama, a rješen

Warum es wichtig ist

Ein neues ArXiv-Paper enthüllt, dass Halluzinationen nach dem Fine-Tuning weder durch unzureichende Kapazität noch durch Behavior Cloning verursacht werden, sondern durch Interferenz zwischen überlappenden semantischen Repräsentationen. Die Lösung: Self-Distillation SFT, die den Output-Distributions-Drift reguliert und Fine-Tuning als Continual-Learning-Problem behandelt.

Was enthüllt das neue Paper?

Ein am 20. April 2026 veröffentlichtes ArXiv-Paper beleuchtet den Mechanismus, durch den überwachtes Fine-Tuning Halluzinationen in großen Sprachmodellen verstärkt. Der Befund ist kontraintuitiv: Halluzinationen werden weder durch unzureichende Kapazität noch durch sogenanntes Behavior Cloning verursacht, sondern durch ein spezifisches Phänomen namens Interferenz zwischen überlappenden semantischen Repräsentationen.

Definition: Halluzination im LLM-Kontext bedeutet, dass das Modell faktisch falsche Informationen erfindet und als wahr präsentiert, mit demselben Vertrauen wie korrekte Fakten.

Was ist Fine-Tuning und warum ist es so verbreitet?

Definition: Fine-Tuning ist der Prozess des zusätzlichen Trainings eines vortrainierten Modells auf einem engeren, spezifischen Datensatz mit dem Ziel, dass das Modell eine neue Aufgabe oder Domäne meistert. Jedes ernsthafte Team, das ein LLM an seine eigenen Bedürfnisse anpassen möchte, nutzt es — von Customer-Support-Bots bis hin zu medizinischen Assistenten.

Das Problem ist, dass Fine-Tuning oft das allgemeine Wissen des Modells degradiert. Nachdem ein LLM etwas Neues “gelernt” hat, vergisst es einen Teil dessen, was es wusste, oder — schlimmer — beginnt, altes und neues Wissen in erdachte Behauptungen zu vermischen.

Was ist der Mechanismus hinter dem Problem?

Die Autoren argumentieren, das Modell verliere Wissen nicht aufgrund von unzureichender Kapazität (es ist nicht “voll”), noch aufgrund von Behavior Cloning (Nachahmen eines anderen Modells). Die eigentliche Ursache ist subtiler:

Überlappende semantische Repräsentationen. Das Modell speichert verwandte Konzepte in ähnlichen Teilen seines internen Raums. Wenn Fine-Tuning-Gradienten Gewichte für eine neue Domäne aktualisieren, modifizieren sie unbeabsichtigt benachbarte Repräsentationen — jene, die mit ähnlichem, aber nicht identischem Wissen verbunden sind.

Metapher: Wenn Sie in einer Bibliothek alle Bücher über Medizin verschieben, verschieben Sie auch einige über Biologie, weil sie im selben Regal stehen. Nicht die Bibliothek ist zu klein — die Felder überlappen sich.

Welche Lösung schlagen die Autoren vor?

Die Hauptinnovation des Papers ist eine Self-Distillation-Methode für SFT (Supervised Fine-Tuning). Wie funktioniert sie?

Definition: Self-Distillation bedeutet, dass das Modell sowohl von neuen Daten als auch von seiner eigenen früheren Ausgabe lernt. Während des Trainings optimieren Gradienten nicht nur für neues Wissen, sondern regulieren auch den Output-Distributions-Drift — die Verteilung der Antworten darf sich nicht zu weit vom Original entfernen.

In der Praxis: Jeder Trainings-Batch enthält eine “Erinnerung” daran, was das Modell vorher wusste, und bewahrt so das alte Wissen, während es Neues lernt.

Fine-Tuning als Continual Learning

Die Autoren behandeln SFT als Problem des Continual Learning — einem Teilgebiet des maschinellen Lernens, das sich mit dem Erlernen neuer Aufgaben befasst, ohne alte zu vergessen. Dieser Ansatz öffnet ein ganzes Arsenal bereits gut erforschter Techniken, einschließlich Elastic Weight Consolidation, Replay Buffers und Parameter Isolation.

Zusätzliche Lösung: Selective Freezing

Als Alternative erwähnen die Autoren Selective Freezing — selektives Einfrieren von Parametern in Szenarien, in denen neues Wissen nicht benötigt wird. Wenn Sie das Modell eine neue juristische Domäne lehren möchten, ohne dass es vergisst, wie man E-Mails schreibt, frieren Sie den Teil des Netzwerks ein, der das Schreiben steuert.

Wem nützt das?

Jedem Team, das LLMs für sensible Domänen feinabstimmt:

  • Customer Support — ein Bot, der keine Rückgaberichtlinien erfinden darf
  • Medizinische Assistenten — ein Modell, das keine Diagnosen halluzinieren darf
  • Rechtliche Werkzeuge — ein System, das Vorschriften präzise zitieren muss
  • Finanzielle Berater — ein Werkzeug, das keine Marktdaten erfinden darf

Für all diese sind Self-Distillation SFT und Selective Freezing konkrete Techniken, die sofort mit minimalen Änderungen an bestehenden Trainings-Pipelines angewendet werden können.

Fazit

Das Paper gibt ein klares Rezept: Behandle Fine-Tuning als Continual Learning, nicht als Training von Grund auf. Halluzinationen sind keine unvermeidliche Folge — sie sind ein Symptom grober Gewichtsaktualisierungen, die bestehendes Wissen nicht schützen. Für professionelle KI-Teams übersetzt dieser Befund das Problem von einem “mysteriösen Phänomen” in eine lösbare Ingenieuraufgabe.

🤖

Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.