ArXiv: RePAIR ermöglicht LLMs, gezielte Informationen ohne Nachtraining zu 'vergessen'
Warum es wichtig ist
RePAIR ist ein neues Framework für interaktives maschinelles Vergessen (Machine Unlearning), das Nutzern ermöglicht, große Sprachmodelle per Natural-Language-Prompts in Echtzeit anzuweisen, bestimmte Informationen zu vergessen. Die Schlüsselinnovation, die STAMP-Methode, leitet MLP-Aktivierungen mithilfe einer geschlossenen Formel in den Refusal-Teilraum um — ohne jegliches Nachtraining — und erzielt dabei nahezu null Vergessen-Scores bei gleichzeitiger Beibehaltung der Modellnützlichkeit.
Ein Forschungsteam unter der Leitung von Jagadeesh Rachapudi hat RePAIR vorgestellt — ein Framework, das das Konzept des Interactive Machine Unlearning (IMU) einführt. Das System ermöglicht es Nutzern, einem LLM durch Natural-Language-Prompts anzuweisen, gezielt Informationen zu vergessen — in Echtzeit und ohne Nachtraining.
Wie funktioniert die Drei-Modell-Architektur?
RePAIR verwendet eine Architektur mit drei spezialisierten Komponenten. Das Watchdog-Modell agiert als Wächter — es erkennt, wenn ein Nutzer-Prompt eine Anfrage zum Vergessen bestimmter Informationen enthält. Das Surgeon-Modell generiert präzise „Reparatur”-Anweisungen — es definiert, welche Aktivierungen im neuronalen Netz umgeleitet werden müssen. Das Patient-Modell — das verwendete LLM selbst — wendet diese Korrekturen autonom an.
Diese dreiteilige Architektur bedeutet, dass ein Nutzer einfach etwas wie „vergiss alles über Person X” oder „entferne das Wissen über Prozess Y” sagt, und das System die relevanten Informationen im Modell automatisch identifiziert, lokalisiert und neutralisiert.
Was ist STAMP und warum ist es die Schlüsselinnovation?
STAMP (Steering Through Activation Manipulation with PseudoInverse) ist der Kern von RePAIR. Die Methode leitet MLP-Schicht-Aktivierungen (Multi-Layer Perceptron) mithilfe einer geschlossenen Pseudoinvers-Formel in den Refusal-Teilraum um — den Teil des Aktivierungsraums, der der Antwortverweigerung entspricht.
Entscheidend ist, dass STAMP keinerlei Training erfordert. Änderungen werden analytisch berechnet, was bedeutet, dass das Vergessen in Sekunden durchgeführt wird, anstatt in den Stunden oder Tagen, die ein Nachtraining erfordern würde. Die Ergebnisse zeigen nahezu null Vergessen-Scores (die Information wird tatsächlich entfernt), während die Gesamtnützlichkeit des Modells erhalten bleibt — das Modell funktioniert für alle anderen Aufgaben weiterhin normal.
Warum ist dies für Regulierung und Datenschutz wichtig?
RePAIR adressiert drei konkrete Szenarien: die Unterdrückung schädlichen Wissens (z. B. Anweisungen zur Herstellung gefährlicher Substanzen), die Korrektur von Fehlinformationen (Entfernung falscher Fakten, die das Modell gelernt hat) und die Löschung personenbezogener Daten auf Nutzeranfrage.
Das letzte Szenario ist besonders relevant im Kontext der europäischen DSGVO und des Rechts auf Vergessenwerden. Bisher erforderte die Entfernung spezifischer Daten aus einem trainierten Modell ein kostspieliges und zeitaufwendiges Nachtraining. RePAIR bietet eine praktische Alternative — bedarfsgerechtes Vergessen, in Echtzeit, ohne Leistungseinbußen.
Ergebnisse auf mehreren Benchmarks zeigen, dass RePAIR sechs bestehende hochmoderne Methoden für Machine Unlearning übertrifft und ein besseres Gleichgewicht zwischen der Vollständigkeit des Vergessens und der Erhaltung nützlicher Fähigkeiten bietet.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
Verwandte Nachrichten
OpenAI bietet 25.000 Dollar für das Finden universeller Jailbreaks im Bereich der biologischen Sicherheit von GPT-5.5
GPT-5.5 System Card: OpenAI veröffentlicht Sicherheitsevaluierungen und Risikobewertung für das neue Modell
OpenAI veröffentlicht Privacy Filter: Open-Weight-Modell zur Erkennung und Schwärzung personenbezogener Daten