arXiv: 99,8 % Memory-Poisoning-Angriff GPT-5.5

Q: Was bedeutet Sleeper Memory Poisoning konkret?

Klassische Prompt-Injection-Angriffe dauern nur so lange, wie adversarieller Inhalt im Kontext ist — Sleeper Memory Poisoning korrumpiert den persistenten Speicher des Agenten durch fabrizierte Fakten, die im Langzeitspeicher abgelegt werden; der Angriff verbleibt dormant über mehrere Sitzungen hinweg und aktiviert sich, wenn der Agent später auf dieses Memory-Item für eine andere Aufgabe zugreift, was dramatisch anders ist als Prompt Injection, das keine Persistenz hat.

Q: Wie lauten die konkreten Erfolgsraten?

GPT-5.5: 99,8 % erfolgreiche Poisoning-Rate, Kimi-K2.6: 95 % Erfolgsrate; unter erfolgreich abgerufenen vergifteten Erinnerungen wurden vom Angreifer beabsichtigte Aktionen in 60–89 % der Fälle ausgelöst; die Angriffs-Pipeline wurde vollständig evaluiert — von der Fabrication-Schreibung in den Speicher über den späteren Abruf bis zur Manipulation nachfolgender Konversationen.

Hidden in Memory ist ein neues arXiv-Paper vom 14. Mai 2026 von Sidharth Pulipaka, Stanislau Hlebik, Leonidas Raghav, Sahar Abdelnabi, Vyas Raina, Ivaxi Sheth und Mario Fritz, das einen Delayed-Execution-Angriff auf zustandsbehaftete LLM-Agenten vorstellt. Adversarieller Inhalt im externen Kontext (Dokumente, Webseiten) korrumpiert den persistenten Speicher des Agenten — 99,8 % Erfolg auf GPT-5.5 und 95 % auf Kimi-K2.6, mit 60–89 % Erfolg bei der Umwandlung vergifteter Erinnerungen in vom Angreifer beabsichtigte Aktionen.

Sidharth Pulipaka, Stanislau Hlebik, Leonidas Raghav, Sahar Abdelnabi, Vyas Raina, Ivaxi Sheth und Mario Fritz veröffentlichten am 14. Mai 2026 auf arXiv ein Paper, das Sleeper Memory Poisoning vorstellt — einen neuen Angriffsvektor, der persistenten Speicher von LLM-Agenten für Delayed-Execution-Angriffe mit dramatischen Erfolgsraten ausnutzt: 99,8 % auf GPT-5.5 und 95 % auf Kimi-K2.6.

Was bedeutet Sleeper Memory Poisoning konkret?

Klassische LLM-Sicherheitsbedrohungen — Prompt Injection, Jailbreaking, Kontext-Manipulation — haben eine fundamentale Einschränkung: der Angriff dauert nur so lange, wie adversarieller Inhalt im Kontext ist. Sobald der Nutzer die Sitzung verlässt oder den Kontext löscht, verschwindet der Angriff.

Sleeper Memory Poisoning verändert dieses Profil. Aktuelle zustandsbehaftete LLM-Assistenten (ChatGPT mit Memory, Claude Projects, Gemini Personalization) persistieren nutzerspezifische Informationen über mehrere Sitzungen hinweg. Das Paper demonstriert, dass dieser persistente Speicher durch fabrizierte Fakten korrumpiert werden kann, die:

Automatisch in den Speicher geschrieben werden durch normale Nutzerinteraktion
Dormant verbleiben, bis ein Retrieval-Trigger eintrifft
In späteren Sitzungen aktiviert werden, wenn der Agent das Memory-Item für eine andere Aufgabe verwendet
Nachfolgende Konversationen manipulieren in die vom Angreifer beabsichtigte Richtung

Der Unterschied zwischen Sleeper Memory Poisoning und klassischer Prompt Injection ist dramatisch: Persistenz. Der Angriff kann Tage oder Wochen dormant bleiben, bevor er ausgelöst wird.

Wie sieht die Angriffs-Pipeline konkret aus?

Das Paper evaluiert vollständig die komplette Angriffs-Pipeline:

Fabrication Writing — adversarieller Inhalt in einem externen Dokument, einer Webseite oder einem Repository, das der Agent verarbeitet
Memory Write — der Agent verarbeitet den Inhalt und schreibt fabrizierte „Fakten” als Nutzerpräferenz, Fakt oder Kontext in den persistenten Speicher
Dormancy-Periode — alles zwischen Schreibvorgang und Abruf
Memory Retrieval — der Agent in einer späteren Sitzung verwendet das Memory-Item für eine andere Aufgabe
Action Triggering — vergiftete Erinnerung beeinflusst das Agenten-Reasoning und löst die vom Angreifer beabsichtigte Aktion aus

Der Ansatz nutzt die Vertrauensgrenze zwischen dem Nutzer und externen Quellen aus. Der Agent behandelt alles, was der Nutzer einspeist, als vertrauenswürdig, selbst wenn ein externes Dokument, das der Nutzer hochlädt, bösartige Anweisungen enthält.

Wie lauten die konkreten Erfolgsraten?

Das Paper nennt präzise Metriken auf zwei Frontier-Modellen:

Modell	Memory-Poisoning-Erfolg	Vom Angreifer beabsichtigte Aktion
GPT-5.5	99,8 %	60–89 % der erfolgreichen Abrufe
Kimi-K2.6	95 %	60–89 % der erfolgreichen Abrufe

Die GPT-5.5-Zahl ist besonders dramatisch — 99,8 % bedeutet praktisch garantierte Memory-Korruption, wenn der Angreifer die Struktur des Agenten kennt. Frontier-Modelle mit State-of-the-Art-Alignment-Training sind gegenüber diesem Angriffsvektor nahezu vollständig wehrlos.

Die zweite Metrik — 60–89 % Action-Triggering-Rate — zeigt, dass erfolgreiche Memory-Korruption sich in den meisten Fällen in einen handlungsfähigen Angriff umwandelt. Das ist keine theoretische Bedrohung — das ist ein produktionsreifer Angriffsvektor mit realen Auswirkungen.

Warum ist Memory Poisoning schwer zu erkennen?

Die Schwierigkeit der Abwehr resultiert aus mehreren Faktoren:

Memory Writes sind normaler Betrieb — der Agent schreibt kontinuierlich Memory-Items durch Nutzerinteraktionen
Kein Anomalie-Signal — ein adversarielles Memory-Item sieht aus wie jedes andere Nutzer-Fakt
Sitzungsübergreifende Auswertung erforderlich — Single-Session-Monitoring erkennt den Angriff nicht, da der Trigger später kommt
Schwierige Attribution — wenn der Angriff auslöst, ist die Rückverfolgung zur ursprünglichen adversariellen Quelle eine nicht-triviale retrospektive Forensik-Aufgabe

Der Ansatz erfordert End-to-End-Memory-Pipeline-Auditing, keine einzelne Sicherheitskontrolle.

Was bedeutet das für produktive LLM-Deployments?

Die Erkenntnisse haben kritische Implikationen für Organisationen, die LLM-Agenten mit Memory-Features einsetzen:

ChatGPT Enterprise mit Memory — potenzielle Exposition, wenn Mitarbeiter Dokumente aus nicht verifizierten Quellen hochladen
Claude Projects — kompromittierte Projects können sitzungsübergreifenden Speicher korrumpieren
Benutzerdefinierte Agenten-Deployments mit Vektorstores als Langzeitspeicher — massive Angriffsfläche
Multi-User-Systeme mit geteiltem Speicher — ein kompromittierter Nutzer kann alle betreffen

Vom Paper implizierte Abwehrprioritäten:

Memory Source Provenance — jedes Memory-Item zur ursprünglichen Quelle zurückverfolgen
Adversarielles Content-Scanning vor Memory Writes
Retrieval-Anomalie-Erkennung — ungewöhnliche Speicher-Zugriffsmuster kennzeichnen
Memory-Ablaufrichtlinien — automatische Bereinigung alter Memory-Items

Position in der Agentic-Security-Landschaft 2026

Das Paper fügt sich in die explosive Welle agentic-spezifischer Sicherheitsforschung im Mai 2026 ein:

arXiv FATE (12.5.) — 33,5 % Angriffsreduktion durch formale Techniken
arXiv History Anchors (13.5.) — 91–98 % unsichere Verschiebung durch Verlaufsmanipulation
arXiv Sycophantic Consensus (15.5.) — Alignment-Failure-Modi
Microsoft AI Delegation (15.5.) — 19–34 % Zuverlässigkeitsdegradierung
arXiv Compositional Jailbreaking (15.5.) — Mutator-Chain-Synergien

Der Trend ist kristallklar: 2026 ist das Jahr, in dem Agentic-Systeme von „experimenteller Fähigkeit” zu „produktiver Angriffsfläche” übergehen. Die Sicherheit, die Mainstream-RLHF + Safety-Training für Chatbot-Use-Cases geboten hat, ist für zustandsbehaftete Agenten mit persistentem Speicher unzureichend.

Sleeper Memory Poisoning ist wahrscheinlich das bedeutendste Sicherheits-Paper des Mai 2026 aufgrund zweier Zahlen: 99,8 % und Persistenz über mehrere Sitzungen. Die Industrie muss die Architektur von LLM-Memory-Systemen ernsthaft überdenken, bevor Angreifer diese Ergebnisse in realen Deployments reproduzieren.

arXiv:2605.15338 Sleeper Memory Poisoning: 99,8 % Angriffserfolgsrate auf GPT-5.5 über persistenten Speicher von LLM-Agenten

Was bedeutet Sleeper Memory Poisoning konkret?

Wie sieht die Angriffs-Pipeline konkret aus?

Wie lauten die konkreten Erfolgsraten?

Warum ist Memory Poisoning schwer zu erkennen?

Was bedeutet das für produktive LLM-Deployments?

Position in der Agentic-Security-Landschaft 2026

Häufig gestellte Fragen

Quellen

Verwandte Nachrichten