🟡 🛡️ Sicherheit Veröffentlicht: · 4 Min. Lesezeit ·

arXiv:2605.15338 Sleeper Memory Poisoning: 99,8 % Angriffserfolgsrate auf GPT-5.5 über persistenten Speicher von LLM-Agenten

arXiv:2605.15338 ↗

Editorial illustration: LLM-Agenten-Speicher mit dormanten adversariellen Tokens und Wake-up-Trigger-Symbolen.

Hidden in Memory ist ein neues arXiv-Paper vom 14. Mai 2026 von Sidharth Pulipaka, Stanislau Hlebik, Leonidas Raghav, Sahar Abdelnabi, Vyas Raina, Ivaxi Sheth und Mario Fritz, das einen Delayed-Execution-Angriff auf zustandsbehaftete LLM-Agenten vorstellt. Adversarieller Inhalt im externen Kontext (Dokumente, Webseiten) korrumpiert den persistenten Speicher des Agenten — 99,8 % Erfolg auf GPT-5.5 und 95 % auf Kimi-K2.6, mit 60–89 % Erfolg bei der Umwandlung vergifteter Erinnerungen in vom Angreifer beabsichtigte Aktionen.

🤖

Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.

Sidharth Pulipaka, Stanislau Hlebik, Leonidas Raghav, Sahar Abdelnabi, Vyas Raina, Ivaxi Sheth und Mario Fritz veröffentlichten am 14. Mai 2026 auf arXiv ein Paper, das Sleeper Memory Poisoning vorstellt — einen neuen Angriffsvektor, der persistenten Speicher von LLM-Agenten für Delayed-Execution-Angriffe mit dramatischen Erfolgsraten ausnutzt: 99,8 % auf GPT-5.5 und 95 % auf Kimi-K2.6.

Was bedeutet Sleeper Memory Poisoning konkret?

Klassische LLM-Sicherheitsbedrohungen — Prompt Injection, Jailbreaking, Kontext-Manipulation — haben eine fundamentale Einschränkung: der Angriff dauert nur so lange, wie adversarieller Inhalt im Kontext ist. Sobald der Nutzer die Sitzung verlässt oder den Kontext löscht, verschwindet der Angriff.

Sleeper Memory Poisoning verändert dieses Profil. Aktuelle zustandsbehaftete LLM-Assistenten (ChatGPT mit Memory, Claude Projects, Gemini Personalization) persistieren nutzerspezifische Informationen über mehrere Sitzungen hinweg. Das Paper demonstriert, dass dieser persistente Speicher durch fabrizierte Fakten korrumpiert werden kann, die:

  • Automatisch in den Speicher geschrieben werden durch normale Nutzerinteraktion
  • Dormant verbleiben, bis ein Retrieval-Trigger eintrifft
  • In späteren Sitzungen aktiviert werden, wenn der Agent das Memory-Item für eine andere Aufgabe verwendet
  • Nachfolgende Konversationen manipulieren in die vom Angreifer beabsichtigte Richtung

Der Unterschied zwischen Sleeper Memory Poisoning und klassischer Prompt Injection ist dramatisch: Persistenz. Der Angriff kann Tage oder Wochen dormant bleiben, bevor er ausgelöst wird.

Wie sieht die Angriffs-Pipeline konkret aus?

Das Paper evaluiert vollständig die komplette Angriffs-Pipeline:

  1. Fabrication Writing — adversarieller Inhalt in einem externen Dokument, einer Webseite oder einem Repository, das der Agent verarbeitet
  2. Memory Write — der Agent verarbeitet den Inhalt und schreibt fabrizierte „Fakten” als Nutzerpräferenz, Fakt oder Kontext in den persistenten Speicher
  3. Dormancy-Periode — alles zwischen Schreibvorgang und Abruf
  4. Memory Retrieval — der Agent in einer späteren Sitzung verwendet das Memory-Item für eine andere Aufgabe
  5. Action Triggering — vergiftete Erinnerung beeinflusst das Agenten-Reasoning und löst die vom Angreifer beabsichtigte Aktion aus

Der Ansatz nutzt die Vertrauensgrenze zwischen dem Nutzer und externen Quellen aus. Der Agent behandelt alles, was der Nutzer einspeist, als vertrauenswürdig, selbst wenn ein externes Dokument, das der Nutzer hochlädt, bösartige Anweisungen enthält.

Wie lauten die konkreten Erfolgsraten?

Das Paper nennt präzise Metriken auf zwei Frontier-Modellen:

ModellMemory-Poisoning-ErfolgVom Angreifer beabsichtigte Aktion
GPT-5.599,8 %60–89 % der erfolgreichen Abrufe
Kimi-K2.695 %60–89 % der erfolgreichen Abrufe

Die GPT-5.5-Zahl ist besonders dramatisch — 99,8 % bedeutet praktisch garantierte Memory-Korruption, wenn der Angreifer die Struktur des Agenten kennt. Frontier-Modelle mit State-of-the-Art-Alignment-Training sind gegenüber diesem Angriffsvektor nahezu vollständig wehrlos.

Die zweite Metrik — 60–89 % Action-Triggering-Rate — zeigt, dass erfolgreiche Memory-Korruption sich in den meisten Fällen in einen handlungsfähigen Angriff umwandelt. Das ist keine theoretische Bedrohung — das ist ein produktionsreifer Angriffsvektor mit realen Auswirkungen.

Warum ist Memory Poisoning schwer zu erkennen?

Die Schwierigkeit der Abwehr resultiert aus mehreren Faktoren:

  • Memory Writes sind normaler Betrieb — der Agent schreibt kontinuierlich Memory-Items durch Nutzerinteraktionen
  • Kein Anomalie-Signal — ein adversarielles Memory-Item sieht aus wie jedes andere Nutzer-Fakt
  • Sitzungsübergreifende Auswertung erforderlich — Single-Session-Monitoring erkennt den Angriff nicht, da der Trigger später kommt
  • Schwierige Attribution — wenn der Angriff auslöst, ist die Rückverfolgung zur ursprünglichen adversariellen Quelle eine nicht-triviale retrospektive Forensik-Aufgabe

Der Ansatz erfordert End-to-End-Memory-Pipeline-Auditing, keine einzelne Sicherheitskontrolle.

Was bedeutet das für produktive LLM-Deployments?

Die Erkenntnisse haben kritische Implikationen für Organisationen, die LLM-Agenten mit Memory-Features einsetzen:

  • ChatGPT Enterprise mit Memory — potenzielle Exposition, wenn Mitarbeiter Dokumente aus nicht verifizierten Quellen hochladen
  • Claude Projects — kompromittierte Projects können sitzungsübergreifenden Speicher korrumpieren
  • Benutzerdefinierte Agenten-Deployments mit Vektorstores als Langzeitspeicher — massive Angriffsfläche
  • Multi-User-Systeme mit geteiltem Speicher — ein kompromittierter Nutzer kann alle betreffen

Vom Paper implizierte Abwehrprioritäten:

  • Memory Source Provenance — jedes Memory-Item zur ursprünglichen Quelle zurückverfolgen
  • Adversarielles Content-Scanning vor Memory Writes
  • Retrieval-Anomalie-Erkennung — ungewöhnliche Speicher-Zugriffsmuster kennzeichnen
  • Memory-Ablaufrichtlinien — automatische Bereinigung alter Memory-Items

Position in der Agentic-Security-Landschaft 2026

Das Paper fügt sich in die explosive Welle agentic-spezifischer Sicherheitsforschung im Mai 2026 ein:

  • arXiv FATE (12.5.) — 33,5 % Angriffsreduktion durch formale Techniken
  • arXiv History Anchors (13.5.) — 91–98 % unsichere Verschiebung durch Verlaufsmanipulation
  • arXiv Sycophantic Consensus (15.5.) — Alignment-Failure-Modi
  • Microsoft AI Delegation (15.5.) — 19–34 % Zuverlässigkeitsdegradierung
  • arXiv Compositional Jailbreaking (15.5.) — Mutator-Chain-Synergien

Der Trend ist kristallklar: 2026 ist das Jahr, in dem Agentic-Systeme von „experimenteller Fähigkeit” zu „produktiver Angriffsfläche” übergehen. Die Sicherheit, die Mainstream-RLHF + Safety-Training für Chatbot-Use-Cases geboten hat, ist für zustandsbehaftete Agenten mit persistentem Speicher unzureichend.

Sleeper Memory Poisoning ist wahrscheinlich das bedeutendste Sicherheits-Paper des Mai 2026 aufgrund zweier Zahlen: 99,8 % und Persistenz über mehrere Sitzungen. Die Industrie muss die Architektur von LLM-Memory-Systemen ernsthaft überdenken, bevor Angreifer diese Ergebnisse in realen Deployments reproduzieren.

Häufig gestellte Fragen

Was bedeutet Sleeper Memory Poisoning konkret?
Klassische Prompt-Injection-Angriffe dauern nur so lange, wie adversarieller Inhalt im Kontext ist — Sleeper Memory Poisoning korrumpiert den persistenten Speicher des Agenten durch fabrizierte Fakten, die im Langzeitspeicher abgelegt werden; der Angriff verbleibt dormant über mehrere Sitzungen hinweg und aktiviert sich, wenn der Agent später auf dieses Memory-Item für eine andere Aufgabe zugreift, was dramatisch anders ist als Prompt Injection, das keine Persistenz hat.
Wie lauten die konkreten Erfolgsraten?
GPT-5.5: 99,8 % erfolgreiche Poisoning-Rate, Kimi-K2.6: 95 % Erfolgsrate; unter erfolgreich abgerufenen vergifteten Erinnerungen wurden vom Angreifer beabsichtigte Aktionen in 60–89 % der Fälle ausgelöst; die Angriffs-Pipeline wurde vollständig evaluiert — von der Fabrication-Schreibung in den Speicher über den späteren Abruf bis zur Manipulation nachfolgender Konversationen.