arXiv:2605.15338 Sleeper Memory Poisoning: 99,8 % attack success rate na GPT-5.5 kroz perzistentnu memoriju LLM agenata
Hidden in Memory je novi arXiv paper objavljen 14. svibnja 2026. autora Sidharth Pulipaka, Stanislau Hlebik, Leonidas Raghav, Sahar Abdelnabi, Vyas Raina, Ivaxi Sheth i Mario Fritz koji predstavlja delayed-execution attack na stateful LLM agente. Adversarial content u externom kontekstu (dokumenti, webpage) corruptira agentovu perzistentnu memoriju — 99,8 % uspjeh na GPT-5.5 i 95 % na Kimi-K2.6, s 60-89 % uspjeha pretvaranja poisoned memory u attacker-intended akciju.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Sidharth Pulipaka, Stanislau Hlebik, Leonidas Raghav, Sahar Abdelnabi, Vyas Raina, Ivaxi Sheth i Mario Fritz objavili su 14. svibnja 2026. na arXivu paper koji predstavlja Sleeper Memory Poisoning — novi attack vector koji eksploatira perzistentnu memoriju LLM agenata za delayed-execution napade s dramatic success rates: 99,8 % na GPT-5.5 i 95 % na Kimi-K2.6.
Što sleeper memory poisoning konkretno znači?
Klasični LLM security threats — prompt injection, jailbreaking, context manipulation — imaju jedno fundamental ograničenje: napad traje samo dok je adversarial content u kontekstu. Čim user napusti session ili clear context, napad nestaje.
Sleeper memory poisoning mijenja taj profile. Trenutni stateful LLM assistenti (ChatGPT s Memory, Claude Projects, Gemini Personalization) perzistiraju user-specific information preko više sesija. Paper demonstrira da je tu perzistentnu memoriju moguće corruptirati kroz fabricated facts koji:
- Pišu se u storage automatski kroz normal user interaction
- Ostaju dormantno dok ne stignu retrieval trigger
- Aktiviraju se u kasnijim sesijama kad agent koristi memory item za drugu task
- Manipuliraju subsequent konverzacije u attacker-intended pravcu
Razlika između sleeper memory poisoning i klasičnog prompt injection-a je dramatic: persistence. Napad može biti dormant danima ili tjednima prije nego se trigger.
Što attack pipeline konkretno izgleda?
Paper detaljno evaluira complete attack pipeline:
- Fabrication writing — adversarial content u externom dokumentu, webpage-u, repository-u kojeg agent obrađuje
- Memory write — agent procesira content i piše fabricated “facts” u perzistentnu memoriju kao user preference, fact, ili context
- Dormancy period — sve između writeanja i retrieval-a
- Memory retrieval — agent u kasnijoj sesiji koristi memory item za drugu task
- Action triggering — poisoned memory utječe na agent reasoning i triggera attacker-intended akciju
Pristup eksploatira trust boundary između user u externalnih sources. Agent treats anything user feeds it kao trustworthy, čak i ako external document koji user upload-a sadrži malicious instructions.
Koje su konkretne success rate brojke?
Paper navodi precizne metrics na dva frontier modela:
| Model | Memory Poisoning Success | Attacker-Intended Action |
|---|---|---|
| GPT-5.5 | 99,8 % | 60-89 % od successful retrievals |
| Kimi-K2.6 | 95 % | 60-89 % od successful retrievals |
GPT-5.5 broj je posebno dramatic — 99,8 % znači praktički garantirana memory corruption ako attacker zna structure agenta. Frontier modeli sa state-of-the-art alignment training-om su gotovo potpuno bezobranna prema ovom attack vector-u.
Drugi metric — 60-89 % action triggering rate — pokazuje da successful memory corruption pretvara u akcionabilni napad u većini slučajeva. To nije teorijski threat — to je production-grade attack vector s real-world impact.
Zašto je memory poisoning teško detektirati?
Defense difficulty potiče iz nekoliko factor-a:
- Memory writes su normal operation — agent piše memory items kontinuirano kroz user interactions
- No anomaly signal — adversarial memory item izgleda kao bilo koji drugi user fact
- Cross-session evaluation requirement — single-session monitoring ne detektira napad jer trigger dolazi later
- Difficult attribution — kad attack triggera, attribution na originalnu adversarial source je netrivijalan retrospective forensics task
Pristup zahtijeva end-to-end memory pipeline auditing, ne single-point security control.
Što ovo znači za production LLM deployments?
Findings imaju kritične implikacije za organizacije koje deploy-aju LLM agente s memory features:
- ChatGPT Enterprise s Memory — potential exposure ako employees upload-aju documents iz neverified sources
- Claude Projects — kompromitirani projects mogu korumpirati cross-project memory
- Custom agent deployments s vector stores kao long-term memory — masovan attack surface
- Multi-user systems s shared memory — jedan compromised user može utjecati na sve
Defensive priorities koje paper implicira:
- Memory source provenance — track svaki memory item back to originating source
- Adversarial content scanning prije memory writes
- Retrieval anomaly detection — flagging unusual memory access patterns
- Memory expiration policies — automatic cleanup starih memory items
Položaj u 2026. agentic security landscape-u
Paper se uklapa u eksplozivni val agentic safety/security istraživanja kroz svibanj 2026.:
- arXiv FATE (12.5.) — 33,5 % attack reduction kroz formal techniques
- arXiv History Anchors (13.5.) — 91-98 % unsafe shift kroz history manipulation
- arXiv Sycophantic Consensus (15.5.) — alignment failure modes
- Microsoft AI Delegation (15.5.) — 19-34 % reliability degradation
- arXiv Compositional Jailbreaking (15.5.) — mutator chain synergies
Trend kristal-jasan: 2026. je godina kad agentic systems prelaze iz “experimental capability” u “production attack surface”. Sigurnost koje su mainstream RLHF + safety training davali za chatbot use case-ove nisu dovoljne za stateful agente s persistent memory.
Sleeper Memory Poisoning je vjerojatno najznačajniji security paper svibnja 2026. zbog dva broja: 99,8 % i persistence kroz više sesija. Industry mora ozbiljno revidirati arhitekturu LLM memory systems prije nego što attackers reproduce te rezultate u real-world deployments.
Česta pitanja
- Što sleeper memory poisoning konkretno znači?
- Klasični prompt injection napadi traju samo dok je adversarial content u kontekstu — sleeper memory poisoning corruptira agentovu perzistentnu memoriju kroz fabricated facts spremljene u long-term memory store; napad ostaje dormantno preko više sesija i aktivira se kad agent kasnije pristupi tom memory item-u za drugu task, što je dramatic različitije od prompt injection-a koji nema persistence.
- Koje su konkretne success rate brojke?
- GPT-5.5: 99,8 % successful poisoning rate, Kimi-K2.6: 95 % success rate; među successfully retrieved poisoned memories, attacker-intended akcije bile su triggerane u 60-89 % slučajeva; attack pipeline kompletno evaluiran — od fabrication writing u storage, kroz later retrieval, do manipulation subsequent konverzacija.