🟡 🛡️ Sigurnost Objavljeno: · 4 min čitanja ·

arXiv:2605.15338 Sleeper Memory Poisoning: 99,8 % attack success rate na GPT-5.5 kroz perzistentnu memoriju LLM agenata

arXiv:2605.15338 ↗

Editorial illustration: LLM agent memory store s dormantnim adversarial token-ima i wake-up trigger ikone.

Hidden in Memory je novi arXiv paper objavljen 14. svibnja 2026. autora Sidharth Pulipaka, Stanislau Hlebik, Leonidas Raghav, Sahar Abdelnabi, Vyas Raina, Ivaxi Sheth i Mario Fritz koji predstavlja delayed-execution attack na stateful LLM agente. Adversarial content u externom kontekstu (dokumenti, webpage) corruptira agentovu perzistentnu memoriju — 99,8 % uspjeh na GPT-5.5 i 95 % na Kimi-K2.6, s 60-89 % uspjeha pretvaranja poisoned memory u attacker-intended akciju.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.

Sidharth Pulipaka, Stanislau Hlebik, Leonidas Raghav, Sahar Abdelnabi, Vyas Raina, Ivaxi Sheth i Mario Fritz objavili su 14. svibnja 2026. na arXivu paper koji predstavlja Sleeper Memory Poisoning — novi attack vector koji eksploatira perzistentnu memoriju LLM agenata za delayed-execution napade s dramatic success rates: 99,8 % na GPT-5.5 i 95 % na Kimi-K2.6.

Što sleeper memory poisoning konkretno znači?

Klasični LLM security threats — prompt injection, jailbreaking, context manipulation — imaju jedno fundamental ograničenje: napad traje samo dok je adversarial content u kontekstu. Čim user napusti session ili clear context, napad nestaje.

Sleeper memory poisoning mijenja taj profile. Trenutni stateful LLM assistenti (ChatGPT s Memory, Claude Projects, Gemini Personalization) perzistiraju user-specific information preko više sesija. Paper demonstrira da je tu perzistentnu memoriju moguće corruptirati kroz fabricated facts koji:

  • Pišu se u storage automatski kroz normal user interaction
  • Ostaju dormantno dok ne stignu retrieval trigger
  • Aktiviraju se u kasnijim sesijama kad agent koristi memory item za drugu task
  • Manipuliraju subsequent konverzacije u attacker-intended pravcu

Razlika između sleeper memory poisoning i klasičnog prompt injection-a je dramatic: persistence. Napad može biti dormant danima ili tjednima prije nego se trigger.

Što attack pipeline konkretno izgleda?

Paper detaljno evaluira complete attack pipeline:

  1. Fabrication writing — adversarial content u externom dokumentu, webpage-u, repository-u kojeg agent obrađuje
  2. Memory write — agent procesira content i piše fabricated “facts” u perzistentnu memoriju kao user preference, fact, ili context
  3. Dormancy period — sve između writeanja i retrieval-a
  4. Memory retrieval — agent u kasnijoj sesiji koristi memory item za drugu task
  5. Action triggering — poisoned memory utječe na agent reasoning i triggera attacker-intended akciju

Pristup eksploatira trust boundary između user u externalnih sources. Agent treats anything user feeds it kao trustworthy, čak i ako external document koji user upload-a sadrži malicious instructions.

Koje su konkretne success rate brojke?

Paper navodi precizne metrics na dva frontier modela:

ModelMemory Poisoning SuccessAttacker-Intended Action
GPT-5.599,8 %60-89 % od successful retrievals
Kimi-K2.695 %60-89 % od successful retrievals

GPT-5.5 broj je posebno dramatic — 99,8 % znači praktički garantirana memory corruption ako attacker zna structure agenta. Frontier modeli sa state-of-the-art alignment training-om su gotovo potpuno bezobranna prema ovom attack vector-u.

Drugi metric — 60-89 % action triggering rate — pokazuje da successful memory corruption pretvara u akcionabilni napad u većini slučajeva. To nije teorijski threat — to je production-grade attack vector s real-world impact.

Zašto je memory poisoning teško detektirati?

Defense difficulty potiče iz nekoliko factor-a:

  • Memory writes su normal operation — agent piše memory items kontinuirano kroz user interactions
  • No anomaly signal — adversarial memory item izgleda kao bilo koji drugi user fact
  • Cross-session evaluation requirement — single-session monitoring ne detektira napad jer trigger dolazi later
  • Difficult attribution — kad attack triggera, attribution na originalnu adversarial source je netrivijalan retrospective forensics task

Pristup zahtijeva end-to-end memory pipeline auditing, ne single-point security control.

Što ovo znači za production LLM deployments?

Findings imaju kritične implikacije za organizacije koje deploy-aju LLM agente s memory features:

  • ChatGPT Enterprise s Memory — potential exposure ako employees upload-aju documents iz neverified sources
  • Claude Projects — kompromitirani projects mogu korumpirati cross-project memory
  • Custom agent deployments s vector stores kao long-term memory — masovan attack surface
  • Multi-user systems s shared memory — jedan compromised user može utjecati na sve

Defensive priorities koje paper implicira:

  • Memory source provenance — track svaki memory item back to originating source
  • Adversarial content scanning prije memory writes
  • Retrieval anomaly detection — flagging unusual memory access patterns
  • Memory expiration policies — automatic cleanup starih memory items

Položaj u 2026. agentic security landscape-u

Paper se uklapa u eksplozivni val agentic safety/security istraživanja kroz svibanj 2026.:

  • arXiv FATE (12.5.) — 33,5 % attack reduction kroz formal techniques
  • arXiv History Anchors (13.5.) — 91-98 % unsafe shift kroz history manipulation
  • arXiv Sycophantic Consensus (15.5.) — alignment failure modes
  • Microsoft AI Delegation (15.5.) — 19-34 % reliability degradation
  • arXiv Compositional Jailbreaking (15.5.) — mutator chain synergies

Trend kristal-jasan: 2026. je godina kad agentic systems prelaze iz “experimental capability” u “production attack surface”. Sigurnost koje su mainstream RLHF + safety training davali za chatbot use case-ove nisu dovoljne za stateful agente s persistent memory.

Sleeper Memory Poisoning je vjerojatno najznačajniji security paper svibnja 2026. zbog dva broja: 99,8 % i persistence kroz više sesija. Industry mora ozbiljno revidirati arhitekturu LLM memory systems prije nego što attackers reproduce te rezultate u real-world deployments.

Česta pitanja

Što sleeper memory poisoning konkretno znači?
Klasični prompt injection napadi traju samo dok je adversarial content u kontekstu — sleeper memory poisoning corruptira agentovu perzistentnu memoriju kroz fabricated facts spremljene u long-term memory store; napad ostaje dormantno preko više sesija i aktivira se kad agent kasnije pristupi tom memory item-u za drugu task, što je dramatic različitije od prompt injection-a koji nema persistence.
Koje su konkretne success rate brojke?
GPT-5.5: 99,8 % successful poisoning rate, Kimi-K2.6: 95 % success rate; među successfully retrieved poisoned memories, attacker-intended akcije bile su triggerane u 60-89 % slučajeva; attack pipeline kompletno evaluiran — od fabrication writing u storage, kroz later retrieval, do manipulation subsequent konverzacija.