arXiv: 99,8 % memory poisoning attack GPT-5.5

Q: Što sleeper memory poisoning konkretno znači?

Klasični prompt injection napadi traju samo dok je adversarial content u kontekstu — sleeper memory poisoning corruptira agentovu perzistentnu memoriju kroz fabricated facts spremljene u long-term memory store; napad ostaje dormantno preko više sesija i aktivira se kad agent kasnije pristupi tom memory item-u za drugu task, što je dramatic različitije od prompt injection-a koji nema persistence.

Q: Koje su konkretne success rate brojke?

GPT-5.5: 99,8 % successful poisoning rate, Kimi-K2.6: 95 % success rate; među successfully retrieved poisoned memories, attacker-intended akcije bile su triggerane u 60-89 % slučajeva; attack pipeline kompletno evaluiran — od fabrication writing u storage, kroz later retrieval, do manipulation subsequent konverzacija.

Hidden in Memory je novi arXiv paper objavljen 14. svibnja 2026. autora Sidharth Pulipaka, Stanislau Hlebik, Leonidas Raghav, Sahar Abdelnabi, Vyas Raina, Ivaxi Sheth i Mario Fritz koji predstavlja delayed-execution attack na stateful LLM agente. Adversarial content u externom kontekstu (dokumenti, webpage) corruptira agentovu perzistentnu memoriju — 99,8 % uspjeh na GPT-5.5 i 95 % na Kimi-K2.6, s 60-89 % uspjeha pretvaranja poisoned memory u attacker-intended akciju.

Sidharth Pulipaka, Stanislau Hlebik, Leonidas Raghav, Sahar Abdelnabi, Vyas Raina, Ivaxi Sheth i Mario Fritz objavili su 14. svibnja 2026. na arXivu paper koji predstavlja Sleeper Memory Poisoning — novi attack vector koji eksploatira perzistentnu memoriju LLM agenata za delayed-execution napade s dramatic success rates: 99,8 % na GPT-5.5 i 95 % na Kimi-K2.6.

Što sleeper memory poisoning konkretno znači?

Klasični LLM security threats — prompt injection, jailbreaking, context manipulation — imaju jedno fundamental ograničenje: napad traje samo dok je adversarial content u kontekstu. Čim user napusti session ili clear context, napad nestaje.

Sleeper memory poisoning mijenja taj profile. Trenutni stateful LLM assistenti (ChatGPT s Memory, Claude Projects, Gemini Personalization) perzistiraju user-specific information preko više sesija. Paper demonstrira da je tu perzistentnu memoriju moguće corruptirati kroz fabricated facts koji:

Pišu se u storage automatski kroz normal user interaction
Ostaju dormantno dok ne stignu retrieval trigger
Aktiviraju se u kasnijim sesijama kad agent koristi memory item za drugu task
Manipuliraju subsequent konverzacije u attacker-intended pravcu

Razlika između sleeper memory poisoning i klasičnog prompt injection-a je dramatic: persistence. Napad može biti dormant danima ili tjednima prije nego se trigger.

Što attack pipeline konkretno izgleda?

Paper detaljno evaluira complete attack pipeline:

Fabrication writing — adversarial content u externom dokumentu, webpage-u, repository-u kojeg agent obrađuje
Memory write — agent procesira content i piše fabricated “facts” u perzistentnu memoriju kao user preference, fact, ili context
Dormancy period — sve između writeanja i retrieval-a
Memory retrieval — agent u kasnijoj sesiji koristi memory item za drugu task
Action triggering — poisoned memory utječe na agent reasoning i triggera attacker-intended akciju

Pristup eksploatira trust boundary između user u externalnih sources. Agent treats anything user feeds it kao trustworthy, čak i ako external document koji user upload-a sadrži malicious instructions.

Koje su konkretne success rate brojke?

Paper navodi precizne metrics na dva frontier modela:

Model	Memory Poisoning Success	Attacker-Intended Action
GPT-5.5	99,8 %	60-89 % od successful retrievals
Kimi-K2.6	95 %	60-89 % od successful retrievals

GPT-5.5 broj je posebno dramatic — 99,8 % znači praktički garantirana memory corruption ako attacker zna structure agenta. Frontier modeli sa state-of-the-art alignment training-om su gotovo potpuno bezobranna prema ovom attack vector-u.

Drugi metric — 60-89 % action triggering rate — pokazuje da successful memory corruption pretvara u akcionabilni napad u većini slučajeva. To nije teorijski threat — to je production-grade attack vector s real-world impact.

Zašto je memory poisoning teško detektirati?

Defense difficulty potiče iz nekoliko factor-a:

Memory writes su normal operation — agent piše memory items kontinuirano kroz user interactions
No anomaly signal — adversarial memory item izgleda kao bilo koji drugi user fact
Cross-session evaluation requirement — single-session monitoring ne detektira napad jer trigger dolazi later
Difficult attribution — kad attack triggera, attribution na originalnu adversarial source je netrivijalan retrospective forensics task

Pristup zahtijeva end-to-end memory pipeline auditing, ne single-point security control.

Što ovo znači za production LLM deployments?

Findings imaju kritične implikacije za organizacije koje deploy-aju LLM agente s memory features:

ChatGPT Enterprise s Memory — potential exposure ako employees upload-aju documents iz neverified sources
Claude Projects — kompromitirani projects mogu korumpirati cross-project memory
Custom agent deployments s vector stores kao long-term memory — masovan attack surface
Multi-user systems s shared memory — jedan compromised user može utjecati na sve

Defensive priorities koje paper implicira:

Memory source provenance — track svaki memory item back to originating source
Adversarial content scanning prije memory writes
Retrieval anomaly detection — flagging unusual memory access patterns
Memory expiration policies — automatic cleanup starih memory items

Položaj u 2026. agentic security landscape-u

Paper se uklapa u eksplozivni val agentic safety/security istraživanja kroz svibanj 2026.:

arXiv FATE (12.5.) — 33,5 % attack reduction kroz formal techniques
arXiv History Anchors (13.5.) — 91-98 % unsafe shift kroz history manipulation
arXiv Sycophantic Consensus (15.5.) — alignment failure modes
Microsoft AI Delegation (15.5.) — 19-34 % reliability degradation
arXiv Compositional Jailbreaking (15.5.) — mutator chain synergies

Trend kristal-jasan: 2026. je godina kad agentic systems prelaze iz “experimental capability” u “production attack surface”. Sigurnost koje su mainstream RLHF + safety training davali za chatbot use case-ove nisu dovoljne za stateful agente s persistent memory.

Sleeper Memory Poisoning je vjerojatno najznačajniji security paper svibnja 2026. zbog dva broja: 99,8 % i persistence kroz više sesija. Industry mora ozbiljno revidirati arhitekturu LLM memory systems prije nego što attackers reproduce te rezultate u real-world deployments.

arXiv:2605.15338 Sleeper Memory Poisoning: 99,8 % attack success rate na GPT-5.5 kroz perzistentnu memoriju LLM agenata

Što sleeper memory poisoning konkretno znači?

Što attack pipeline konkretno izgleda?

Koje su konkretne success rate brojke?

Zašto je memory poisoning teško detektirati?

Što ovo znači za production LLM deployments?

Položaj u 2026. agentic security landscape-u

Česta pitanja

Izvori

Povezane vijesti