arXiv:2605.11882: FATE framework smanjuje attack success rate agenata 33,5 % kroz on-policy self-evolution
FATE framework je novi pristup safety alignmentu LLM agenata objavljen 12. svibnja 2026. na arXivu autora Bo Yin, Qi Li i Xinchao Wang. Umjesto klasičnog RLHF-a koji ocjenjuje pojedinačne odgovore, FATE pretvara verifier-scored failure trajectories u on-policy repair supervision i Pareto-Front Policy Optimization. Rezultati pokazuju 33,5 % smanjenje attack success rate i 82,6 % manju harmful compliance.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Bo Yin, Qi Li i Xinchao Wang objavili su 12. svibnja 2026. na arXivu paper koji adresira ključno ograničenje postojećih safety alignment metoda za tool-using LLM agente — fokus na pojedinačne odgovore umjesto na cijele execution trajectories. Predloženi FATE framework (Failure-Trajectory Adversarial Training Evolution) zahvaća tipove failurea koje response-level signali propuštaju i pokazuje značajne sigurnosne dobitke.
Koji problem klasične safety metode propuštaju?
Tool-using agenti ne padaju samo u finalnom odgovoru — failureovi se manifestiraju kroz cijelu trajectory-u: nesigurni tool calls, instruction injection, harmful compliance i over-refusal. Postojeći safety signali su response-level ili off-policy, što stvara trade-off između sigurnosti i korisnosti. Verifier koji bi blokirao agent na response razini često blokira i legitimne use case-ove.
Kako FATE pretvara failure u repair supervision?
FATE radi u tri koraka. Prvo, verifier ocjenjuje cijele agent trajectories i identificira failureove po dimenzijama (security, utility, over-refusal control, trajectory validity). Drugo, on-policy self-evolution — isti policy predlaže repair kandidate za failureove, koje verifier ponovno scoreuje. Treće, Pareto-Front Policy Optimization (PFPO) kombinira supervised warmup s Pareto-aware optimizacijom: traži pravac u policy prostoru koji povećava sigurnost bez gubitka utility-ja.
Koliko su konkretno benchmarci pokazali?
Testiranje na AgentDojo, AgentHarm i ATBench daje sljedeće brojke: 33,5 % smanjenje attack success rate, 82,6 % smanjenje harmful compliance, 6,5 % poboljšanje external trajectory-safety dijagnoze. Rezultati se održavaju kroz različite modele i scale-ove, pri čemu korisno ponašanje ostaje očuvano — Pareto-front pristup eliminira klasični safety-utility trade-off.
Doprinos rada je u premještanju verifikacije s response na trajectory razinu i u koristrenju samog failure dataset-a kao training signala — što sugerira da agenti najbolje uče sigurnost iz vlastitih grešaka, ne iz vanjskih labelinga.
Česta pitanja
- Što je novo u FATE pristupu?
- FATE radi na razini cijele agent trajectory-e umjesto pojedinačnog odgovora — verifier ocjenjuje failure trajectories i FATE koristi te zapise za on-policy repair, gdje isti policy predlaže repair kandidate koje verifieri ponovno scoreaju.
- Koji su konkretni rezultati na benchmark-ovima?
- Testiranje na AgentDojo, AgentHarm i ATBench pokazalo je 33,5 % smanjenje attack success rate, 82,6 % smanjenje harmful compliance, 6,5 % poboljšanje external trajectory-safety dijagnoze, uz održanu korisnost na zadacima i različitim model scaleovima.
Izvori
Povezane vijesti
Anthropic: Project Glasswing pronašao 10.000 visokorizičnih ranjivosti u prvom mjesecu rada s Claude Mythos Preview
arXiv:2605.22786: LCGuard štiti dijeljeni KV cache između agenata u multi-agent sustavima od curenja podataka
GitHub: npm 11.15.0 uvodi staged publishing i tri nova install-time --allow flaga za supply chain hardening