arXiv FATE: 33,5 % manje napada na LLM agente

FATE framework je novi pristup safety alignmentu LLM agenata objavljen 12. svibnja 2026. na arXivu autora Bo Yin, Qi Li i Xinchao Wang. Umjesto klasičnog RLHF-a koji ocjenjuje pojedinačne odgovore, FATE pretvara verifier-scored failure trajectories u on-policy repair supervision i Pareto-Front Policy Optimization. Rezultati pokazuju 33,5 % smanjenje attack success rate i 82,6 % manju harmful compliance.

Bo Yin, Qi Li i Xinchao Wang objavili su 12. svibnja 2026. na arXivu paper koji adresira ključno ograničenje postojećih safety alignment metoda za tool-using LLM agente — fokus na pojedinačne odgovore umjesto na cijele execution trajectories. Predloženi FATE framework (Failure-Trajectory Adversarial Training Evolution) zahvaća tipove failurea koje response-level signali propuštaju i pokazuje značajne sigurnosne dobitke.

Koji problem klasične safety metode propuštaju?

Tool-using agenti ne padaju samo u finalnom odgovoru — failureovi se manifestiraju kroz cijelu trajectory-u: nesigurni tool calls, instruction injection, harmful compliance i over-refusal. Postojeći safety signali su response-level ili off-policy, što stvara trade-off između sigurnosti i korisnosti. Verifier koji bi blokirao agent na response razini često blokira i legitimne use case-ove.

Kako FATE pretvara failure u repair supervision?

FATE radi u tri koraka. Prvo, verifier ocjenjuje cijele agent trajectories i identificira failureove po dimenzijama (security, utility, over-refusal control, trajectory validity). Drugo, on-policy self-evolution — isti policy predlaže repair kandidate za failureove, koje verifier ponovno scoreuje. Treće, Pareto-Front Policy Optimization (PFPO) kombinira supervised warmup s Pareto-aware optimizacijom: traži pravac u policy prostoru koji povećava sigurnost bez gubitka utility-ja.

Koliko su konkretno benchmarci pokazali?

Testiranje na AgentDojo, AgentHarm i ATBench daje sljedeće brojke: 33,5 % smanjenje attack success rate, 82,6 % smanjenje harmful compliance, 6,5 % poboljšanje external trajectory-safety dijagnoze. Rezultati se održavaju kroz različite modele i scale-ove, pri čemu korisno ponašanje ostaje očuvano — Pareto-front pristup eliminira klasični safety-utility trade-off.

Doprinos rada je u premještanju verifikacije s response na trajectory razinu i u koristrenju samog failure dataset-a kao training signala — što sugerira da agenti najbolje uče sigurnost iz vlastitih grešaka, ne iz vanjskih labelinga.

Česta pitanja

Što je novo u FATE pristupu?

FATE radi na razini cijele agent trajectory-e umjesto pojedinačnog odgovora — verifier ocjenjuje failure trajectories i FATE koristi te zapise za on-policy repair, gdje isti policy predlaže repair kandidate koje verifieri ponovno scoreaju.

Koji su konkretni rezultati na benchmark-ovima?

Testiranje na AgentDojo, AgentHarm i ATBench pokazalo je 33,5 % smanjenje attack success rate, 82,6 % smanjenje harmful compliance, 6,5 % poboljšanje external trajectory-safety dijagnoze, uz održanu korisnost na zadacima i različitim model scaleovima.

arXiv:2605.11882: FATE framework smanjuje attack success rate agenata 33,5 % kroz on-policy self-evolution

Koji problem klasične safety metode propuštaju?

Kako FATE pretvara failure u repair supervision?

Koliko su konkretno benchmarci pokazali?

Česta pitanja

Izvori

Povezane vijesti