ArXiv ACIArena: prvi benchmark za prompt injection napade kroz lance AI agenata
Zašto je bitno
Tim An i suradnika objavio je 1.356 test slučajeva za 6 multi-agent implementacija, mjerenje robusnosti protiv 'cascading injection' napada — gdje se zlonamjerni prompt prosljeđuje kroz međuagentske komunikacijske kanale.
Novi tip prompt injection napada
Multi-agent sustavi (LangGraph, AutoGen, CrewAI, OpenAI Swarm) postaju sve popularniji za zadatke koji zahtijevaju koordinaciju više AI agenata. Ali svaki agent koji komunicira s drugim agentom predstavlja novu attack surface — i prema novom radu objavljenom 10. travnja, ta površina je opasno slabo istražena.
Tim koji predvodi An predstavlja ACIArena — prvi sustavni benchmark za agent cascading injection (ACI). To je obitelj napada gdje:
- Napadač ubaci zlonamjerni prompt u jednu komponentu sustava (npr. dokument koji prvi agent čita)
- Prvi agent procesira input i prosljeđuje “obradeni” rezultat sljedećem agentu
- Zlonamjerni sadržaj se “presenta” kao legitimna intra-sistemska komunikacija
- Sljedeći agenti tretiraju kompromitirane podatke kao trustworthy
- Lanac se nastavlja sve dok netko ne izvrši opasnu akciju
Što sadrži benchmark
ACIArena pokriva 1.356 test slučajeva kroz 6 multi-agent implementacija. Test slučajevi pokrivaju:
- Različite vektore ulaza (dokumenti, web stranice, API odgovori)
- Različite topologije agenata (sekvencijalne, paralelne, hijerarhijske)
- Različite vrste finalnih akcija (čitanje datoteka, pisanje koda, slanje e-mailova, izvršavanje shell komandi)
Zašto je ovo važno
Većina trenutnih sigurnosnih studija fokusira se na single-agent scenarije — gdje korisnik direktno priča s jednim modelom. Ali stvarni produkcijski deployovi sve se više oslanjaju na agentske lance gdje jedan agent vjeruje rezultatima drugog. ACIArena formalno mjeri koliko je ovaj “vjerovanje između agenata” slabo.
Za development teams koji već koriste LangGraph i AutoGen, ovaj benchmark trebao bi postati obavezni dio sigurnosne evaluacije prije produkcijskog deployment-a. Nedostatak benchmarka dosad je značio da su se napadi otkrivali tek nakon incidenata.