ArXiv ACIArena: prvi benchmark za prompt injection napade kroz lance AI agenata

Tim An i suradnika objavio je 1.356 test slučajeva za 6 multi-agent implementacija, mjerenje robusnosti protiv 'cascading injection' napada — gdje se zlonamjerni prompt prosljeđuje kroz međuagentske komunikacijske kanale.

Novi tip prompt injection napada

Multi-agent sustavi (LangGraph, AutoGen, CrewAI, OpenAI Swarm) postaju sve popularniji za zadatke koji zahtijevaju koordinaciju više AI agenata. Ali svaki agent koji komunicira s drugim agentom predstavlja novu attack surface — i prema novom radu objavljenom 10. travnja, ta površina je opasno slabo istražena.

Tim koji predvodi An predstavlja ACIArena — prvi sustavni benchmark za agent cascading injection (ACI). To je obitelj napada gdje:

Napadač ubaci zlonamjerni prompt u jednu komponentu sustava (npr. dokument koji prvi agent čita)
Prvi agent procesira input i prosljeđuje “obradeni” rezultat sljedećem agentu
Zlonamjerni sadržaj se “presenta” kao legitimna intra-sistemska komunikacija
Sljedeći agenti tretiraju kompromitirane podatke kao trustworthy
Lanac se nastavlja sve dok netko ne izvrši opasnu akciju

Što sadrži benchmark

ACIArena pokriva 1.356 test slučajeva kroz 6 multi-agent implementacija. Test slučajevi pokrivaju:

Različite vektore ulaza (dokumenti, web stranice, API odgovori)
Različite topologije agenata (sekvencijalne, paralelne, hijerarhijske)
Različite vrste finalnih akcija (čitanje datoteka, pisanje koda, slanje e-mailova, izvršavanje shell komandi)

Zašto je ovo važno

Većina trenutnih sigurnosnih studija fokusira se na single-agent scenarije — gdje korisnik direktno priča s jednim modelom. Ali stvarni produkcijski deployovi sve se više oslanjaju na agentske lance gdje jedan agent vjeruje rezultatima drugog. ACIArena formalno mjeri koliko je ovaj “vjerovanje između agenata” slabo.

Za development teams koji već koriste LangGraph i AutoGen, ovaj benchmark trebao bi postati obavezni dio sigurnosne evaluacije prije produkcijskog deployment-a. Nedostatak benchmarka dosad je značio da su se napadi otkrivali tek nakon incidenata.

ArXiv ACIArena: prvi benchmark za prompt injection napade kroz lance AI agenata

Novi tip prompt injection napada

Što sadrži benchmark

Zašto je ovo važno

Izvori

Povezane vijesti