ArXiv ACIArena: prvi benchmark za prompt injection napade kroz lance AI agenata
Zašto je bitno
Tim An i suradnika objavio je 1.356 test slučajeva za 6 multi-agent implementacija, mjerenje robusnosti protiv 'cascading injection' napada — gdje se zlonamjerni prompt prosljeđuje kroz međuagentske komunikacijske kanale.
Novi tip prompt injection napada
Multi-agent sustavi (LangGraph, AutoGen, CrewAI, OpenAI Swarm) postaju sve popularniji za zadatke koji zahtijevaju koordinaciju više AI agenata. Ali svaki agent koji komunicira s drugim agentom predstavlja novu attack surface — i prema novom radu objavljenom 10. travnja, ta površina je opasno slabo istražena.
Tim koji predvodi An predstavlja ACIArena — prvi sustavni benchmark za agent cascading injection (ACI). To je obitelj napada gdje:
- Napadač ubaci zlonamjerni prompt u jednu komponentu sustava (npr. dokument koji prvi agent čita)
- Prvi agent procesira input i prosljeđuje “obradeni” rezultat sljedećem agentu
- Zlonamjerni sadržaj se “presenta” kao legitimna intra-sistemska komunikacija
- Sljedeći agenti tretiraju kompromitirane podatke kao trustworthy
- Lanac se nastavlja sve dok netko ne izvrši opasnu akciju
Što sadrži benchmark
ACIArena pokriva 1.356 test slučajeva kroz 6 multi-agent implementacija. Test slučajevi pokrivaju:
- Različite vektore ulaza (dokumenti, web stranice, API odgovori)
- Različite topologije agenata (sekvencijalne, paralelne, hijerarhijske)
- Različite vrste finalnih akcija (čitanje datoteka, pisanje koda, slanje e-mailova, izvršavanje shell komandi)
Zašto je ovo važno
Većina trenutnih sigurnosnih studija fokusira se na single-agent scenarije — gdje korisnik direktno priča s jednim modelom. Ali stvarni produkcijski deployovi sve se više oslanjaju na agentske lance gdje jedan agent vjeruje rezultatima drugog. ACIArena formalno mjeri koliko je ovaj “vjerovanje između agenata” slabo.
Za development teams koji već koriste LangGraph i AutoGen, ovaj benchmark trebao bi postati obavezni dio sigurnosne evaluacije prije produkcijskog deployment-a. Nedostatak benchmarka dosad je značio da su se napadi otkrivali tek nakon incidenata.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Povezane vijesti
AISI testirao četiri Claude modela na sabotaži AI safety istraživanja: nema spontane sabotaže, ali Mythos Preview pokazao 65% nesklad između razmišljanja i postupaka
AISI 'Ask Don't Tell': preformulacija upita u pitanje smanjuje sycophancy LLM-ova za 24 postotna boda
ESRRSim okvir mjeri strateško zaključivanje u 11 reasoning modela: stope detekcije rizika variraju 14,45–72,72%, otkriva i međugeneracijsku evaluation awareness