ArXiv ACIArena: prvi benchmark za prompt injection napade kroz lance AI agenata
Tim An i suradnika objavio je 1.356 test slučajeva za 6 multi-agent implementacija, mjerenje robusnosti protiv 'cascading injection' napada — gdje se zlonamjerni prompt prosljeđuje kroz međuagentske komunikacijske kanale.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Novi tip prompt injection napada
Multi-agent sustavi (LangGraph, AutoGen, CrewAI, OpenAI Swarm) postaju sve popularniji za zadatke koji zahtijevaju koordinaciju više AI agenata. Ali svaki agent koji komunicira s drugim agentom predstavlja novu attack surface — i prema novom radu objavljenom 10. travnja, ta površina je opasno slabo istražena.
Tim koji predvodi An predstavlja ACIArena — prvi sustavni benchmark za agent cascading injection (ACI). To je obitelj napada gdje:
- Napadač ubaci zlonamjerni prompt u jednu komponentu sustava (npr. dokument koji prvi agent čita)
- Prvi agent procesira input i prosljeđuje “obradeni” rezultat sljedećem agentu
- Zlonamjerni sadržaj se “presenta” kao legitimna intra-sistemska komunikacija
- Sljedeći agenti tretiraju kompromitirane podatke kao trustworthy
- Lanac se nastavlja sve dok netko ne izvrši opasnu akciju
Što sadrži benchmark
ACIArena pokriva 1.356 test slučajeva kroz 6 multi-agent implementacija. Test slučajevi pokrivaju:
- Različite vektore ulaza (dokumenti, web stranice, API odgovori)
- Različite topologije agenata (sekvencijalne, paralelne, hijerarhijske)
- Različite vrste finalnih akcija (čitanje datoteka, pisanje koda, slanje e-mailova, izvršavanje shell komandi)
Zašto je ovo važno
Većina trenutnih sigurnosnih studija fokusira se na single-agent scenarije — gdje korisnik direktno priča s jednim modelom. Ali stvarni produkcijski deployovi sve se više oslanjaju na agentske lance gdje jedan agent vjeruje rezultatima drugog. ACIArena formalno mjeri koliko je ovaj “vjerovanje između agenata” slabo.
Za development teams koji već koriste LangGraph i AutoGen, ovaj benchmark trebao bi postati obavezni dio sigurnosne evaluacije prije produkcijskog deployment-a. Nedostatak benchmarka dosad je značio da su se napadi otkrivali tek nakon incidenata.
Povezane vijesti
Anthropic: Project Glasswing pronašao 10.000 visokorizičnih ranjivosti u prvom mjesecu rada s Claude Mythos Preview
arXiv:2605.22786: LCGuard štiti dijeljeni KV cache između agenata u multi-agent sustavima od curenja podataka
GitHub: npm 11.15.0 uvodi staged publishing i tri nova install-time --allow flaga za supply chain hardening