ArXiv: Hodoscope — nadzor AI agenata bez unaprijed definiranih kategorija grešaka

Kako nadzirati AI agente kada ne znamo unaprijed koje vrste grešaka tražimo? Hodoscope rješava upravo taj problem — otkriva sumnjivo ponašanje AI agenata bez potrebe za definiranjem kategorija mogućih pogrešaka.

Pristup bez nadzora

Za razliku od tradicionalnih alata koji traže specifične poznate probleme, Hodoscope koristi nenadgledani pristup — uspoređuje distribucije ponašanja između grupa agenata i automatski identificira statistički značajna odstupanja. Ako se jedna grupa ponaša bitno drugačije od ostalih, sustav to signalizira za pregled.

Konkretni rezultati

Hodoscope je pri testiranju postigao impresivne rezultate:

Otkrio prethodno nepoznatu ranjivost u Commit0 benchmarku — nesredena git povijest omogućavala je agentima pristup informacijama koje ne bi smjeli imati
Uspješno reproducirao poznate eksploite na ImpossibleBench i SWE-bench benchmarkovima
Smanjio potreban ljudski pregled za 6-23 puta u usporedbi s nasumičnim uzorkovanjem
Otkriveni obrasci poboljšavaju i točnost LLM-baziranih sudaca za automatsku evaluaciju

Zašto je to važno?

AI sigurnost se trenutno oslanja na ručno definiranje mogućih prijetnji — ali nova vrsta agenata može pokazati ponašanja koja nikad nisu bila predviđena. Hodoscope predstavlja pomak prema proaktivnom nadzoru koji može otkriti nepoznate probleme, ne samo one za koje smo unaprijed pripremljeni. To je posebno važno kako AI agenti preuzimaju sve složenije zadatke s pristupom stvarnim sustavima.

ArXiv: Hodoscope — nadzor AI agenata bez unaprijed definiranih kategorija grešaka

Pristup bez nadzora

Konkretni rezultati

Zašto je to važno?

Izvori

Povezane vijesti