arXiv: FALAT traži uzrok kvara AI agenta

FALAT je novi dijagnostički okvir za pripisivanje uzroka kvarova u multi-agentnim LLM sustavima, formuliran kao pretraga vođena ovisnostima. Postiže 46,0% točnosti na razini koraka na algoritamski generiranim trajektorijama i 29,1% na ručno rađenima, pokazujući da je uzimanje ovisnosti među koracima ključno za identifikaciju uzroka greške.

Rad objavljen na arXivu pod naslovom “FALAT: Tracing Failures in LLM Agent Trajectories via Dependency-Guided Search” predstavlja dijagnostički okvir za jedan od najtežih problema u multi-agentnim sustavima. Autori su Md Nakhla Rafi, Md Ahasanuzzaman, Dong Jae Kim, Zhijie Wang i Tse-Hsun Chen.

Koji problem FALAT rješava?

U sustavima u kojima više LLM agenata surađuje na zadatku, kvar nije lako pripisati. Greška se može širiti kroz trajektoriju: kasnije akcije izgledaju pogrešno, ali samo zato što ovise o ranije pokvarenom stanju. Trajektorija je ovdje cijeli niz koraka i odluka koje agenti poduzimaju. FALAT pokušava utvrditi koji je agent zaista uzrokovao kvar i u kojem je koraku nastala odlučujuća greška.

Kako FALAT radi?

Okvir je formuliran kao “dependency-guided search”, pretraga vođena ovisnostima. FALAT najprije gradi očekivanja o ispravnom izvođenju zadatka, zatim identificira sumnjive regije trajektorije, prati ovisnosti između odluka i izlaza, te procjenjuje bi li ispravljanje kandidatskog koraka vratilo očekivani ishod. Time se umjesto površnog gledanja na zadnji vidljivi pogrešan korak dolazi do stvarnog izvora kvara.

Kakvi su rezultati?

Na referentnom skupu Who&When FALAT postiže 46,0% točnosti na razini koraka za algoritamski generirane trajektorije i 29,1% za ručno rađene. Te brojke nadmašuju specijalizirane baseline metode za atribuciju kao i izravno promptanje samostalnih LLM modela. Razlika između dvaju skupova pokazuje i koliko je zadatak teži na ručno sastavljenim, raznolikijim trajektorijama.

Zašto je ovo važno?

Rezultati naglašavaju da je rasuđivanje svjesno ovisnosti ključno za dijagnosticiranje kvarova u LLM agentskim sustavima. Kako se agentski sustavi šire u proizvodnju, sposobnost preciznog pripisivanja uzroka greške postaje preduvjet za pouzdanost, otklanjanje pogrešaka i odgovornost. FALAT nudi strukturiran pristup tom izazovu umjesto pukog nagađanja koji je korak zakazao.

Česta pitanja

Što FALAT pokušava utvrditi?

FALAT pokušava utvrditi koji je agent uzrokovao kvar u multi-agentnom LLM sustavu i u kojem je koraku nastala odlučujuća greška.

Koliku točnost FALAT postiže?

Postiže 46,0% točnosti na razini koraka na algoritamski generiranim trajektorijama i 29,1% na ručno rađenima, nadmašujući specijalizirane baseline metode i izravno promptanje.

arXiv:2606.00765: FALAT prati uzroke kvarova u trajektorijama AI agenata

Koji problem FALAT rješava?

Kako FALAT radi?

Kakvi su rezultati?

Zašto je ovo važno?

Česta pitanja

Izvori

Povezane vijesti