Što je VAKRA benchmark?

To je IBM-ov evaluacijski okvir za testiranje AI agenata s 8.000+ API-ja i 4.187 test instanci koji mjeri sposobnost agenata da koriste alate, razmišljaju kroz više koraka i poštuju vanjska ograničenja.

Na čemu AI agenti najčešće padaju?

Agenti pokazuju površinsku kompetenciju na jednostavnim zadacima, ali padaju na kompozicijskom razmišljanju — sposobnosti da kombiniraju više koraka i alata u koherentan plan za rješavanje složenih zadataka.

IBM Research: VAKRA benchmark otkriva da AI agenti padaju na složenom razmišljanju

IBM Research objavio je VAKRA — novi benchmark koji stavlja AI agente na test u realističnim enterprise scenarijima. S više od 8.000 lokalnih API-ja, 62 domene i 4.187 test instanci, VAKRA je jedan od najopsežnijih evaluacijskih okvira za testiranje agentnih sposobnosti.

Gdje AI agenti zakazuju?

Ključni nalaz je razlika između površinske kompetencije i stvarne pouzdanosti. AI agenti uspješno rješavaju jednostavne zadatke koji zahtijevaju jedan ili dva API poziva, ali performanse dramatično padaju kada zadatak zahtijeva kompozicijsko razmišljanje — sposobnost kombiniranja više alata i koraka u koherentan plan.

Multi-hop reasoning (razmišljanje kroz više koraka) posebno je problematičan: svaki dodatni korak u lancu smanjuje točnost, a agenti često “gube nit” nakon tri do četiri koraka. Ovo je posebno relevantno za enterprise scenarije gdje automatizacija poslovnih procesa zahtijeva upravo takve višekoračne operacije.

Zašto je pridržavanje pravila toliko teško?

VAKRA testira i nešto što naziva policy adherence — sposobnost agenta da poštuje vanjska ograničenja na korištenje alata. Primjerice, agent može imati pristup API-ju za brisanje korisničkih podataka, ali politika tvrtke zahtijeva prethodnu autorizaciju nadređenog.

Rezultati pokazuju da agenti značajno griješe u ovom aspektu, često izvršavajući radnje bez provjere ograničenja ili potpuno ignorirajući politike. Za tvrtke koje razmatraju autonomne AI agente u poslovnim procesima, ovo je signal da je potreban robustan sloj upravljanja i nadzora iznad samih agentnih sposobnosti.

IBM Research: VAKRA benchmark otkriva da AI agenti padaju na složenom razmišljanju

Gdje AI agenti zakazuju?

Zašto je pridržavanje pravila toliko teško?

Izvori

Povezane vijesti