🤖 24 AI
🟢 🤝 Agenti četvrtak, 16. travnja 2026. · 2 min čitanja

IBM Research: VAKRA benchmark otkriva da AI agenti padaju na složenom razmišljanju

Zašto je bitno

IBM Research objavio je VAKRA — novi benchmark za evaluaciju AI agenata u enterprise okruženjima koji sadrži više od 8.000 lokalnih API-ja, 62 domene i 4.187 test instanci. Ključni nalaz je da modeli pokazuju površinsku kompetenciju na jednostavnim zadacima, ali padaju na kompozicijskom razmišljanju, multi-hop reasoning degradira s dubinom, a pridržavanje vanjskih ograničenja uzrokuje značajan pad performansi.

IBM Research objavio je VAKRA — novi benchmark koji stavlja AI agente na test u realističnim enterprise scenarijima. S više od 8.000 lokalnih API-ja, 62 domene i 4.187 test instanci, VAKRA je jedan od najopsežnijih evaluacijskih okvira za testiranje agentnih sposobnosti.

Gdje AI agenti zakazuju?

Ključni nalaz je razlika između površinske kompetencije i stvarne pouzdanosti. AI agenti uspješno rješavaju jednostavne zadatke koji zahtijevaju jedan ili dva API poziva, ali performanse dramatično padaju kada zadatak zahtijeva kompozicijsko razmišljanje — sposobnost kombiniranja više alata i koraka u koherentan plan.

Multi-hop reasoning (razmišljanje kroz više koraka) posebno je problematičan: svaki dodatni korak u lancu smanjuje točnost, a agenti često “gube nit” nakon tri do četiri koraka. Ovo je posebno relevantno za enterprise scenarije gdje automatizacija poslovnih procesa zahtijeva upravo takve višekoračne operacije.

Zašto je pridržavanje pravila toliko teško?

VAKRA testira i nešto što naziva policy adherence — sposobnost agenta da poštuje vanjska ograničenja na korištenje alata. Primjerice, agent može imati pristup API-ju za brisanje korisničkih podataka, ali politika tvrtke zahtijeva prethodnu autorizaciju nadređenog.

Rezultati pokazuju da agenti značajno griješe u ovom aspektu, često izvršavajući radnje bez provjere ograničenja ili potpuno ignorirajući politike. Za tvrtke koje razmatraju autonomne AI agente u poslovnim procesima, ovo je signal da je potreban robustan sloj upravljanja i nadzora iznad samih agentnih sposobnosti.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.