Što je ReasoningBank?

ReasoningBank je memorijski okvir za AI agente koji destilira uvide iz prošlih uspjeha i neuspjeha u obliku strategija koje agent koristi prije izvršavanja novih zadataka.

Treba li ReasoningBank retraining modela?

Ne. Okvir omogućuje učenje u vrijeme izvršavanja (test-time learning) — agent akumulira memoriju tijekom deploymenta bez dodirivanja težina modela.

Koliki je dobitak u performansama?

Na WebArena benchmarku ReasoningBank je postigao 8,3% više uspjeha od agenta bez memorije, a na SWE-Bench-Verified 4,6% uz oko 3 koraka manje po zadatku.

Google ReasoningBank: agenti uče iz iskustva bez retraininga, +8,3% uspjeha na WebAreni

Google Research je predstavio ReasoningBank — novi memorijski okvir koji AI agentima omogućuje da uče iz vlastitih prošlih pokušaja, i uspješnih i neuspješnih, bez potrebe za ponovnim treniranjem (retrainingom) jezičnog modela. Rezultati su značajan porast stope uspjeha na dva zahtjevna benchmarka.

Što se dogodilo?

ReasoningBank je okvir koji funkcionira kao “kontinuirana zatvorena petlja dohvaćanja, ekstrakcije i konsolidacije” — tako ga opisuju autori u Googleovom istraživačkom blogu. Prije nego što agent poduzme akciju, dohvaća relevantne memorije iz banke; nakon izvršenja zadatka, LLM-as-a-judge procjenjuje ishod i destilira pouke u novu memorijsku stavku.

Svaka memorijska stavka sadrži tri dijela: koncizan naslov koji identificira strategiju, kratki opisni sažetak i destilirane korake rasuđivanja ili operativne uvide izvučene iz prošlog iskustva. Ovakva struktura omogućuje agentu brzo pretraživanje i primjenu relevantnih strategija na nove zadatke.

Posebnost ReasoningBanka je naglasak na učenju iz neuspjeha. Dok konkurentski pristupi poput Synapsea pohranjuju iscrpne trajektorije akcija, a Agent Workflow Memory fokusira se samo na uspješne pokušaje, ReasoningBank “destilira pogreške u preventivne pouke”, gradeći ono što istraživači zovu “strateškim zaštitnim ogradama”.

Zašto je to važno?

Na WebArena benchmarku — standardu za web navigaciju — ReasoningBank je postigao 8,3% veću stopu uspjeha u odnosu na agente bez memorije. Na SWE-Bench-Verified, zahtjevnom benchmarku za rješavanje software engineering zadataka na stvarnim GitHub repozitorijima, dobitak je bio 4,6% uz otprilike 3 koraka manje po zadatku.

Ključan praktični aspekt je da za ove dobitke nije potrebno mijenjati težine modela. To znači da razvojni timovi mogu ReasoningBank staviti povrh postojećih LLM-ova (Gemini, GPT, Claude) bez skupog fine-tuninga ili gubitka jamstava isporučitelja modela.

Za enterprise primjenu ovo otvara vrata agentima koji se poboljšavaju tijekom deploymenta — svaki incident, svaka neuspjela akcija postaje materijal za učenje umjesto samo statistika u logu. To je izravna primjena onoga što industrija dugo priziva: agente koji akumuliraju institucionalno znanje.

Istraživački tim vode Jun Yan i Chen-Yu Lee iz Google Clouda, uz 15 dodatnih istraživača, među kojima su Siru Ouyang, Jiawei Han i Tomas Pfister.

Kako se ReasoningBank razlikuje od prethodnih pristupa?

Do sada su postojala dva glavna pristupa agentskoj memoriji. Prvi, Synapse, pohranjuje iscrpne trajektorije akcija — svaki klik, svaki unos, svaki odgovor alata. Problem je što takav pristup brzo postaje previše specifičan za jedan konkretni zadatak i teško se transferira na nove situacije.

Drugi pristup, Agent Workflow Memory, fokusira se samo na uspješne trajektorije — agent uči što radi, ali ne i zašto nešto ne radi. ReasoningBank argumentira da je to ograničavajuće jer agenti češće griješe nego uspijevaju, pa se najveći prostor za poboljšanje nalazi upravo u učenju iz neuspjeha.

Treća razlika je razina apstrakcije. Umjesto pohranjivanja sirovih akcija ili rezultata, ReasoningBank destilira obrasce rasuđivanja — “strategije”. To znači da memorija iz zadataka na jednoj web stranici može pomoći na potpuno drugoj web stranici jer se strategija (“prvo potvrdi autentifikaciju, zatim provjeri rate limit, pa tek onda izvrši akciju”) prenosi kroz domene.

Što dalje?

Uz sam okvir, Google je predstavio i MaTTS (Memory-Aware Test-Time Scaling) — tehniku koja koristi memoriju za skaliranje u vrijeme izvršavanja kroz dva pristupa: paralelnu eksploraciju (generiranje više trajektorija paralelno) i sekvencijalno profinjenje (iterativno poboljšavanje jedne trajektorije). Ovaj dodatak je posebno zanimljiv jer pokazuje da memorija i compute skaliranje nisu suparnički mehanizmi nego sinergijski.

Sljedeći korak bit će integracija ReasoningBanka u Googleove produktne agente — vjerojatno Gemini Deep Research agenta i Googleove coding alate. Paper s detaljnom metodologijom najavljen je za sljedeće tjedne na istraživačkim platformama poput arXiva, a očekuje se i open-source referentna implementacija.

Za korisnike koji grade vlastite agente, ključna lekcija je da jednostavna pohrana “što je prošlo dobro” nije dovoljna — prava vrijednost leži u analizi pogrešaka i destilaciji transferabilnih obrazaca rasuđivanja, a ne samo trajektorija akcija. ReasoningBank je prvi javno opisan okvir koji to radi sustavno, ali obrazac će vjerojatno brzo biti repliciran u ekosustavima oko Claudea, GPT-a i open-source modela. Za hrvatske razvojne timove koji eksperimentiraju s agentima, ovo je signal da arhitektura memorije postaje jednako važna kao izbor samog LLM-a.

Google ReasoningBank: agenti uče iz iskustva bez retraininga, +8,3% uspjeha na WebAreni

Google ReasoningBank: agenti uče iz iskustva bez retraininga, +8,3% uspjeha na WebAreni

Što se dogodilo?

Zašto je to važno?

Kako se ReasoningBank razlikuje od prethodnih pristupa?

Što dalje?

Izvori

Povezane vijesti