FORGE: AI agenti uče bez fine-tuninga (arXiv:2605.16233)

arXiv:2605.16233 predstavlja FORGE, metodu kojom LLM agenti grade dijeljenu memoriju kroz populacijsko razmjenjivanje iskustva — bez ikakvog ažuriranja težina modela. Na zadatku mrežne obrane CybORG CAGE-2 postiže 1.7–7.7× bolji rezultat od nulte bazne linije, s osobito izraženim napretkom kod slabijih modela.

Istraživački tim s Carleton Universityja i kanadskog Ministarstva obrane objavio je rad FORGE (Failure-Optimized Reflective Graduation and Evolution) — sustav u kojemu LLM agenti kolektivno grade i dijele memoriju a da se niti jedan parametar modela ne mijenja. Rezultati na referentnom zadatku mrežne obrane pokazuju poboljšanje od 1.7 do 7.7 puta u odnosu na nultu baznu liniju.

Problem: skupo učenje nauštrb fleksibilnosti

Standardni pristup poboljšanju LLM agenata je fine-tuning — postupak u kojemu se gradient descent algoritmom ažuriraju milijarde težina neuronske mreže na specifičnom skupu podataka. Taj proces zahtijeva GPU sate, označene primjere i zamrzava model u trenutku treniranja. Svaka nova domena ili zadatak traži novi krug učenja.

FORGE ide drugačijim putem: umjesto mijenjanja samog modela, gradi shared memory — zajedničku tekstualnu bazu pravila i demonstracija koja se ubacuje u promptove agenata u obliku prirodnog jezika.

Kako FORGE zaobilazi fine-tuning?

Sustav djeluje u dva spregnuta ciklusa. Unutarnja petlja promatranjem neuspješnih epizoda generira reusable artefakte znanja — tekstualne heuristike (Rules) ili konkretne demonstracije uspješnih poteza (Examples). Vanjska petlja zatim propagira memoriju najboljeg agenta na cijelu populaciju između razvojnih faza, dok agenti koji su dostigli konvergenciju bivaju “graduirani” i zamrznuti.

Ključni mehanizam je upravo populacijski broadcast: znanje ne ostaje zarobljeno u jednom agentu već se dijeli kolektivno. Istraživači su testirali Gemini-2.5-Flash-Lite, Grok-4-Fast, Llama-4-Maverick i Qwen3-235B na simuliranom okruženju CybORG CAGE-2 — stohastičkom POMDP zadatku mrežne obrane s 30-koračnim horizontom u kojemu branitelj reagira na napad poznat kao B-line attacker.

Rezultati: slabiji modeli imaju najviše za dobiti

FORGE postiže 29–72% bolji rezultat od izolirane Reflexion bazne linije, a stopu katastrofalnih pogrešaka spušta na oko 1% (nasuprot izrazito negativnim nagradama u nultoj liniji). Zanimljivo, Rules varijanta troši ~40% manje tokena uz usporedive rezultate, dok Examples varijanta dominira kod triju od četiri testirana modela.

Osobito je relevantan nalaz da slabiji bazni modeli profitiraju nesrazmjerno više — FORGE faktički kompenzira ograničene sposobnosti manjeg modela kolektivno izgrađenim iskustvom populacije. To otvara vrata primjenama u kojima je deploy snažnijeg modela ekonomski ili latencijski neprihvatljiv, a domensko znanje može biti enkapsulano u dijeljenu memoriju.

Rad sugerira da za specijalizirane domene poput kibernetičke obrane populacijska memorija može biti učinkovitija alternativa skupom fine-tuningu — posebice kada se domenska pravila brzo mijenjaju.

Česta pitanja

Što je FORGE?

FORGE (Failure-Optimized Reflective Graduation and Evolution) je metoda za razvoj memorije LLM agenata. Umjesto mijenjanja parametara modela, gradi tekstualnu memoriju — pravila i primjere — koja se ubacuje u promptove agenata i dijeli kroz cijelu populaciju.

Zašto agentima nije potreban fine-tuning?

FORGE koristi populacijsko dijeljenje iskustva: kada jedan agent iz grupe nauči korisnu heuristiku ili demonstraciju, ta se znanja putem shared memory mehanizma propagiraju na sve ostale agente između razvojnih faza. Nema gradijentnih ažuriranja — znanje ostaje u prirodnom jeziku, ne u težinama mreže.

Na kojim modelima je FORGE testiran?

Istraživači su testirali Gemini-2.5-Flash-Lite, Grok-4-Fast, Llama-4-Maverick i Qwen3-235B. Slabiji modeli pokazali su razmjerno veći napredak, što sugerira da FORGE može kompenzirati ograničene kapacitete baznog modela.

arXiv:2605.16233: FORGE — AI agenti razvijaju memoriju bez fine-tuninga

Problem: skupo učenje nauštrb fleksibilnosti

Kako FORGE zaobilazi fine-tuning?

Rezultati: slabiji modeli imaju najviše za dobiti

Česta pitanja

Izvori

Povezane vijesti