arXiv:2605.16233: FORGE — AI agenti razvijaju memoriju bez fine-tuninga
arXiv:2605.16233 predstavlja FORGE, metodu kojom LLM agenti grade dijeljenu memoriju kroz populacijsko razmjenjivanje iskustva — bez ikakvog ažuriranja težina modela. Na zadatku mrežne obrane CybORG CAGE-2 postiže 1.7–7.7× bolji rezultat od nulte bazne linije, s osobito izraženim napretkom kod slabijih modela.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Istraživački tim s Carleton Universityja i kanadskog Ministarstva obrane objavio je rad FORGE (Failure-Optimized Reflective Graduation and Evolution) — sustav u kojemu LLM agenti kolektivno grade i dijele memoriju a da se niti jedan parametar modela ne mijenja. Rezultati na referentnom zadatku mrežne obrane pokazuju poboljšanje od 1.7 do 7.7 puta u odnosu na nultu baznu liniju.
Problem: skupo učenje nauštrb fleksibilnosti
Standardni pristup poboljšanju LLM agenata je fine-tuning — postupak u kojemu se gradient descent algoritmom ažuriraju milijarde težina neuronske mreže na specifičnom skupu podataka. Taj proces zahtijeva GPU sate, označene primjere i zamrzava model u trenutku treniranja. Svaka nova domena ili zadatak traži novi krug učenja.
FORGE ide drugačijim putem: umjesto mijenjanja samog modela, gradi shared memory — zajedničku tekstualnu bazu pravila i demonstracija koja se ubacuje u promptove agenata u obliku prirodnog jezika.
Kako FORGE zaobilazi fine-tuning?
Sustav djeluje u dva spregnuta ciklusa. Unutarnja petlja promatranjem neuspješnih epizoda generira reusable artefakte znanja — tekstualne heuristike (Rules) ili konkretne demonstracije uspješnih poteza (Examples). Vanjska petlja zatim propagira memoriju najboljeg agenta na cijelu populaciju između razvojnih faza, dok agenti koji su dostigli konvergenciju bivaju “graduirani” i zamrznuti.
Ključni mehanizam je upravo populacijski broadcast: znanje ne ostaje zarobljeno u jednom agentu već se dijeli kolektivno. Istraživači su testirali Gemini-2.5-Flash-Lite, Grok-4-Fast, Llama-4-Maverick i Qwen3-235B na simuliranom okruženju CybORG CAGE-2 — stohastičkom POMDP zadatku mrežne obrane s 30-koračnim horizontom u kojemu branitelj reagira na napad poznat kao B-line attacker.
Rezultati: slabiji modeli imaju najviše za dobiti
FORGE postiže 29–72% bolji rezultat od izolirane Reflexion bazne linije, a stopu katastrofalnih pogrešaka spušta na oko 1% (nasuprot izrazito negativnim nagradama u nultoj liniji). Zanimljivo, Rules varijanta troši ~40% manje tokena uz usporedive rezultate, dok Examples varijanta dominira kod triju od četiri testirana modela.
Osobito je relevantan nalaz da slabiji bazni modeli profitiraju nesrazmjerno više — FORGE faktički kompenzira ograničene sposobnosti manjeg modela kolektivno izgrađenim iskustvom populacije. To otvara vrata primjenama u kojima je deploy snažnijeg modela ekonomski ili latencijski neprihvatljiv, a domensko znanje može biti enkapsulano u dijeljenu memoriju.
Rad sugerira da za specijalizirane domene poput kibernetičke obrane populacijska memorija može biti učinkovitija alternativa skupom fine-tuningu — posebice kada se domenska pravila brzo mijenjaju.
Česta pitanja
- Što je FORGE?
- FORGE (Failure-Optimized Reflective Graduation and Evolution) je metoda za razvoj memorije LLM agenata. Umjesto mijenjanja parametara modela, gradi tekstualnu memoriju — pravila i primjere — koja se ubacuje u promptove agenata i dijeli kroz cijelu populaciju.
- Zašto agentima nije potreban fine-tuning?
- FORGE koristi populacijsko dijeljenje iskustva: kada jedan agent iz grupe nauči korisnu heuristiku ili demonstraciju, ta se znanja putem shared memory mehanizma propagiraju na sve ostale agente između razvojnih faza. Nema gradijentnih ažuriranja — znanje ostaje u prirodnom jeziku, ne u težinama mreže.
- Na kojim modelima je FORGE testiran?
- Istraživači su testirali Gemini-2.5-Flash-Lite, Grok-4-Fast, Llama-4-Maverick i Qwen3-235B. Slabiji modeli pokazali su razmjerno veći napredak, što sugerira da FORGE može kompenzirati ograničene kapacitete baznog modela.