ArXiv: SWE-AGILE — kako mali modeli rješavaju eksploziju konteksta u kodnim agentima
Zašto je bitno
SWE-AGILE uvodi strategiju dinamičnog konteksta s kliznim prozorom i komprimiranim sažecima za AI kodne agente. S modelom od samo 7-8B parametara postiže novi state-of-the-art na SWE-Bench-Verified, koristeći samo 2.200 trening primjera.
Jedan od najvećih izazova za autonomne AI kodne agente je “eksplozija konteksta” — što više koraka agent napravi, to više informacija mora držati u memoriji, a kontekstni prozor se brzo puni.
Rješenje: dinamični kontekst
SWE-AGILE uvodi strategiju Dynamic Reasoning Context koja koristi dva mehanizma:
- Klizni prozor detaljnog rasuđivanja — zadnjih nekoliko koraka agenta zadržava se u punom obliku za precizno donošenje odluka
- Reasoning Digests — komprimirani sažeci starijih koraka koji čuvaju ključne informacije bez zauzimanja previše prostora
Ovaj pristup omogućuje agentu da zadrži “veliku sliku” projekta dok istovremeno ima detaljan uvid u trenutni zadatak.
Impresivni rezultati s malim modelom
Najznačajniji aspekt rada je da SWE-AGILE postiže novi state-of-the-art za modele veličine 7-8B parametara na SWE-Bench-Verified benchmarku:
- Koristi samo 2.200 trening primjera i 896 zadataka
- Konkurira znatno većim modelima zahvaljujući efikasnom upravljanju kontekstom
- Kod je javno dostupan na GitHubu
Zašto je to zanimljivo?
U svijetu gdje se AI kodiranje uglavnom oslanja na ogromne modele s velikim kontekstnim prozorima, SWE-AGILE pokazuje da pametnije upravljanje kontekstom može kompenzirati veličinu modela. To otvara vrata za učinkovitije i jeftinije AI kodne agente koji mogu raditi na skromnijem hardveru.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Izvori
Povezane vijesti
arXiv:2604.24697: SciCrafter pokazuje da GPT-5.2, Gemini 3 Pro i Claude Opus 4.5 plateauiraju na ~26% u Minecraft discovery-to-application testu
AWS objavio kako graditi Strands Agente sa SageMaker AI modelima i MLflow observability: SageMakerAIModel provider, autolog tracing i A/B testiranje varijanti
OpenAI objavio Symphony: open-source specifikaciju za orkestraciju Codex agenata koja issue trackere pretvara u 'always-on' inženjerske sustave