LangChain: Fino ugođeni Qwen-3.5-35B kao 'trace judge' 10–100× jeftiniji od frontier modela
LangChain je pokazao kako fino ugođeni Qwen-3.5-35B služi kao 'trace judge' — model koji ocjenjuje produkcijske tragove agenata i otkriva korisnički uočene greške. Uz LoRA fine-tuning na Fireworks infrastrukturi i oko 1.400 primjera, model postiže 96,1% točnosti na chat-langchain skupu naspram 91,6% za Claude Opus, uz 10 do 100 puta nižu cijenu. Fino ugođen na jednoj domeni, nadmašio je frontier modele na drugoj, što pokazuje prijenos među domenama.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
LangChain je objavio kako fino ugođeni Qwen-3.5-35B može zamijeniti skupe frontier modele u ulozi “trace judgea” — uz drastično nižu cijenu.
Što je ‘trace judge’ i koji problem rješava?
Trace judge je AI model koji ocjenjuje produkcijske tragove (traces) agenata kako bi otkrio greške koje korisnik primijeti — ispravke, odbijanja i ponovljene zahtjeve. Umjesto da ljudski timovi ručno pregledavaju tisuće interakcija, trace judge automatski označava problematične sesije. Izazov je što korištenje frontier modela za ovaj posao postaje skupo kad volumen tragova naraste.
Kako je LangChain trenirao model?
LangChain je kao osnovu uzeo Qwen-3.5-35B i proveo LoRA fine-tuning kroz Fireworksovu upravljanu SFT infrastrukturu. LoRA (Low-Rank Adaptation) je metoda finog ugađanja koja mijenja samo mali broj dodatnih parametara umjesto cijelog modela, čime je trening jeftiniji. SFT (Supervised Fine-Tuning) je nadzirano učenje na označenim primjerima. Skup za trening bio je malen — oko 707 primjera iz chat-langchain domene i 727 iz Fleet platforme.
Koliko je model dobar i jeftin?
Fino ugođeni model postigao je 96,1% točnosti na chat-langchain skupu, naspram 91,6% za Claude Opus i 98,9% za GPT-4.5. Ključni rezultat je prijenos među domenama: model ugođen na chat-langchain podacima nadmašio je sve frontier modele na Fleet podacima (90,8% naspram 90,2% za Claude Opus). Pritom je 10 do 100 puta jeftiniji, a ušteda raste s volumenom tragova.
Kada postaje dostupno?
LangChain najavljuje uvođenje za odabrane korisnike u nadolazećim tjednima, uz širu dostupnost za jedan do dva mjeseca. Pristup pokazuje obrazac u kojem mali, specijalizirani i fino ugođeni modeli preuzimaju uske, ponavljajuće zadatke evaluacije od općenitih frontier modela.
Česta pitanja
- Što je 'trace judge'?
- AI model koji ocjenjuje produkcijske tragove agenata i otkriva korisnički uočene greške poput ispravaka, odbijanja i ponovljenih zahtjeva.
- Koliko je točan fino ugođeni model?
- Postiže 96,1% na chat-langchain skupu naspram 91,6% za Claude Opus; na drugoj domeni nadmašio je sve frontier modele.
- Koliko je jeftiniji?
- Od 10 do 100 puta jeftiniji od frontier modela, a ušteda raste s volumenom tragova.
Povezane vijesti
AWS: Strands Evals SDK automatizira otkrivanje kvarova AI agenata i analizu korijenskog uzroka
arXiv:2605.25707: AgentHijack benchmark otkriva kritičnu krhkost AI agenata pri upravljanju računalom
arXiv:2605.22502: Kompiliranjem agentskih workflowa u LLM težine postiže se near-frontier kvaliteta uz 100 puta nižu cijenu