arXiv:2606.24855: OpenThoughts-Agent — otvoreni recepti za treniranje agentskih modela
OpenThoughts-Agent je otvoreni pipeline za kuriranje podataka za agentske jezične modele. Kroz 100+ ablacijskih eksperimenata tim je izgradio 100K primjera i finetunao Qwen3-32B koji postiže 44,8% na sedam agentskih benchmarka — nadmašujući sve postojeće open-source modele.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Što su „data recepti” za agentske modele?
Agentski modeli — jezični modeli koji autonomno planiraju i izvršavaju višekorake zadatke — zahtijevaju drugačiji tip podataka od klasičnih chat ili instruction-tuning setova. Istraživači s UC Berkeley, NYU i partnerskih institucija objavili su OpenThoughts-Agent, otvoreni pipeline koji sistematizira upravo taj proces kuriranja podataka.
Sto eksperimenata, jedan jasniji recept
Tim je proveo više od 100 kontroliranih ablacijskih eksperimenata — sustavnih usporedbi u kojima se mijenja jedan parametar dok ostali ostaju isti — kako bi identificirao koje odluke pri odabiru i filtriranju primjera najviše utječu na agentske sposobnosti modela. Rezultat je skup od 100.000 kuriranih primjera kojim su fino podesili Qwen3-32B.
Rezultati: +3,9 postotnih bodova iznad open-source konkurencije
Fino podešeni model postiže 44,8% prosječne točnosti na sedam agentskih benchmarka. To je +3,9 postotnih bodova više od dosadašnjeg lidera među otvorenim modelima, Nemotron-Terminal-32B (40,9%), što predstavlja mjerljiv napredak u domeni gdje su razlike rijetko dramatične.
Sve otvoreno
Pipeline, dataseti i modeli javno su dostupni na openthoughts.ai, što istraživačima bez pristupa vlastitičkim podatkovnim procesima omogućuje reproduciranje i izgradnju na vrhu ovog rada. Rad je predan 23. lipnja 2026.
Česta pitanja
- Što je OpenThoughts-Agent i čemu služi?
- OpenThoughts-Agent je otvoreni skup alata i podataka za treniranje LLM-ova koji autonomno izvršavaju zadatke u više koraka. Pipeline uključuje metode odabira i filtriranja primjera namijenjene isključivo agentskim sposobnostima.
- Koliko je bolji od prethodnih open-source modela?
- Fino podešeni Qwen3-32B postiže 44,8% prosječne točnosti na sedam agentskih benchmarka, što je +3,9 postotnih bodova više od dotad najboljeg otvorenog modela Nemotron-Terminal-32B s 40,9%.
Izvori
Povezane vijesti
Anthropic (Claude Code GitHub): Claude Code v2.1.185 poboljšava poruku pri zastoju streama
arXiv:2606.20517: Multi-LCB proširuje LiveCodeBench na 12 programskih jezika i otkriva Python overfitting kod 24 modela
UK AISI: Engineering Playbook otvara infrastrukturu za evaluaciju frontier modela u pet slojeva