🟢 📦 Open Source Objavljeno: · 1 min čitanja ·

arXiv:2606.24855: OpenThoughts-Agent — otvoreni recepti za treniranje agentskih modela

arXiv:2606.24855 ↗

Editorial illustration: otvoreni laboratorij s robotskim agentima koji sortiraju podatkovne kartice u pipeline

OpenThoughts-Agent je otvoreni pipeline za kuriranje podataka za agentske jezične modele. Kroz 100+ ablacijskih eksperimenata tim je izgradio 100K primjera i finetunao Qwen3-32B koji postiže 44,8% na sedam agentskih benchmarka — nadmašujući sve postojeće open-source modele.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.

Što su „data recepti” za agentske modele?

Agentski modeli — jezični modeli koji autonomno planiraju i izvršavaju višekorake zadatke — zahtijevaju drugačiji tip podataka od klasičnih chat ili instruction-tuning setova. Istraživači s UC Berkeley, NYU i partnerskih institucija objavili su OpenThoughts-Agent, otvoreni pipeline koji sistematizira upravo taj proces kuriranja podataka.

Sto eksperimenata, jedan jasniji recept

Tim je proveo više od 100 kontroliranih ablacijskih eksperimenata — sustavnih usporedbi u kojima se mijenja jedan parametar dok ostali ostaju isti — kako bi identificirao koje odluke pri odabiru i filtriranju primjera najviše utječu na agentske sposobnosti modela. Rezultat je skup od 100.000 kuriranih primjera kojim su fino podesili Qwen3-32B.

Rezultati: +3,9 postotnih bodova iznad open-source konkurencije

Fino podešeni model postiže 44,8% prosječne točnosti na sedam agentskih benchmarka. To je +3,9 postotnih bodova više od dosadašnjeg lidera među otvorenim modelima, Nemotron-Terminal-32B (40,9%), što predstavlja mjerljiv napredak u domeni gdje su razlike rijetko dramatične.

Sve otvoreno

Pipeline, dataseti i modeli javno su dostupni na openthoughts.ai, što istraživačima bez pristupa vlastitičkim podatkovnim procesima omogućuje reproduciranje i izgradnju na vrhu ovog rada. Rad je predan 23. lipnja 2026.

Česta pitanja

Što je OpenThoughts-Agent i čemu služi?
OpenThoughts-Agent je otvoreni skup alata i podataka za treniranje LLM-ova koji autonomno izvršavaju zadatke u više koraka. Pipeline uključuje metode odabira i filtriranja primjera namijenjene isključivo agentskim sposobnostima.
Koliko je bolji od prethodnih open-source modela?
Fino podešeni Qwen3-32B postiže 44,8% prosječne točnosti na sedam agentskih benchmarka, što je +3,9 postotnih bodova više od dotad najboljeg otvorenog modela Nemotron-Terminal-32B s 40,9%.