OpenThoughts-Agent: Datenrezepte für KI-Agenten

OpenThoughts-Agent ist eine offene Pipeline zur Datenkuration für agentische Sprachmodelle. Nach über 100 Ablationsexperimenten erstellte das Team 100.000 Beispiele und feinabstimmte Qwen3-32B, das auf sieben agentischen Benchmarks 44,8 % erreicht — besser als alle bisherigen Open-Source-Modelle.

Was sind „Datenrezepte” für agentische Modelle?

Agentische Modelle — Sprachmodelle, die autonom mehrschrittige Aufgaben planen und ausführen — erfordern einen anderen Datentyp als klassische Chat- oder Instruction-Tuning-Sets. Forscher der UC Berkeley, NYU und Partnerinstitutionen haben OpenThoughts-Agent veröffentlicht, eine offene Pipeline, die genau diesen Datenkurationsprozess systematisiert.

Hundert Experimente, ein klareres Rezept

Das Team führte mehr als 100 kontrollierte Ablationsexperimente durch — systematische Vergleiche, bei denen jeweils ein Parameter variiert wird, während alle anderen konstant bleiben — um zu ermitteln, welche Entscheidungen bei der Auswahl und Filterung von Beispielen die agentischen Fähigkeiten am stärksten beeinflussen. Das Ergebnis ist ein Satz von 100.000 kuratierten Beispielen, mit denen Qwen3-32B feinabgestimmt wurde.

Ergebnisse: +3,9 Prozentpunkte gegenüber Open-Source-Konkurrenz

Das feinabgestimmte Modell erreicht 44,8 % durchschnittliche Genauigkeit auf sieben agentischen Benchmarks. Das sind +3,9 Prozentpunkte mehr als der bisherige Spitzenreiter unter den offenen Modellen, Nemotron-Terminal-32B (40,9 %) — ein messbarer Fortschritt in einem Bereich, in dem Unterschiede selten dramatisch sind.

Alles offen zugänglich

Pipeline, Datensätze und Modelle sind auf openthoughts.ai öffentlich verfügbar, sodass Forschende ohne Zugang zu proprietären Datenprozessen die Ergebnisse reproduzieren und darauf aufbauen können. Die Arbeit wurde am 23. Juni 2026 eingereicht.

Häufig gestellte Fragen

Was ist OpenThoughts-Agent und wofür wird es verwendet?

OpenThoughts-Agent ist ein offenes Werkzeug- und Datenpaket für das Training von KI-Sprachmodellen, die Aufgaben autonom in mehreren Schritten ausführen. Die Pipeline umfasst Methoden zur Auswahl und Filterung von Beispielen, die ausschließlich auf agentische Fähigkeiten ausgerichtet sind.

Um wie viel übertrifft es bisherige Open-Source-Modelle?

Das feinabgestimmte Qwen3-32B erreicht 44,8 % durchschnittliche Genauigkeit auf sieben agentischen Benchmarks — das sind 3,9 Prozentpunkte mehr als das bisher führende offene Modell Nemotron-Terminal-32B mit 40,9 %.

arXiv:2606.24855: OpenThoughts-Agent — offene Rezepte für das Training agentischer Modelle

Was sind „Datenrezepte” für agentische Modelle?

Hundert Experimente, ein klareres Rezept

Ergebnisse: +3,9 Prozentpunkte gegenüber Open-Source-Konkurrenz

Alles offen zugänglich

Häufig gestellte Fragen

Quellen

Verwandte Nachrichten