🤖 24 AI
🟢 🤝 Agenten Donnerstag, 16. April 2026 · 2 Min. Lesezeit

ArXiv: TREX — zwei KI-Agenten automatisieren den gesamten LLM-Fine-Tuning-Prozess

Warum es wichtig ist

TREX ist ein neues Multi-Agenten-System, das die komplette Fine-Tuning-Pipeline für große Sprachmodelle automatisiert — von der Anforderungsanalyse und Literaturrecherche bis zur Datenvorbereitung und Ergebnisbewertung. Das System modelliert den Experimentierprozess als Suchbaum und optimiert auf dem FT-Bench-Benchmark mit 10 realen Aufgaben konsistent die Modellleistung.

Das Problem: Fine-Tuning erfordert zu viel menschlichen Aufwand

Das Fine-Tuning großer Sprachmodelle — der Prozess der Anpassung eines vortrainierten Modells an eine bestimmte Aufgabe — erfordert derzeit erhebliches menschliches Fachwissen. Ein Forscher muss Anforderungen analysieren, relevante Literatur durchsuchen, Daten vorbereiten, Hyperparameter auswählen, Experimente durchführen und Ergebnisse auswerten. Jeder dieser Schritte umfasst eine Reihe von Entscheidungen, die auf Erfahrung und Intuition beruhen.

Die Forscher Zerun Ma, Guoqiang Wang und Xinchen Xie schlagen TREX vor — ein System, das diesen gesamten Prozess mithilfe zweier koordinierter KI-Agenten automatisiert.

Wie funktioniert TREX?

Das System basiert auf zwei Modulen. Der Researcher (Forscher) übernimmt die Aufgaben der Anforderungsanalyse, der Literatur- und Datenquellensuche sowie der Formulierung von Trainingsstrategien. Der Executor (Ausführer) implementiert konkrete Experimente — von der Vorbereitung von Daten-Rezepten bis zum Starten des Trainings und der Bewertung der Ergebnisse.

Die zentrale Innovation ist die Modellierung des Experimentierprozesses als Suchbaum (Search Tree). Jeder Knoten im Baum stellt eine spezifische Trainingskonfiguration dar, und Äste führen zu Variationen. Das System kann Erkundungspfade effizient planen, Ergebnisse früherer Experimente wiederverwenden und Schlüsse aus iterativen Versuchen ziehen — anstatt jedes Experiment von Grund auf neu zu beginnen.

Ergebnisse auf dem FT-Bench-Benchmark

Zur Evaluierung entwickelten die Forscher FT-Bench — einen Benchmark mit 10 realen Aufgaben, die von der Optimierung grundlegender Fähigkeiten bis zur Verbesserung domänenspezifischer Leistungen reichen. Die Ergebnisse zeigen, dass der TREX-Agent „die Modellleistung bei Zielaufgaben konsistent optimiert”.

Für Teams, die regelmäßig Modelle feinabstimmen, verspricht TREX eine erhebliche Reduzierung von Zeit und Experimentierkosten — durch die Automatisierung von Routineschritten, die derzeit von teuren ML-Ingenieuren durchgeführt werden.

🤖

Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.