ArXiv: TREX — zwei KI-Agenten automatisieren den gesamten LLM-Fine-Tuning-Prozess
TREX ist ein neues Multi-Agenten-System, das die komplette Fine-Tuning-Pipeline für große Sprachmodelle automatisiert — von der Anforderungsanalyse und Literaturrecherche bis zur Datenvorbereitung und Ergebnisbewertung. Das System modelliert den Experimentierprozess als Suchbaum und optimiert auf dem FT-Bench-Benchmark mit 10 realen Aufgaben konsistent die Modellleistung.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
Das Problem: Fine-Tuning erfordert zu viel menschlichen Aufwand
Das Fine-Tuning großer Sprachmodelle — der Prozess der Anpassung eines vortrainierten Modells an eine bestimmte Aufgabe — erfordert derzeit erhebliches menschliches Fachwissen. Ein Forscher muss Anforderungen analysieren, relevante Literatur durchsuchen, Daten vorbereiten, Hyperparameter auswählen, Experimente durchführen und Ergebnisse auswerten. Jeder dieser Schritte umfasst eine Reihe von Entscheidungen, die auf Erfahrung und Intuition beruhen.
Die Forscher Zerun Ma, Guoqiang Wang und Xinchen Xie schlagen TREX vor — ein System, das diesen gesamten Prozess mithilfe zweier koordinierter KI-Agenten automatisiert.
Wie funktioniert TREX?
Das System basiert auf zwei Modulen. Der Researcher (Forscher) übernimmt die Aufgaben der Anforderungsanalyse, der Literatur- und Datenquellensuche sowie der Formulierung von Trainingsstrategien. Der Executor (Ausführer) implementiert konkrete Experimente — von der Vorbereitung von Daten-Rezepten bis zum Starten des Trainings und der Bewertung der Ergebnisse.
Die zentrale Innovation ist die Modellierung des Experimentierprozesses als Suchbaum (Search Tree). Jeder Knoten im Baum stellt eine spezifische Trainingskonfiguration dar, und Äste führen zu Variationen. Das System kann Erkundungspfade effizient planen, Ergebnisse früherer Experimente wiederverwenden und Schlüsse aus iterativen Versuchen ziehen — anstatt jedes Experiment von Grund auf neu zu beginnen.
Ergebnisse auf dem FT-Bench-Benchmark
Zur Evaluierung entwickelten die Forscher FT-Bench — einen Benchmark mit 10 realen Aufgaben, die von der Optimierung grundlegender Fähigkeiten bis zur Verbesserung domänenspezifischer Leistungen reichen. Die Ergebnisse zeigen, dass der TREX-Agent „die Modellleistung bei Zielaufgaben konsistent optimiert”.
Für Teams, die regelmäßig Modelle feinabstimmen, verspricht TREX eine erhebliche Reduzierung von Zeit und Experimentierkosten — durch die Automatisierung von Routineschritten, die derzeit von teuren ML-Ingenieuren durchgeführt werden.
Häufig gestellte Fragen
- Was automatisiert TREX?
- Den vollständigen LLM-Fine-Tuning-Lebenszyklus: Anforderungsanalyse, Literatur- und Datensuche, Formulierung von Trainingsstrategien, Datenvorbereitung und Ergebnisbewertung.
- Wie nutzt TREX den Suchbaum?
- Es modelliert den Experimentierprozess als Suchbaum, bei dem jeder Knoten eine Trainingskonfiguration darstellt, was effizientes Planen, die Wiederverwendung früherer Ergebnisse und das Ziehen von Schlüssen aus iterativen Versuchen ermöglicht.
Verwandte Nachrichten
arXiv:2605.22502: Kompilierung agentischer Workflows in LLM-Gewichte liefert Near-Frontier-Qualität bei 100× niedrigeren Kosten
arXiv:2605.22794: MOSS zeigt Agenten, die sich durch Umschreiben ihres eigenen Quellcodes verbessern
arXiv:2605.22535: TerminalWorld-Benchmark misst KI-Agenten auf echten Linux-Terminal-Aufgaben ohne Simulation