SkillOpt: Microsoft Research behandelt Agenten-Instructiondateien als trainierbare Parameter
Microsoft Research hat SkillOpt veröffentlicht — ein System, das Skill-Dateien von Agenten durch einen iterativen Forward-Backward-Zyklus optimiert, ohne Modellgewichte anzupassen. Auf 52 Evaluierungszellen erzielte es beste oder gleichwertige Ergebnisse, und GPT-5.5 stieg mit optimierten Skills von 58,8 auf 82,3 Prozent durchschnittlicher Genauigkeit.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
Microsoft Research hat SkillOpt veröffentlicht — ein System, das ein bisher weitgehend ignoriertes Problem löst: Wie kann das Verhalten eines KI-Agenten systematisch verbessert werden, ohne die Modellgewichte anzutasten? Statt Fine-Tuning behandelt SkillOpt Instruktions- und Skill-Dateien als trainierbare Parameter und wendet einen Optimierungszyklus ausschließlich auf den Text an, den der Agent als Anweisungen erhält.
Forward-Backward-Update: wie ein Zyklus aussieht
Der Vorgang läuft in drei sich wiederholenden Schritten ab:
Forward Pass — das eingefrorene Zielmodell führt Aufgaben mit der aktuellen Version der Skill-Datei aus. Nichts im Modell ändert sich; das Einzige, was aufgezeichnet wird, ist die Trajektorie — die Abfolge von Aktionen und Zwischenergebnissen.
Backward Pass — ein separates Optimierungsmodell analysiert die Trajektorien und identifiziert Muster: Was hat funktioniert, was nicht, wo ist der Agent vom Kurs abgekommen. Auf Basis dieser Analyse schlägt es begrenzte Textbearbeitungen vor: Hinzufügen eines Satzes, Löschen einer Anweisung, Ersetzen einer Formulierung.
Update Step — die vorgeschlagenen Bearbeitungen durchlaufen ein Validierungstor. Akzeptiert werden nur solche, die das Ergebnis auf zurückgehaltenen Validierungsdaten verbessern. Abgelehnte Bearbeitungen fließen in eine Feedbackschleife für den nächsten Optimierungsaufruf ein, und auf Epochenebene werden langsamere Meta-Updates durchgeführt, die langfristige Erkenntnisse konsolidieren.
Der Mechanismus, der Prompt-Drift verhindert — eine Situation, in der sich die Skill-Datei durch akkumulierte Bearbeitungen zu Unsinn degeneriert — ist die Best-Version-Auswahl: Jede Bearbeitung muss besser als die aktuelle Version sein, nicht nur anders.
52 Evaluierungszellen: Konsistenz als zentraler Befund
Die Forscher testeten SkillOpt auf 6 Benchmarks (SearchQA, SpreadsheetBench, OfficeQA, DocVQA, LiveMathematicianBench, ALFWorld) × 7 Modelle × 3 Ausführungsmodi — insgesamt 52 Evaluierungszellen. Auf allen 52 erzielte SkillOpt beste oder gleichwertige Ergebnisse im Vergleich zu relevanten Baselines.
Die größten dokumentierten Sprünge, alle gemessen an GPT-5.5:
| Benchmark | Vorher | Nachher | Gewinn |
|---|---|---|---|
| Sechs-Benchmark-Durchschnitt | 58,8 % | 82,3 % | +23,5 Pp |
| SpreadsheetBench | 41,8 % | 80,7 % | +39,0 Pp |
| OfficeQA | 33,1 % | 72,1 % | +39,0 Pp |
| LiveMathematicianBench | 37,6 % | 66,9 % | +29,3 Pp |
Besonders bemerkenswert ist der OfficeQA-Optimierungsbefund: Eine Verbesserung von 39 Prozentpunkten wurde durch eine einzige Bearbeitung in der Skill-Datei erreicht. Das legt nahe, dass in bestehenden Instruktionen hochvalente Fehler stecken — Formulierungen, die den Agenten systematisch vom Kurs abbringen.
Kompaktheit und Übertragbarkeit
Die finalen Skill-Dateien enthalten median etwa 920 Token mit 1 bis 4 akzeptierten Bearbeitungen pro Fall. Die Kompaktheit ist kein Zufall — das Validierungstor filtert natürlich redundante Bearbeitungen heraus, die keine messbare Verbesserung bringen.
Die Übertragbarkeit ist auf mehreren Ebenen dokumentiert. Optimierung für einen Harness (z. B. Codex) brachte +24,8 Pp, und dieselben Skills auf dem Claude-Code-Harness lieferten +19,1 Pp ohne erneute Optimierung. Ein Cross-Harness-Transfer verzeichnete +59,7 Pp — was bedeutet, dass ein Agent mit für eine Plattform optimierten Skills die eigene Baseline auf einer völlig anderen überbot.
Warum unterscheidet sich das von Prompt Engineering?
Manuelles Prompt Engineering ist iterativ, aber nicht systematisch. Ingenieure ändern Anweisungen nach Intuition, ohne quantitatives Feedback zu jeder Bearbeitung und ohne Mechanismus, der Regression verhindert. SkillOpt formalisiert diesen Prozess: Jede Änderung wird gemessen, jeder Schritt ist auditierbar, und das finale Artefakt — die optimierte Skill-Datei — kann versioniert, geteilt und auf jedes kompatible Modell angewendet werden.
Für Organisationen, die bereits über Agenteninfrastruktur verfügen, ist die Implikation klar: Das Modell muss nicht besser werden, damit der Agent besser wird. Es genügt, den Text, den das Modell erhält, systematisch zu optimieren.
Häufig gestellte Fragen
- Muss das Modell fine-getuned werden, damit SkillOpt funktioniert?
- Nein. Die Modellgewichte bleiben vollständig eingefroren — SkillOpt ändert ausschließlich die textuellen Skill-Dateien, die der Agent als Anweisungen erhält.
- Wie groß sind die optimierten Skills?
- Die mediane Länge optimierter Skill-Dateien beträgt etwa 920 Token, mit nur 1 bis 4 akzeptierten textuellen Bearbeitungen pro Optimierungsvorgang.
- Lassen sich erlernte Skills zwischen verschiedenen Modellen übertragen?
- Ja. Optimierte Skills erwiesen sich als übertragbar zwischen Modellen unterschiedlicher Größe und verschiedenen Ausführungsumgebungen, mit einem dokumentierten Cross-Harness-Transfer, der eine Verbesserung von 59,7 Prozentpunkten brachte.
Verwandte Nachrichten
TRIAGE: Wie man den richtigen Token in agentischem Reinforcement Learning Verdienst zuweist
Claude Sonnet 5 in GitHub Copilot und Agent Mode in JetBrains: Doppelschlag für Entwicklerteams
arXiv:2606.27483: Internalizing the Future — einheitliches Training-Paradigma für World-Model-Planning von LLM-Agenten