Microsoft Research Synthetic Computers: 1.000 synthetische Computer als Substrat für das Long-Horizon-Training produktiver KI-Agenten
Microsoft Research stellt eine Methodik zur Generierung von 1.000 realistischen synthetischen Computerumgebungen mit authentischen Ordnerhierarchien und Dokumenten vor. Zwei Agenten arbeiten in jeder Umgebung zusammen — einer erstellt produktivitätsspezifische Ziele für das Nutzerprofil, der andere führt sie durch Sequenzen aus, die im Durchschnitt 2.000+ Schritte und 8+ Stunden Agentenarbeit umfassen. Die Autoren behaupten, der Ansatz könne auf Milliarden synthetischer Welten skalieren und stellt ein grundlegendes Substrat für die Selbstverbesserung von Agenten dar.
Forscher von Microsoft Research (Tao Ge, Baolin Peng, Hao Cheng, Jianfeng Gao) haben eine Methodik zur Generierung realistischer synthetischer Computerumgebungen vorgestellt, die produktive Arbeitsabläufe jenseits der Reichweite bestehender Agenten-Benchmarks simulieren. Das Ziel der Arbeit ist infrastruktureller Natur — einen Unterbau bereitzustellen, auf dem Long-Horizon-Agenten in einem Maßstab trainiert und evaluiert werden können, der manuell kuratierte Datensätze übersteigt.
Was genau sind „synthetische Computer”?
Jeder synthetische Computer enthält eine authentische Ordnerhierarchie mit Dokumenten und Artefakten, die eine echte Arbeitsumgebung nachahmt — keine sterile Sandbox, sondern ein Dateisystem mit kontextuell verbundenem Inhalt. Zwei Agenten arbeiten in diesem Raum zusammen:
- Der Generator erstellt produktive Ziele, die spezifisch für das Nutzerprofil der Umgebung sind — Aufgaben, die „mehrere professionelle Ergebnisse und ungefähr einen Monat menschlicher Arbeit erfordern”.
- Der Executor übernimmt die Rolle des Nutzers und arbeitet sich durch den Computer — navigiert in Dateien, erstellt neue Artefakte und führt Aufgaben über einen langen Zeitraum konsistent aus.
Was sind die Kennzahlen?
Drei metrische Größen definieren den Rahmen der Arbeit:
- 1.000 synthetische Computer wurden im Rahmen der Arbeit generiert
- Durchschnittlich über 2.000 Schritte pro Simulation
- Mehr als 8 Stunden Agentenarbeit für den Abschluss einer Simulation
Dies ist eine erhebliche Abkehr von früheren Agenten-Benchmarks wie SWE-Bench, GAIA oder AgentBench, bei denen einzelne Aufgaben selten einige Dutzend Schritte überschreiten. Die Long-Horizon-Dimension ist entscheidend — die Autoren zielen auf eine Klasse von Agenten ab, die stundenlang ohne menschliche Intervention autonom arbeiten können.
Wie weit kann skaliert werden?
Die Hauptthese der Arbeit ist die infrastrukturelle Skalierbarkeit. Die Autoren behaupten, dass die Methodik „im Prinzip auf Millionen oder Milliarden synthetischer Nutzerwelten skalieren kann, sofern ausreichende Rechenressourcen vorhanden sind”. Damit würde eine Vielfalt von Berufen und Kontexten abgedeckt — von technischen Arbeitsabläufen über Marketingpläne bis hin zu administrativen Aufgaben — was eine Voraussetzung für das Training von Agenten ist, die über den engen Aufgabensatz einer Entwickler-Sandbox hinaus generalisieren.
Die Autoren positionieren die Arbeit als „grundlegendes Substrat für die Selbstverbesserung von Agenten” — Agenten, die ihre eigenen Trainingsdaten in simulierten Welten generieren und sich auf Basis ihrer eigenen Fehler korrigieren können. Wenn sich der Ansatz als reproduzierbar erweist, könnte dies eine der Schlüsselkomponenten der nächsten Generation produktiver KI-Systeme sein: nicht nur bessere Modelle, sondern eine prozedurale Ökonomie synthetischer Erfahrung, durch die Modelle trainiert werden.
Häufig gestellte Fragen
- Was sind synthetische Computer in dieser Arbeit?
- Realistische simulierte Computerumgebungen mit authentischen Ordnerhierarchien, Dokumenten und Artefakten. Das Ziel ist, dass KI-Agenten darin wie echte Nutzer arbeiten können — im Dateisystem navigieren, Artefakte erstellen und produktive Aufgaben ausführen.
- Wie lange dauern die Simulationen?
- Durchschnittlich über 2.000 Schritte und mehr als 8 Stunden Agentenarbeit pro Simulation. Das ist deutlich länger als die meisten bisherigen Agenten-Benchmarks, die auf Aufgaben von einigen Dutzend Schritten abzielen.
- Was sind die Skalierungspläne?
- Die Autoren behaupten, dass die Methodik im Prinzip auf Millionen oder Milliarden synthetischer Nutzerwelten skalieren kann, sofern ausreichende Rechenressourcen vorhanden sind, und dabei diverse Berufe und Kontexte abdeckt.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
Verwandte Nachrichten
AWS Transform automatisiert BI-Dashboard-Migration von Tableau und Power BI nach QuickSight in Tagen statt Monaten
ArXiv-Studie: In-Context-Prompting übertrifft LangGraph, CrewAI, Google ADK und OpenAI Agents SDK bei prozeduralen Aufgaben
WindowsWorld-Benchmark: Führende Computer-Use-Agenten erreichen weniger als 21 % Erfolgsquote bei Aufgaben über mehrere Desktop-Anwendungen