arXiv TerminalWorld: Real-Env-Benchmark für KI-Agenten

TerminalWorld ist ein neuer Benchmark, der KI-Agenten auf echten Bash-, Git- und Dateioperationen in realen Linux-Prozessen evaluiert — ohne Simulation. Das von Zhaoyang Chu und Jiarui Hu geführte Acht-Autoren-Papier setzt einen neuen Maßstab für „Computer-Use”-Agenten und ist direkt relevant für Tools wie Claude Code, GitHub Copilot Workspace und den Agentenmodus von Cursor.

Das am 22. Mai 2026 veröffentlichte arXiv-Preprint TerminalWorld stellt einen neuen Benchmark zur Evaluierung von KI-Agenten auf realen Linux-Terminal-Aufgaben vor. Das von Zhaoyang Chu und Jiarui Hu geleitete Papier — insgesamt acht Autoren — entwarf einen Benchmark, der in echten Linux-Prozessen läuft, ohne die Simulation oder die sandboxed Mock-Umgebungen, die die meisten bisherigen Agenten-Benchmarks verwenden.

Warum ist eine echte Umgebung für einen Benchmark entscheidend?

Die meisten bisherigen Benchmarks für „Computer-Use”-Agenten — darunter OSWorld, AgentBench und WorkArena — setzen auf simulierte oder Mock-Umgebungen. Der technische Grund: Echte Linux-Prozesse laufen asynchron, können bei Netzwerk-Timeouts hängen bleiben, erzeugen unvorhersehbare Race Conditions im Dateisystem und erfordern langwieriges Warten auf externe Prozesse (apt install, git clone, npm build).

Simulation verdeckt all das. Ein Agent, der im simulierten Benchmark 85 Prozent erreicht, fällt in der Produktion auf 50 Prozent ab, weil die Realität Grenzfälle enthält, die die Simulation nicht abdeckt. TerminalWorld nutzt daher echte Prozesse — der Agent erhält Zugang zu einem echten Ubuntu-Container mit Shell, Dateisystem, Netzwerk und Tools wie git, docker, apt und curl.

Was misst der Benchmark konkret?

TerminalWorld umfasst drei Aufgabenkategorien mit insgesamt 240 Einzelszenarien:

Bash-One-Liner-Komposition (80 Aufgaben): Der Agent erhält eine textliche Beschreibung wie „Finde alle Dateien größer als 100 MB, die in den letzten 7 Tagen geändert wurden, und verschiebe sie in ein Backup-Verzeichnis unter Beibehaltung der Pfadstruktur.” Er muss einen oder mehrere Bash-Aufrufe generieren, die dies erledigen.

Git-Workflow (80 Aufgaben): Rebase-Szenarien mit Konflikten, Cherry-Pick über Branches hinweg, Bisect für Regressions-Bugs, Force-Push-Recovery, Submodule-Sync. Jede Aufgabe hat ein Git-Repository in einem bekannten Zustand und einen definierten erwarteten Endzustand.

Dateioperationen (80 Aufgaben): Rekursive Berechtigungskorrekturen, Log-Rotation mit Archivierung, Backup-Restore-Zyklen, Manipulation großer Verzeichnisbäume, Symlink-Behandlung über Dateisystemgrenzen hinweg.

Alle Aufgaben haben ein deterministisches Erfolgskriterium — ein automatischer Validator prüft den finalen Systemzustand ohne menschliche Intervention.

Welche Modelle wurden getestet und wie sind die Ergebnisse?

Das Papier testet vier Frontier-Modelle und drei Open-Source-Agenten-Frameworks:

Modell	Bash	Git	Dateiops	Gesamt
GPT-5	71 %	64 %	68 %	68 %
Claude Opus 4.7	68 %	71 %	65 %	68 %
Gemini 3 Pro	65 %	58 %	62 %	62 %
Llama 4 405B + Aider	54 %	49 %	51 %	51 %

Kein Modell überschreitet 70 Prozent auf dem vollständigen Benchmark-Set. Die Autoren interpretieren dies als Hinweis auf erheblichen Verbesserungsbedarf in zwei Dimensionen: bessere Tool-Use-Strategien (zu wissen, wann git status vs. git log vs. git reflog einzusetzen ist) und besseres Fehler-Recovery (wenn ein Bash-Befehl scheitert, generiert der Agent häufig einen identischen Retry statt die Ursache zu diagnostizieren).

Was bedeutet das für Tools wie Claude Code und Cursor?

TerminalWorld ist direkt relevant für Tools, die als „KI-Coding-Agenten” vermarktet werden: Claude Code (CLI mit Shell-Zugang), GitHub Copilot Workspace (chat-gesteuertes Editieren), Cursor-Agentenmodus, Aider (terminal-basiert). Die 68-Prozent-Scores für GPT-5 und Claude Opus 4.7 stammen von „nackten” Modellen ohne Orchestrierungs-Overlay — Produktions-Tools fügen eine Middle-Layer-Logik hinzu, die den Erfolg um 10–15 Prozent steigern kann.

Die Autoren schlagen vor, den Benchmark zum Standard für die Evaluierung künftiger Agenten-Releases zu machen, ähnlich der Rolle, die MMLU beim LLM-Intelligence-Testing spielt. Das Benchmark-Repository ist öffentlich und für alle Forscher zugänglich, die Ergebnisse reproduzieren oder neue Aufgaben hinzufügen möchten.

Häufig gestellte Fragen

Warum ist eine „echte Umgebung” in einem Benchmark wichtig?

Simulierte Benchmarks verbergen oft reale Grenzfälle — Race Conditions im Dateisystem, Abhängigkeitskonflikte in apt-Repositories, Netzwerk-Timeouts. TerminalWorld verwendet echte Linux-Prozesse, sodass der Agent tatsächliche Probleme lösen muss, keine idealisierten.

Was misst der Benchmark konkret?

Drei Aufgabenkategorien: Bash-One-Liner-Komposition (find/grep/awk/sed-Pipelines), Git-Workflow (Rebase, Cherry-Pick, Conflict Resolution) und Dateioperationen (rekursive Berechtigungskorrekturen, Backup-Restore, Log-Rotation). Alle Aufgaben haben ein deterministisches Erfolgskriterium.

Welche Modelle wurden getestet?

Das Papier vergleicht GPT-5, Claude Opus 4.7, Gemini 3 Pro und mehrere Open-Source-Modelle. Keines erreicht zuverlässig mehr als 70 Prozent auf dem vollständigen Benchmark-Set — ein deutlicher Hinweis auf Verbesserungsbedarf in der Agenten-Infrastruktur.

arXiv:2605.22535: TerminalWorld-Benchmark misst KI-Agenten auf echten Linux-Terminal-Aufgaben ohne Simulation

Warum ist eine echte Umgebung für einen Benchmark entscheidend?

Was misst der Benchmark konkret?

Welche Modelle wurden getestet und wie sind die Ergebnisse?

Was bedeutet das für Tools wie Claude Code und Cursor?

Häufig gestellte Fragen

Quellen

Verwandte Nachrichten