ArXiv-Studie: In-Context-Prompting übertrifft LangGraph, CrewAI, Google ADK und OpenAI Agents SDK bei prozeduralen Aufgaben
In-Context-Prompting ist ein architektonischer Ansatz, bei dem der gesamte prozedurale Workflow direkt in den System-Prompt eingebettet wird, anstatt ihn über ein Framework zu orchestrieren. Eine ArXiv-Studie mit 200 Gesprächen pro Bedingung zeigt, dass dieser Ansatz LangGraph, CrewAI, Google ADK und OpenAI Agents SDK in drei Domänen übertrifft: Reisebuchung, technischer Zoom-Support und Bearbeitung von Versicherungsansprüchen.
Ein Team aus Simon Dennis, Michael Diamond, Rivaan Patil, Kevin Shabahang und Hao Guo veröffentlichte am 30. April 2026 auf ArXiv eine Studie mit einem provokanten Titel: „In-Context Prompting Obsoletes Agent Orchestration for Procedural Tasks.“ Die These, die sie vertreten: Die fortgeschrittenen Fähigkeiten heutiger Frontier-Modelle machen externe Orchestrierungs-Frameworks für eine bedeutende Klasse prozeduraler, mehrstufiger Aufgaben überflüssig.
Was macht In-Context-Prompting besser als Orchestrierung?
Der In-Context-Ansatz bettet den gesamten prozeduralen Workflow – Liste der Schritte, Verzweigungsbedingungen, Ausgabeformat, Eskalation – direkt in den System-Prompt eines einzelnen Modells ein. Orchestrierungs-Frameworks (LangGraph, CrewAI, Google ADK, OpenAI Agents SDK) teilen denselben Workflow in einen Graphen von Knoten auf und überlassen Modellaufrufe einer separaten Koordinationslogik. Die Autoren argumentieren, dass Frontier-Modelle inzwischen über ausreichende Selbstorchestierungsfähigkeiten verfügen, um komplexe Prozeduren innerhalb eines einzigen Aufrufs zu verfolgen, während graphbasierter Kontextwechsel Verluste einführt, die die Fehlerrate erhöhen.
Drei Domänen und konkrete Ergebnisse
Das Experiment wurde in drei Domänen durchgeführt: Reisebuchung, technischer Zoom-Support und Bearbeitung von Versicherungsansprüchen – jeweils mit 200 Gesprächen pro Bedingung und LLM-as-Judge-Bewertung nach fünf Qualitätskriterien. Die In-Context-Basislinie erreichte 4,53–5,00, während LangGraph als nächster Orchestrierer mit 4,17–4,84 zurückblieb. Die Fehlerraten waren noch unterschiedlicher: In-Context bei 11,5 %, 0,5 % und 5 % pro Domäne gegenüber Orchestrierung mit 24 %, 9 % und 17 %.
Was das für die Entwicklung von KI-Agenten bedeutet
Die Schlussfolgerung der Studie besagt nicht, dass Orchestrierungs-Frameworks universell überflüssig sind – sie haben nach wie vor eine Rolle bei Aufgaben, die parallele Abläufe, externen Speicher oder mehrere unabhängige Agenten erfordern. Für strukturierte prozedurale Aufgaben mit klaren Schritten legt diese Arbeit jedoch nahe, dass architektonische Einfachheit – ein einziger gut geschriebener System-Prompt – zuverlässiger ist als ein Graph von Knoten. Die Implikation für den KI-Agenten-Stack im Jahr 2026 lautet: Der erste Schritt beim Agenten-Design sollte sein, das Problem durch einen In-Context-Prompt zu lösen, bevor ein Framework hinzugezogen wird.
Häufig gestellte Fragen
- Welche Frameworks wurden verglichen?
- LangGraph, CrewAI, Google ADK und OpenAI Agents SDK wurden mit einer In-Context-Basislinie verglichen, die den Workflow direkt in den System-Prompt einbettet.
- Wie groß ist der Ergebnisbereich?
- Der In-Context-Ansatz erreicht 4,53–5,00 auf einer 1-5-Skala, während Orchestrierungs-Frameworks im Bereich 4,17–4,84 bleiben. Die Unterschiede bei der Fehlerrate sind noch größer: 11,5/0,5/5 % gegenüber 24/9/17 % pro Domäne.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
Verwandte Nachrichten
WindowsWorld-Benchmark: Führende Computer-Use-Agenten erreichen weniger als 21 % Erfolgsquote bei Aufgaben über mehrere Desktop-Anwendungen
GitHub Copilot in Visual Studio erhält Debugger-Agent und Cloud-Agent-Sitzungen direkt aus der IDE
ArXiv Odysseys: CMUs realistischer Web-Agenten-Benchmark zeigt, dass SOTA-Frontier-Modelle 44,5 % Erfolgsrate und 1,15 % Trajectory-Effizienz bei Langzeithorizontaufgaben erreichen