LangChain Harness-Profile: +20 Pkt. im tau2-Bench

LangChain stellte am 29. April 2026 ein Harness-Profil-System für Deep Agents vor, das es ermöglicht, denselben Code ohne Änderungen mit Anthropic-, OpenAI- und Google-Modellen zu verwenden. Das Profil wendet automatisch modellspezifische System-Prompts, Tools und Middleware an. Im tau2-Bench stieg GPT-5.3 Codex von 33 % auf 53 % Genauigkeit, Claude Opus 4.7 von 43 % auf 53 % – Forscher schlussfolgern, dass ein einziges Harness nicht für jedes Modell optimal sein kann.

LangChain stellte am 29. April 2026 das Harness-Profil-System für seine Deep-Agents-Bibliothek vor. Das System löst ein Problem, das aufgetreten ist, als Agenten in der Produktion begannen, LLMs zu wechseln: Eine einzige Konfiguration aus System-Prompt, Tools und Middleware, die mit einem Modell optimal funktioniert, liefert mit einem anderen in der Regel schlechtere Ergebnisse. LangChain schlussfolgert, dass das Harness nicht geteilt werden darf – jedes Modell braucht sein eigenes.

Was ändern Harness-Profile in einem Deep Agent?

Ein Profil ist eine Konfiguration, die drei Dinge kapselt: einen modellspezifischen System-Prompt (Struktur, Ton, Beispiele), ein Tool-Set in dem Format, das das LLM am besten versteht, sowie Middleware-Logik (z. B. wie ein Tool-Ergebnis im nächsten Turn zurückgegeben wird). Der Entwickler tauscht im Code lediglich das Profil aus – der Aufrufcode bleibt gleich. Aktuelle integrierte Profile decken Anthropic-, OpenAI- und Google-Modelle ab; die Community kann eigene Profile für andere Anbieter beitragen.

Um wie viel genau verbessern sich die Ergebnisse im tau2-Bench?

LangChain testete vorher/nachher im tau2-Bench, einer Standardevaluierung für Long-Horizon-Agenten. GPT-5.3 Codex stieg von 33 % Genauigkeit auf 53 % (+20 Prozentpunkte), Claude Opus 4.7 von 43 % auf 53 % (+10 Prozentpunkte). Beide Modelle erreichen dieselbe Genauigkeit, jedoch von unterschiedlichen Ausgangspositionen. Die Verbesserung ist in beiden Fällen bedeutend, da sie zeigt, dass das Standard-LangChain-Harness für keines der beiden Modelle optimal war.

Was bedeutet dies für Multi-Modell-Pipelines?

LangChains Kommentar fasst es zusammen: „A single harness can’t be optimal for every model.” Entwicklungsteams, die in der Produktion mehrere Modelle parallel verwenden (z. B. Claude für Reasoning, GPT für Coding, Gemini für multimodale Aufgaben), können jetzt dieselbe Deep-Agents-Architektur nutzen und dabei ohne Code-Umschreiben Dutzende Prozentpunkte gewinnen. Der Ansatz fügt sich in den breiteren Industrietrend von Infrastruktur-Layern für Agenten ein: AWS Bedrock AgentCore, Anthropic Claude Code und Mistral Vibe gehen diese Woche in dieselbe Richtung – Standardisierung des Agent-Stacks bei Flexibilität gegenüber dem Anbieter.

Häufig gestellte Fragen

Was ist ein Harness-Profil in LangChain Deep Agents?

Eine Konfiguration, die einen modellspezifischen System-Prompt, ein Tool-Set und Middleware-Optionen enthält. Der Entwickler wählt das Profil je nach verwendetem LLM aus, und derselbe Aufrufcode funktioniert ohne Änderungen mit Anthropic-, OpenAI- und Google-Modellen.

Um wie viel verbessert ein Harness-Profil die Leistung?

Im tau2-Bench stieg GPT-5.3 Codex von 33 % auf 53 % Genauigkeit (+20 Prozentpunkte), Claude Opus 4.7 von 43 % auf 53 % (+10 Prozentpunkte). Beide Modelle erreichen dieselbe Genauigkeit, starteten jedoch von unterschiedlichen Ausgangspunkten.

Warum funktioniert ein einziges Harness nicht?

Unterschiedliche Modelle reagieren unterschiedlich auf System-Prompts, Tool-Formate und Middleware-Logik. Anthropic-Modelle bevorzugen strukturierte XML-Anweisungen, OpenAI funktioniert besser mit Function-Calling-Schemata, Google-Modelle haben ihr eigenes Format. Das Profil passt all das modellspezifisch an.

LangChain Harness-Profile für Deep Agents: GPT-5.3 Codex springt von 33 % auf 53 % im tau2-Bench, Opus 4.7 von 43 % auf 53 %

Was ändern Harness-Profile in einem Deep Agent?

Um wie viel genau verbessern sich die Ergebnisse im tau2-Bench?

Was bedeutet dies für Multi-Modell-Pipelines?

Häufig gestellte Fragen

Quellen

Verwandte Nachrichten