LangChain RLM-Agenten: 79 % besser bei 128k Tokens

LangChain hat im DeepAgents-Framework Recursive Language Models (RLM) eingeführt — ein Ansatz, bei dem Modelle sich selbst über Eingabe-Ausschnitte aufrufen, statt den gesamten Kontext in ein einziges Fenster zu laden. Im OOLONG-Benchmark mit 128k Tokens erreichten RLM-Agenten einen Score von 0,79 gegenüber 0,44 bei Standardagenten — eine Verbesserung von 79 Prozent.

LangChain hat einen detaillierten Leitfaden und ein Framework für Recursive Language Models (RLM) innerhalb seines DeepAgents-Ökosystems veröffentlicht — ein Ansatz, der eines der chronischen Probleme von LLM-Agenten adressiert: den Leistungsabfall bei langen Kontexten, bekannt als „Context Rot”.

Warum verlieren Standardagenten bei langen Kontexten?

Wenn ein Agent größere Informationsmengen akkumuliert — frühere Nachrichten, Tool-Ergebnisse, Zwischenergebnisse — landet alles in einem einzigen Kontextfenster. Die Modelle beginnen dabei, relevante Details aus früheren Kontextteilen zu übersehen, Anweisungen zu ignorieren oder Informationen falsch zu priorisieren. Bei Aufgaben mit 128k Tokens versagen Standardagenten in Tests regelmäßig oder brechen vollständig ab.

Der RLM-Ansatz, entwickelt von den Forschern Alex Zhang und MIT CSAIL, löst dieses Problem durch eine strukturelle Änderung: Anstatt die gesamte Eingabe in das Kontextfenster zu laden, lädt das Modell sie als Variable in eine REPL-Umgebung und ruft sich selbst — oder Sub-Agenten — rekursiv über kleinere, handhabbare Ausschnitte auf.

Wie RLM-Orchestrierung funktioniert

Der Kern des Ansatzes ist die code-gesteuerte Orchestrierung über einen leichtgewichtigen Code-Interpreter (QuickJS). Das Modell schreibt Code, der die Aufgabe zerlegt und rekursive Aufrufe über Datensegmente startet. LangChain implementiert dies über „dynamische Sub-Agenten” — Sub-Agenten, die programmatisch über Code dispatcht werden, nicht durch sequenzielle Tool-Aufrufe.

Der entscheidende Vorteil dieser Architektur ist die deterministische Abdeckung: Schleifen im Code garantieren, dass jedes Element verarbeitet wird, im Gegensatz zu Ansätzen, bei denen das Modell selbst einschätzt, was gelesen werden muss. Pipelines können je nach Aufgabenanforderungen verzweigt, parallelisiert oder sequenziert werden. Zusätzlich ermöglicht das Mischen verschiedener Modelle in Orchestrator- und Sub-Agenten-Ebenen eine präzise Kostenoptimierung — teurere Modelle für komplexere Schritte reservieren, günstigere für Routineaufgaben.

Benchmark-Ergebnisse

LangChain testete den Ansatz mit dem OOLONG-Benchmark — Klassifizierung von Nachrichten aus dem AgNews-Datensatz in vier Kategorien — bei verschiedenen Kontextlängen:

Kontextlänge	Ohne REPL	Mit REPL (RLM)
64k Tokens	0,58	0,67
128k Tokens	0,44	0,79

Bei 128k Tokens erzielten RLM-Agenten einen Score von 0,79 gegenüber 0,44 bei Standardagenten — eine relative Verbesserung von 79 Prozent. Bei dieser Kontextlänge versagten Standardagenten in einer erheblichen Anzahl von Fällen vollständig. RLM-Agenten behielten trotz der inherent höheren Latenz des rekursiven Ansatzes eine hohe Genauigkeit.

Installation und Codebeispiel

Das Einrichten des DeepAgents-Frameworks mit RLM-Unterstützung erfolgt mit einem einzigen Befehl:

pip install -U "deepagents[quickjs]"

Grundlegende Agenten-Initialisierung:

from deepagents import create_deep_agent
from langchain_quickjs import CodeInterpreterMiddleware

agent = create_deep_agent(
    model="openai:gpt-5.5",
    middleware=[CodeInterpreterMiddleware()],
)

Die RLM-Orchestrierung wird durch das Einbeziehen des Schlüsselworts „workflow” im Prompt aktiviert, was dem Agenten signalisiert, dynamisches Sub-Agenten-Dispatching zu verwenden. Das Framework unterstützt das Mischen von Modellen über Ebenen, sodass Nutzer verschiedene LLMs für Orchestrator und Sub-Agenten angeben können.

Der Ansatz ist mit bestehenden LangChain-Ökosystem-Tools kompatibel und erfordert keine Infrastrukturänderungen — nur ein Paket-Upgrade und das Hinzufügen der Middleware-Schicht bei der Agenten-Initialisierung.

Häufig gestellte Fragen

Was sind Recursive Language Models (RLM) und wozu sind sie nützlich?

RLMs laden Eingaben als Variablen in einer REPL-Umgebung und rufen sich selbst oder Sub-Agenten rekursiv über kleinere Ausschnitte auf. Ziel ist es, „Context Rot” zu vermeiden — den Leistungsabfall, der entsteht, wenn ein Agent zu viel Kontext in einem einzigen Fenster akkumuliert.

Wie werden RLM-Agenten installiert und aktiviert?

Die Installation erfolgt mit `pip install -U „deepagents[quickjs]”`, und die RLM-Orchestrierung wird durch Übergabe von `CodeInterpreterMiddleware` bei der Agentenerstellung mit `create_deep_agent` aktiviert.

Welche Vorteile bietet code-gesteuerte Orchestrierung gegenüber Standard-LLM-Agenten?

Code garantiert deterministische Abdeckung jedes Elements durch Schleifen — im Gegensatz zu Modellen, die selbst einschätzen, was verarbeitet werden soll. Pipelines können verzweigt, parallelisiert oder sequenziert werden, und die Kosten lassen sich durch Mischen verschiedener Modelle in Orchestrator- und Sub-Agenten-Ebenen optimieren.

LangChain führt RLM-Agenten ein: Rekursive Modelle erzielen 79 % bessere Ergebnisse bei langen Kontexten

Warum verlieren Standardagenten bei langen Kontexten?

Wie RLM-Orchestrierung funktioniert

Benchmark-Ergebnisse

Installation und Codebeispiel

Häufig gestellte Fragen

Quellen

Verwandte Nachrichten