Google ReasoningBank: Agenten lernen aus Erfahrung ohne Retraining, +8,3% Erfolg auf WebArena
Warum es wichtig ist
Google hat ReasoningBank vorgestellt, ein Speicher-Framework, das KI-Agenten ermöglicht, aus eigenen Erfolgen und Misserfolgen zu lernen, ohne das Sprachmodell neu zu trainieren. Auf dem WebArena-Benchmark wurde eine 8,3% höhere Erfolgsrate erzielt, auf SWE-Bench-Verified 4,6% mit etwa 3 Schritten weniger pro Aufgabe.
Google ReasoningBank: Agenten lernen aus Erfahrung ohne Retraining, +8,3% Erfolg auf WebArena
Google Research hat ReasoningBank vorgestellt — ein neues Speicher-Framework, das KI-Agenten ermöglicht, aus eigenen vergangenen Versuchen zu lernen, sowohl aus erfolgreichen als auch aus erfolglosen, ohne das Sprachmodell erneut trainieren zu müssen. Die Ergebnisse zeigen einen signifikanten Anstieg der Erfolgsrate auf zwei anspruchsvollen Benchmarks.
Was ist passiert?
ReasoningBank ist ein Framework, das als „kontinuierliche geschlossene Schleife aus Abruf, Extraktion und Konsolidierung” funktioniert — so beschreiben es die Autoren im Forschungsblog von Google. Bevor ein Agent eine Aktion ausführt, ruft er relevante Erinnerungen aus der Datenbank ab; nach Abschluss einer Aufgabe bewertet ein LLM-as-a-Judge das Ergebnis und destilliert die Erkenntnisse in einen neuen Speichereintrag.
Jeder Speichereintrag enthält drei Teile: einen prägnanten Titel, der die Strategie identifiziert, eine kurze beschreibende Zusammenfassung und destillierte Schlussfolgerungsschritte oder operative Erkenntnisse aus vergangenen Erfahrungen. Diese Struktur ermöglicht dem Agenten, relevante Strategien schnell zu suchen und auf neue Aufgaben anzuwenden.
Das Besondere an ReasoningBank ist die Betonung des Lernens aus Misserfolgen. Während konkurrierende Ansätze wie Synapse erschöpfende Aktionspfade speichern und Agent Workflow Memory sich nur auf erfolgreiche Versuche konzentriert, „destilliert ReasoningBank Fehler in präventive Lektionen” und baut auf, was Forscher als „strategische Leitplanken” bezeichnen.
Warum ist das wichtig?
Auf dem WebArena-Benchmark — dem Standard für Web-Navigation — erzielte ReasoningBank eine um 8,3% höhere Erfolgsrate im Vergleich zu Agenten ohne Speicher. Auf SWE-Bench-Verified, einem anspruchsvollen Benchmark zur Lösung von Software-Engineering-Aufgaben in echten GitHub-Repositories, betrug der Gewinn 4,6% mit etwa 3 Schritten weniger pro Aufgabe.
Der entscheidende praktische Aspekt ist, dass für diese Gewinne keine Änderung der Modellgewichte erforderlich ist. Das bedeutet, dass Entwicklungsteams ReasoningBank auf bestehende LLMs (Gemini, GPT, Claude) aufsetzen können, ohne aufwendiges Fine-Tuning oder den Verlust von Modellgarantien.
Für Enterprise-Anwendungen öffnet dies die Tür zu Agenten, die sich während des Deployments verbessern — jeder Vorfall, jede fehlgeschlagene Aktion wird zu Lernmaterial statt nur zur Statistik im Protokoll. Das ist eine direkte Umsetzung dessen, was die Branche seit Langem fordert: Agenten, die institutionelles Wissen akkumulieren.
Das Forschungsteam wird von Jun Yan und Chen-Yu Lee von Google Cloud geleitet, zusammen mit 15 weiteren Forschern, darunter Siru Ouyang, Jiawei Han und Tomas Pfister.
Wie unterscheidet sich ReasoningBank von früheren Ansätzen?
Bisher gab es zwei Hauptansätze für Agentenspeicher. Der erste, Synapse, speichert erschöpfende Aktionspfade — jeden Klick, jede Eingabe, jede Tool-Antwort. Das Problem ist, dass dieser Ansatz schnell zu spezifisch für eine konkrete Aufgabe wird und sich schwer auf neue Situationen übertragen lässt.
Der zweite Ansatz, Agent Workflow Memory, konzentriert sich nur auf erfolgreiche Pfade — der Agent lernt, was funktioniert, aber nicht, warum etwas nicht funktioniert. ReasoningBank argumentiert, dass dies einschränkend ist, weil Agenten öfter scheitern als erfolgreich sind, sodass der größte Verbesserungsspielraum genau im Lernen aus Misserfolgen liegt.
Der dritte Unterschied ist das Abstraktionsniveau. Statt roher Aktionen oder Ergebnisse destilliert ReasoningBank Schlussfolgerungsmuster — „Strategien”. Das bedeutet, dass Erfahrungen aus Aufgaben auf einer Website bei einer völlig anderen Website helfen können, weil die Strategie domänenübergreifend übertragbar ist.
Was kommt als Nächstes?
Neben dem Framework selbst hat Google auch MaTTS (Memory-Aware Test-Time Scaling) vorgestellt — eine Technik, die Speicher nutzt, um zur Inferenzzeit durch zwei Ansätze zu skalieren: parallele Exploration (gleichzeitige Generierung mehrerer Pfade) und sequenzielle Verfeinerung (iterative Verbesserung eines einzelnen Pfades). Diese Ergänzung ist besonders interessant, weil sie zeigt, dass Speicher- und Compute-Skalierung keine konkurrierenden, sondern synergistische Mechanismen sind.
Der nächste Schritt wird die Integration von ReasoningBank in Googles Produktagenten sein — wahrscheinlich den Gemini Deep Research-Agenten und Googles Coding-Tools. Für Entwicklungsteams, die mit eigenen Agenten experimentieren, ist die Kernlektion, dass einfaches Speichern von „was gut lief” nicht ausreicht — der wahre Wert liegt in der Fehleranalyse und der Destillation übertragbarer Schlussfolgerungsmuster, nicht nur von Aktionspfaden.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
Verwandte Nachrichten
Anthropic: Memory für Managed Agents in öffentlicher Beta — KI-Agenten, die Kontext zwischen Sitzungen behalten
GitHub: Cloud-Agent-Sitzungen jetzt direkt aus Issues und Projektansichten verfügbar
ArXiv SWE-chat — ein Datensatz realer Entwicklerinteraktionen mit KI-Coding-Agenten in der Produktion