FORGE: KI-Agenten-Gedächtnis ohne Fine-Tuning

arXiv:2605.16233 präsentiert FORGE, eine Methode, mit der LLM-Agenten durch populationsbasiertes Erfahrungsaustausch ein gemeinsames Gedächtnis aufbauen — ohne jegliche Aktualisierung der Modellgewichte. Bei der Netzwerkverteidigung CybORG CAGE-2 erzielt FORGE 1,7–7,7× bessere Ergebnisse als die Null-Baseline, besonders bei schwächeren Modellen.

Ein Forschungsteam der Carleton University und des kanadischen Verteidigungsministeriums veröffentlichte die Arbeit FORGE (Failure-Optimized Reflective Graduation and Evolution) — ein System, in dem LLM-Agenten kollektiv Gedächtnis aufbauen und teilen, ohne dass ein einziger Modellparameter geändert wird. Die Ergebnisse bei der Benchmark-Aufgabe zur Netzwerkverteidigung zeigen eine Verbesserung von 1,7 bis 7,7 Mal gegenüber der Null-Baseline.

Das Problem: teures Lernen auf Kosten der Flexibilität

Der Standardansatz zur Verbesserung von LLM-Agenten ist Fine-Tuning — ein Verfahren, bei dem Gradient Descent Milliarden von Gewichten eines neuronalen Netzes auf einem spezifischen Datensatz aktualisiert. Dieser Prozess erfordert GPU-Stunden, annotierte Beispiele und friert das Modell zum Zeitpunkt des Trainings ein. Jede neue Domäne oder Aufgabe erfordert eine neue Trainingsrunde.

FORGE geht einen anderen Weg: Statt das Modell selbst zu verändern, baut es ein Shared Memory auf — eine gemeinsame textuelle Basis aus Regeln und Demonstrationen, die in natürlicher Sprache in Agenten-Prompts eingefügt wird.

Wie FORGE Fine-Tuning umgeht

Das System operiert in zwei gekoppelten Zyklen. Die innere Schleife generiert durch Beobachtung fehlgeschlagener Episoden wiederverwendbare Wissensartefakte — textuelle Heuristiken (Rules) oder konkrete Demonstrationen erfolgreicher Züge (Examples). Die äußere Schleife propagiert dann das Gedächtnis des besten Agenten zwischen den Entwicklungsphasen auf die gesamte Population, während Agenten, die Konvergenz erreicht haben, „graduiert” und eingefroren werden.

Der Schlüsselmechanismus ist der Population Broadcast: Wissen bleibt nicht in einem einzelnen Agenten gefangen, sondern wird kollektiv geteilt. Forscher testeten Gemini-2.5-Flash-Lite, Grok-4-Fast, Llama-4-Maverick und Qwen3-235B in der simulierten CybORG CAGE-2-Umgebung — einer stochastischen POMDP-Netzwerkverteidigungsaufgabe mit 30-Schritt-Horizont, bei der ein Verteidiger auf einen als B-line-Angreifer bekannten Angriff reagiert.

Ergebnisse: Schwächere Modelle profitieren am meisten

FORGE erzielt 29–72 % bessere Ergebnisse als die isolierte Reflexion-Baseline und senkt die Rate katastrophaler Fehler auf etwa 1 % (gegenüber stark negativen Belohnungen in der Null-Baseline). Bemerkenswert ist, dass die Rules-Variante ~40 % weniger Token bei vergleichbaren Ergebnissen verbraucht, während die Examples-Variante bei drei von vier getesteten Modellen dominiert.

Besonders relevant ist der Befund, dass schwächere Basismodelle unverhältnismäßig mehr profitieren — FORGE kompensiert die begrenzten Fähigkeiten eines kleineren Modells effektiv durch kollektiv aufgebaute Populationserfahrung. Das eröffnet Anwendungen, bei denen der Einsatz eines leistungsstärkeren Modells wirtschaftlich oder latenzbedingt nicht vertretbar ist.

Die Arbeit legt nahe, dass für spezialisierte Bereiche wie Cybersicherheitsverteidigung populationsbasiertes Gedächtnis eine effektivere Alternative zum teuren Fine-Tuning sein kann — besonders wenn sich Domänenregeln schnell ändern.

Häufig gestellte Fragen

Was ist FORGE?

FORGE (Failure-Optimized Reflective Graduation and Evolution) ist eine Methode zur Entwicklung des Gedächtnisses von LLM-Agenten. Statt Modellparameter zu ändern, baut es ein textuelles Gedächtnis — Regeln und Beispiele — auf, das in Agenten-Prompts eingefügt und über die gesamte Population geteilt wird.

Warum benötigen Agenten kein Fine-Tuning?

FORGE nutzt populationsbasiertes Erfahrungsaustausch: Wenn ein Agent eine nützliche Heuristik oder Demonstration erlernt, werden diese Erkenntnisse über den Shared-Memory-Mechanismus an alle anderen Agenten zwischen den Entwicklungsphasen weitergegeben. Es gibt keine Gradientenaktualisierungen — das Wissen verbleibt in natürlicher Sprache, nicht in Netzwerkgewichten.

An welchen Modellen wurde FORGE getestet?

Forscher testeten Gemini-2.5-Flash-Lite, Grok-4-Fast, Llama-4-Maverick und Qwen3-235B. Schwächere Modelle zeigten verhältnismäßig größere Fortschritte, was darauf hindeutet, dass FORGE begrenzte Kapazitäten des Basismodells kompensieren kann.

arXiv:2605.16233: FORGE — KI-Agenten entwickeln gemeinsames Gedächtnis ohne Fine-Tuning

Das Problem: teures Lernen auf Kosten der Flexibilität

Wie FORGE Fine-Tuning umgeht

Ergebnisse: Schwächere Modelle profitieren am meisten

Häufig gestellte Fragen

Quellen

Verwandte Nachrichten