arXiv: Memory Curse verschlechtert LLM-Agent-Kooperation

Memory Curse ist ein Phänomen, bei dem die Erweiterung des einem LLM-Agenten verfügbaren Verlaufs die Kooperation in Multi-Agent-Spielen verschlechtert — 18 von 28 Modell-Spiel-Kombinationen zeigen Erosion des „Forward-Looking Intent”. Sanitisierung des Speicherinhalts (Ersatz durch synthetische kooperative Einträge) stellt die Zusammenarbeit wesentlich wieder her, während bloßes Kürzen von Prompts nicht hilft.

Ein Forschungsteam von zehn Autoren — darunter Jiayuan Liu, Tianqin Li und Shiyi Du — veröffentlichte am 11. Mai 2026 eine Studie über das kontraintuitive Phänomen namens „Memory Curse” in Multi-Agent-LLM-Szenarien. Das Paper ist unter arXiv:2605.08060 verfügbar.

Wie haben die Forscher das Phänomen getestet?

Die Studie umfasste 7 LLMs über 4 verschiedene Spiele mit je 500 Runden pro Konfiguration. Drei komplementäre Analysemethoden wurden eingesetzt, um die Mechanismen zu isolieren, die Gedächtnis mit Kooperationsdegradierung verbinden. Ergebnis: In 18 von 28 Modell-Spiel-Kombinationen verschlechtert die Erweiterung des Agentenverlaufs das kooperative Verhalten.

Was ist die Hauptursache der Degradierung?

Die lexikalische Analyse von 378.000 Reasoning-Spuren deckte auf, dass der Hauptmechanismus die Erosion des „Forward-Looking Intent” ist — Agenten werden weniger auf zukünftige Schritte und Konsequenzen ausgerichtet. Wachsende Paranoia war nicht die Ursache, was an sich überraschend ist. Fine-Tuning durch LoRA-Adapter, die auf Forward-Looking-Spuren trainiert wurden, mildert den Abbau und überträgt sich auf neue Spiele, die das Modell nicht gesehen hat.

Wie stellt Speicher-Sanitisierung die Kooperation wieder her?

Der Ersatz des sichtbaren Verlaufs durch synthetische kooperative Einträge — bei gleichbleibender Prompt-Länge — stellt die Kooperativität wesentlich wieder her. Dies beweist, dass der Auslöser nicht die Kontextlänge, sondern der Speicherinhalt ist. Die Implikation für Multi-Agent-Systeme ist bedeutend: Designer müssen aktiv kuratieren, was ein Agent „erinnert”, statt nur den Verlauf zu kürzen.

Was enthüllt das Chain-of-Thought-Paradox?

Das Entfernen expliziten Reasonings reduzierte häufig den Kooperationszusammenbruch. Die Autoren schlussfolgern: „Gedächtnis wirkt als aktiver Verhaltensbestimmungsfaktor — längeres Erinnern kann Kooperation destabilisieren oder unterstützen, abhängig von den ausgelösten Denkmuster.” Für Designer agentischer Systeme bedeutet das, dass CoT keine universell vorteilhafte Technik in Multi-Agent-Kontexten ist.

Häufig gestellte Fragen

Was bedeutet genau „Forward-Looking Intent Erosion”?

Forward-Looking Intent ist die Tendenz eines Agenten, über zukünftige Schritte und Konsequenzen seiner Entscheidungen nachzudenken. Die lexikalische Analyse von 378.000 Reasoning-Spuren zeigte, dass der Rückgang der Kooperativität nicht mit wachsender Paranoia zusammenhängt, sondern mit der Erosion der Zukunftsorientierung — Agenten werden reaktiv statt strategisch.

Wie löst Speicher-Sanitisierung das Problem?

Die Forscher ersetzten den sichtbaren Verlauf durch synthetische kooperative Einträge gleicher Token-Länge. Die Kooperation wurde wesentlich wiederhergestellt, was beweist, dass der Auslöser nicht die Prompt-Länge, sondern der Speicherinhalt ist. Fine-Tuning durch LoRA-Adapter, die auf Forward-Looking-Spuren trainiert wurden, mildert den Abbau ebenfalls und überträgt sich auf neue Spiele.

Warum verstärkt Chain-of-Thought den Memory Curse?

Paradoxerweise reduziert das Entfernen expliziten Reasonings oft den Kooperationszusammenbruch. Die Autoren vermuten, dass Deliberation den Memory Curse verstärkt — tiefes Nachdenken über konfliktreiche Geschichte veranlasst Agenten, nicht-kooperative Verhaltensweisen zu rationalisieren, die sie sonst vermeiden würden.

arXiv:2605.08060: Memory Curse — mehr Gedächtnis beim LLM-Agenten = WENIGER Kooperation in Multi-Agent-Szenarien

Wie haben die Forscher das Phänomen getestet?

Was ist die Hauptursache der Degradierung?

Wie stellt Speicher-Sanitisierung die Kooperation wieder her?

Was enthüllt das Chain-of-Thought-Paradox?

Häufig gestellte Fragen

Quellen

Verwandte Nachrichten