Tencent: LLM-Agenten lernen vorausschauend zu planen

Internalizing the Future ist ein Preprint von Xuan Zhang und acht Koautoren von Tencent, der am 25. Juni 2026 auf arXiv eingereicht wurde. Die Arbeit schlägt ein dreistufiges Training (WM-AMT, FE-SFT, FC-RL) vor, mit dem LLM-Agenten ein World-Model entwickeln — die Fähigkeit, Projektionen zukünftiger Zustände zu generieren und den Erfolg eines Plans zu bewerten, anstatt nur reaktiv zu agieren.

Was ist ein World Model und vorausschauendes Planen?

LLM-Agenten — Sprachmodelle, die Aufgaben autonom ausführen — reagieren heute typischerweise auf den aktuellen Zustand, ohne intern die Konsequenzen zu bewerten. Das Fehlen von vorausschauendem Planen (zukunftsgerichtetem Planen) bedeutet, dass der Agent nicht beurteilen kann, wie gut ein Plan ist, bevor er ihn ausführt. Das World Model (Weltmodell) ist genau dieser interne Mechanismus: die Fähigkeit, mögliche zukünftige Zustände der Umgebung zu simulieren — ähnlich den Gedankenexperimenten „Was würde passieren, wenn ich das täte?”.

Das Preprint „Internalizing the Future”, das Tencent-Forscher am 25. Juni 2026 auf arXiv einreichten, identifiziert das Kernproblem: Durch Standard-Feintuning entwickeln LLM-Modelle nur oberflächliche, superfizielle Vorhersagen — ohne echte Verankerung in der Ausführungslogik der Aufgaben.

Dreistufiges Training: WM-AMT, FE-SFT und FC-RL

Das neunköpfige Tencent-Autorenteam — Xuan Zhang, Zhijian Zhou, Lingfeng Qiao, Yulei Qin, Ke Li, Xing Sun, Xiaoyu Tan, Chao Qu und Yuan Qi — schlägt ein Training in drei Phasen vor:

WM-AMT (World Model Agentic Mid-Training): In der Mid-Training-Phase lernt das Modell, „Prospective State Rollouts” zu generieren — Projektionen zukünftiger Zustände — und Erfolgsabschätzungen für einen Plan zu erstellen.
FE-SFT (Format-Eliciting Supervised Fine-Tuning): Durch überwachtes Feintuning lernt das Modell, diese Vorhersagen in einem konsistenten, verwendbaren Format zu strukturieren.
FC-RL (Foresight-Conditioned Reinforcement Learning): Durch Reinforcement Learning (RL) werden die Vorhersagen kalibriert und werden für agentenbasierte Entscheidungen wirklich nützlich.

Im Gegensatz zu reaktiven LLM-Agenten, die eine Antwort ohne interne Simulationen der Zukunft generieren, internalisiert Internalizing the Future diesen Prozess in ein einziges autoregresses Modell, das gleichzeitig zukünftige Zustände vorhersagt und den Erfolg bewertet.

Bestätigen die Ergebnisse diesen Ansatz?

Evaluierungen bei Schlussfolgerungs- und Suchaufgaben zeigen, dass der Ansatz Baseline-Methoden konsistent übertrifft. Konkrete numerische Ergebnisse sind in der öffentlich verfügbaren arXiv-Zusammenfassung nicht detailliert aufgeführt — was für Arbeiten üblich ist, die gerade erst eingereicht wurden und noch keine unabhängige Begutachtung durchlaufen haben. Internalizing the Future bleibt ein akademisches Preprint von Tencent, dessen breitere Bestätigung noch aussteht.

Häufig gestellte Fragen

Was ist ein „World Model” im Kontext von LLM-Agenten?

Ein World Model ist ein interner Mechanismus, mit dem der Agent mögliche zukünftige Zustände der Umgebung simuliert, bevor er eine Aktion unternimmt — analog zu einem mentalen Durchspielen von „Was-wenn”-Szenarien statt bloßem Reagieren auf den aktuellen Zustand.

Welche drei Trainingsphasen schlägt Internalizing the Future vor?

WM-AMT (Einbettung prädiktiver Fähigkeiten in der Mid-Training-Phase), FE-SFT (Strukturierung von Vorhersagen durch überwachtes Feintuning) und FC-RL (Verfeinerung durch Reinforcement Learning für kalibrierte, nützliche Vorhersagen).

arXiv:2606.27483: Internalizing the Future — einheitliches Training-Paradigma für World-Model-Planning von LLM-Agenten

Was ist ein World Model und vorausschauendes Planen?

Dreistufiges Training: WM-AMT, FE-SFT und FC-RL

Bestätigen die Ergebnisse diesen Ansatz?

Häufig gestellte Fragen

Quellen

Verwandte Nachrichten