Tencent: LLM 에이전트가 미리 계획하는 법 학습

『Internalizing the Future』는 Tencent의 Xuan Zhang과 8명의 공저자가 2026년 6월 25일 arXiv에 제출한 프리프린트입니다. 3단계 학습(WM-AMT, FE-SFT, FC-RL)을 제안하며, 이를 통해 LLM 에이전트는 세계 모델을 개발합니다 — 단순히 반응적으로 행동하는 대신 미래 상태 예측과 계획 성공 평가 능력을 갖추게 됩니다.

세계 모델과 미래 지향적 계획이란?

자율적으로 과제를 수행하는 언어 모델인 LLM 에이전트는 오늘날 일반적으로 결과를 내부적으로 평가하지 않고 현재 상태에 반응합니다. 미래 지향적 계획(앞을 내다보는 계획) 부재는 에이전트가 계획을 실행하기 전에 얼마나 좋은지 평가할 수 없다는 것을 의미합니다. 세계 모델(세계 모형)이 바로 그 내부 메커니즘입니다: 『이것을 하면 어떻게 될까』라는 정신적 실험과 유사하게 가능한 미래 환경 상태를 시뮬레이션하는 능력.

2026년 6월 25일 Tencent 연구자들이 arXiv에 제출한 프리프린트 『Internalizing the Future』는 핵심 문제를 식별합니다: 표준 미세 조정으로 LLM 모델은 표면적이고 피상적인 예측만 개발합니다 — 과제 실행 논리에 실제 기반 없이.

3단계 학습: WM-AMT, FE-SFT, FC-RL

Tencent의 9인 저자 팀 — Xuan Zhang, Zhijian Zhou, Lingfeng Qiao, Yulei Qin, Ke Li, Xing Sun, Xiaoyu Tan, Chao Qu, Yuan Qi — 은 세 단계로 구성된 학습을 제안합니다:

WM-AMT(World Model Agentic Mid-Training): 중간 학습 단계에서 모델이 『미래 상태 롤아웃』 — 미래 상태 예측 — 과 계획 성공 평가를 생성하는 법을 학습합니다.
FE-SFT(Format-Eliciting Supervised Fine-Tuning): 지도 미세 조정을 통해 모델이 해당 예측을 일관되고 사용 가능한 형식으로 구조화하는 법을 학습합니다.
FC-RL(Foresight-Conditioned Reinforcement Learning): 강화 학습(RL)으로 예측이 보정되어 에이전트 의사 결정에 실제로 유용해집니다.

내부 미래 시뮬레이션 없이 응답을 생성하는 반응적 LLM 에이전트와 달리, Internalizing the Future는 해당 프로세스를 하나의 자기회귀 모델에 내재화합니다. 미래 상태를 동시에 예측하고 성공을 평가합니다.

이 접근 방식을 결과가 확인하는가?

추론 및 검색 과제에서의 평가는 이 접근 방식이 비교 기준 방법을 일관되게 능가한다는 것을 보여줍니다. 구체적인 수치 결과는 arXiv의 공개 초록에 자세히 명시되지 않습니다 — 막 제출되어 독립 심사를 거치지 않은 논문에서는 일반적입니다. Internalizing the Future는 더 넓은 확인이 아직 이루어지지 않은 Tencent의 학술 프리프린트로 남아 있습니다.

자주 묻는 질문

LLM 에이전트 맥락에서 『세계 모델』이란 무엇인가요?

세계 모델은 에이전트가 행동하기 전에 가능한 미래 환경 상태를 시뮬레이션하는 내부 메커니즘입니다 — 현재 상태에 단순히 반응하는 대신 『만약』 시나리오를 정신적으로 살펴보는 것과 유사합니다.

『Internalizing the Future』가 제안하는 세 가지 학습 단계는 무엇인가요?

WM-AMT(중간 학습 단계에서 예측 능력 주입), FE-SFT(지도 미세 조정을 통해 예측을 구조화), FC-RL(보정되고 유용한 예측을 위한 강화 학습으로 정제)입니다.

arXiv:2606.27483: Internalizing the Future — LLM 에이전트 세계 모델 계획을 위한 통합 에이전트 학습 패러다임

세계 모델과 미래 지향적 계획이란?

3단계 학습: WM-AMT, FE-SFT, FC-RL

이 접근 방식을 결과가 확인하는가?

자주 묻는 질문

출처

관련 뉴스