FORGE: 파인튜닝 없이 AI 에이전트 학습 (arXiv:2605.16233)

arXiv:2605.16233은 모델 가중치를 전혀 업데이트하지 않고 LLM 에이전트들이 집단적 경험 공유를 통해 공유 메모리를 구축하는 FORGE를 제안합니다. CybORG CAGE-2 네트워크 방어 작업에서 기준선 대비 1.7~7.7배 성능 향상을 달성했으며, 성능이 낮은 모델에서 특히 두드러진 개선이 나타났습니다.

Carleton University와 캐나다 국방부의 연구팀이 FORGE(Failure-Optimized Reflective Graduation and Evolution)를 발표했습니다. 이는 모델 파라미터를 전혀 변경하지 않고 LLM 에이전트들이 집단적으로 메모리를 구축하고 공유하는 시스템입니다. 참조 네트워크 방어 작업에서 기준선 대비 1.7~7.7배 성능 향상이 나타났습니다.

문제: 유연성을 희생하는 비용이 많이 드는 학습

LLM 에이전트를 개선하는 표준 접근법은 파인튜닝입니다. 이는 경사 하강법 알고리즘을 사용해 특정 데이터셋에서 신경망의 수십억 개 가중치를 업데이트하는 과정입니다. 이 과정에는 GPU 시간, 레이블이 붙은 샘플, 그리고 훈련 시점에 모델을 고정하는 것이 필요합니다. 새로운 도메인이나 작업마다 새로운 학습 라운드가 필요합니다.

FORGE는 다른 경로를 택합니다. 모델 자체를 수정하는 대신, 공유 메모리――에이전트의 프롬프트에 자연어 형태로 주입되는 공통 텍스트 규칙 및 시연 베이스――를 구축합니다.

FORGE는 어떻게 파인튜닝을 우회합니까?

시스템은 두 개의 연결된 사이클로 작동합니다. 내부 루프는 실패한 에피소드를 관찰해 재사용 가능한 ‘지식 아티팩트’를 생성합니다――텍스트 휴리스틱(Rules) 또는 성공적인 행동의 구체적인 시연(Examples)입니다. 외부 루프는 발전 단계 사이에 최우수 에이전트의 메모리를 집단 전체에 전파하고, 수렴에 도달한 에이전트는 ‘졸업’하여 고정됩니다.

핵심 메커니즘은 바로 집단 브로드캐스트입니다. 지식은 하나의 에이전트에 갇히지 않고 집단적으로 공유됩니다. 연구자들은 시뮬레이션 환경 CybORG CAGE-2에서 Gemini-2.5-Flash-Lite, Grok-4-Fast, Llama-4-Maverick, Qwen3-235B를 테스트했습니다. 이는 방어자가 B-line 공격자에 대응하는 30단계 시야의 확률적 POMDP 네트워크 방어 작업입니다.

결과: 성능이 낮은 모델이 가장 큰 이득을 얻다

FORGE는 고립된 Reflexion 기준선보다 29~72% 높은 성능을 보였으며, 치명적 오류율을 약 **1%**로 낮췄습니다(기준선의 극도로 낮은 보상과 비교). 흥미롭게도, Rules 변형은 유사한 결과를 내면서 약 40% 적은 토큰을 소비하고, Examples 변형은 테스트한 네 모델 중 세 모델에서 우수한 성능을 보였습니다.

특히 주목할 만한 발견은 성능이 낮은 기반 모델이 불균형적으로 더 큰 이득을 얻는다는 점입니다. FORGE는 실질적으로 소규모 모델의 제한된 능력을 집단적으로 구축된 경험으로 보완합니다. 이는 더 강력한 모델의 배포가 경제적 또는 지연 측면에서 불가능한 시나리오에서 도메인 지식을 공유 메모리에 캡슐화할 수 있는 응용의 문을 열어줍니다.

이 연구는 사이버 방어와 같은 전문화된 도메인에서, 특히 도메인 규칙이 빠르게 변화할 때, 집단적 메모리가 비용이 많이 드는 파인튜닝의 효과적인 대안이 될 수 있음을 시사합니다.

자주 묻는 질문

FORGE란 무엇입니까?

FORGE(Failure-Optimized Reflective Graduation and Evolution)는 LLM 에이전트의 메모리 발전 방법입니다. 모델 파라미터를 변경하는 대신 텍스트 메모리――규칙과 예시――를 구축하여 에이전트의 프롬프트에 주입하고 집단 전체에서 공유합니다.

에이전트에게 파인튜닝이 불필요한 이유는 무엇입니까?

FORGE는 집단적 경험 공유를 활용합니다. 그룹 내 한 에이전트가 유용한 휴리스틱이나 시연을 학습하면, 그 지식은 발전 단계 사이에 공유 메모리 메커니즘을 통해 모든 다른 에이전트에게 전파됩니다. 경사 하강법 업데이트는 없으며, 지식은 네트워크 가중치가 아닌 자연어 형태로 보존됩니다.

FORGE는 어떤 모델에서 테스트되었습니까?

Gemini-2.5-Flash-Lite, Grok-4-Fast, Llama-4-Maverick, Qwen3-235B에서 테스트되었습니다. 성능이 낮은 모델이 상대적으로 더 큰 향상을 보였으며, 이는 FORGE가 기반 모델의 제한된 능력을 보완할 수 있음을 시사합니다.

arXiv:2605.16233: FORGE――파인튜닝 없이 AI 에이전트가 공유 메모리를 구축하는 방법

문제: 유연성을 희생하는 비용이 많이 드는 학습

FORGE는 어떻게 파인튜닝을 우회합니까?

결과: 성능이 낮은 모델이 가장 큰 이득을 얻다

자주 묻는 질문

출처

관련 뉴스