ReasoningBank란 무엇입니까?

ReasoningBank는 AI 에이전트를 위한 메모리 프레임워크로, 과거 성공과 실패의 통찰을 전략으로 증류하여 에이전트가 새로운 작업을 실행하기 전에 활용할 수 있도록 합니다.

ReasoningBank는 모델 재훈련이 필요합니까?

아닙니다. 이 프레임워크는 테스트 시 학습(test-time learning)을 가능하게 합니다. 에이전트는 배포 중에 메모리를 축적하며 모델 가중치를 건드리지 않습니다.

성능 향상 폭은 어느 정도입니까?

WebArena 벤치마크에서 ReasoningBank는 메모리 없는 에이전트보다 성공률이 8.3% 높고, SWE-Bench-Verified에서는 4.6% 높으며, 작업당 약 3단계 적습니다.

Google ReasoningBank: 재훈련 없이 경험에서 배우는 에이전트, WebArena 성공률 +8.3%

Google Research가 ReasoningBank를 발표했습니다. AI 에이전트가 언어 모델을 재훈련(retraining)할 필요 없이 자신의 과거 시도(성공과 실패 모두)에서 학습할 수 있는 새로운 메모리 프레임워크입니다. 결과는 두 가지 까다로운 벤치마크에서 성공률이 크게 향상된 것입니다.

무슨 일이 있었나요?

ReasoningBank는 “지속적인 폐쇄 루프 검색, 추출 및 통합”으로 작동하는 프레임워크입니다. Google 연구 블로그 저자들의 표현입니다. 에이전트가 행동을 취하기 전에 뱅크에서 관련 메모리를 검색합니다. 작업 실행 후, LLM-as-a-judge가 결과를 평가하고 교훈을 새로운 메모리 항목으로 증류합니다.

각 메모리 항목에는 세 가지 부분이 포함됩니다. 전략을 식별하는 간결한 제목, 짧은 설명적 요약, 과거 경험에서 추출한 추론 단계 또는 운영상 통찰입니다. 이 구조를 통해 에이전트는 새로운 작업에 관련 전략을 빠르게 검색하고 적용할 수 있습니다.

ReasoningBank의 특징은 실패에서의 학습 강조입니다. Synapse와 같은 경쟁 방식은 상세한 동작 궤적을 저장하고, Agent Workflow Memory는 성공한 시도에만 집중하는 반면, ReasoningBank는 “오류를 예방적 교훈으로 증류”하여 연구자들이 “전략적 가드레일”이라고 부르는 것을 구축합니다.

왜 중요한가요?

웹 탐색의 표준인 WebArena 벤치마크에서 ReasoningBank는 메모리 없는 에이전트보다 성공률이 8.3% 높았습니다. 실제 GitHub 저장소에서 소프트웨어 엔지니어링 작업을 해결하는 까다로운 벤치마크인 SWE-Bench-Verified에서는 작업당 약 3단계 적게 소요되며 4.6% 향상을 달성했습니다.

핵심적인 실용적 측면은 이러한 향상을 위해 모델 가중치를 변경할 필요가 없다는 것입니다. 이는 개발 팀이 기존 LLM(Gemini, GPT, Claude) 위에 ReasoningBank를 적용할 수 있으며, 비용이 많이 드는 파인튜닝이나 모델 공급업체의 보장을 잃지 않아도 된다는 것을 의미합니다.

엔터프라이즈 적용에서는 배포 중에 계속 개선되는 에이전트의 문이 열립니다. 모든 사고, 모든 실패한 작업이 로그의 통계가 아닌 학습 자료가 됩니다. 이는 업계가 오랫동안 요구해온 것의 직접적인 실현입니다. 기관 지식을 축적할 수 있는 에이전트입니다.

연구팀은 Google Cloud의 Jun Yan과 Chen-Yu Lee가 이끌며, Siru Ouyang, Jiawei Han, Tomas Pfister를 포함한 15명의 추가 연구원이 참여했습니다.

ReasoningBank는 이전 접근법과 어떻게 다른가요?

지금까지 에이전트 메모리에는 두 가지 주요 접근법이 있었습니다. 첫 번째 Synapse는 상세한 동작 궤적——각 클릭, 각 입력, 각 도구 응답——을 저장합니다. 문제는 이 접근법이 특정 구체적인 작업에 너무 특화되어 새로운 상황으로 전환하기 어렵다는 것입니다.

두 번째 접근법 Agent Workflow Memory는 성공한 궤적에만 집중합니다. 에이전트는 무엇이 효과적인지 학습하지만, 왜 어떤 것이 효과가 없는지는 학습하지 못합니다. ReasoningBank는 에이전트가 성공보다 실패가 더 많기 때문에, 가장 큰 개선 여지는 바로 실패에서 학습하는 것에 있다고 주장합니다.

세 번째 차이점은 추상화 수준입니다. 원시 동작이나 결과를 저장하는 대신, ReasoningBank는 추론 패턴——“전략”——을 증류합니다. 이는 한 웹사이트의 작업에서 나온 메모리가 전략(“먼저 인증 확인, 그다음 속도 제한 확인, 그 다음에 작업 실행”)이 도메인을 넘어 이전되기 때문에 완전히 다른 웹사이트에서도 도움이 될 수 있음을 의미합니다.

앞으로는?

프레임워크 자체와 함께, Google은 **MaTTS(메모리 인식 테스트 시 스케일링)**도 발표했습니다. 이는 병렬 탐색(여러 궤적을 병렬로 생성)과 순차적 정제(단일 궤적을 반복적으로 개선)의 두 가지 접근법을 통해 실행 시 메모리를 사용하여 스케일링하는 기술입니다. 이 추가 기능은 메모리와 컴퓨팅 스케일링이 경쟁 메커니즘이 아니라 시너지 메커니즘임을 보여주기 때문에 특히 흥미롭습니다.

다음 단계는 ReasoningBank를 Google의 제품 에이전트——아마도 Gemini Deep Research 에이전트와 Google의 코딩 도구——에 통합하는 것입니다. 상세한 방법론 논문은 향후 몇 주 내에 arXiv 등 연구 플랫폼에 발표될 예정이며, 오픈소스 참조 구현도 기대됩니다.

Google ReasoningBank: 재훈련 없이 경험에서 배우는 에이전트, WebArena 성공률 +8.3%

Google ReasoningBank: 재훈련 없이 경험에서 배우는 에이전트, WebArena 성공률 +8.3%

무슨 일이 있었나요?

왜 중요한가요?

ReasoningBank는 이전 접근법과 어떻게 다른가요?

앞으로는?

출처

관련 뉴스