Google: 추론이 LLM의 지식을 활성화하는 방법

Google Research가 추론 트레이스가 모델 가중치에 저장된 사실 검색을 개선하는 두 가지 메커니즘을 밝혔습니다 — computational buffer와 factual priming. Gemini 2.5와 Qwen3-32B에서 테스트되었습니다.

왜 모델은 알고 있는 것을 잊습니까?

대형 언어 모델은 방대한 지식을 가중치에 저장합니다 — 이른바 매개변수 지식(외부 데이터베이스 접근 없이 모델 매개변수에 직접 인코딩된 사실). 그러나 사용자들은 모델이 학습한 데이터에 대해서도 환각이 발생한다는 것을 자주 경험합니다. Google Research는 이제 그 이유를 설명하고 추론 트레이스가 방정식을 어떻게 바꾸는지 보여줍니다.

지식 검색을 바꾸는 두 가지 메커니즘

Google Research는 추론 단계(reasoning trace — 모델이 최종 답 전에 기록하는 중간 단계의 시퀀스)가 매개변수 지식 검색을 개선하는 두 가지 별개의 메커니즘을 식별했습니다.

Computational buffer는 계산 용량 수준에서 작동합니다. 네트워크를 통한 각 추가 순전파는 모델에 지식 검색을 위한 더 많은 공간을 제공합니다. 핵심 시연 — 심지어 의미 없는 ‘채우기(filler)’ 텍스트인 ‘Let me think…’도 의미론적 내용 없이 처리를 연장하기 때문에 정확도를 향상시킵니다.

Factual priming은 내용 수준에서 작동합니다. 모델은 추론 도중 관련 중간 사실을 제시하여 확산 활성화(spreading activation) 원리로 정확한 최종 답을 활성화합니다. 이 메커니즘은 사람이 연상 사슬을 통해 이름을 기억하는 방식과 유사합니다.

Gemini 2.5와 Qwen3-32B에서의 결과

연구는 매개변수 지식에서 사실적 답변의 정확도를 측정하도록 설계된 SimpleQA Verified와 EntityQuestions 벤치마크를 사용하여 Gemini 2.5 Flash, Gemini 2.5 Pro, Qwen3-32B 모델을 대상으로 수행되었습니다.

핵심 발견: 추론 트레이스에서의 단 하나의 환각된 중간 사실이 나머지 추론이 올바르더라도 최종 답의 정확도를 크게 떨어뜨립니다. 이는 왜 소리 내어 생각하는 모델이 때때로 더 짧은 모델보다 더 많은 실수를 하는지 설명합니다 — 잘못된 중간 단계가 프라이밍을 잘못된 방향으로 이끌 수 있기 때문입니다.

실무적 의미

이 발견은 실질적인 시사점을 갖습니다. 사실적 정확도에 의존하는 애플리케이션의 경우 추론 트레이스의 길이와 품질은 장식이 아니라 결정적 요소입니다. 프롬프트 및 시스템 설계자는 최종 답뿐만 아니라 모델이 제시하는 중간 사실에도 주의를 기울여야 합니다.

자주 묻는 질문

매개변수 지식이란 무엇이며 왜 검색하기 어렵습니까?

매개변수 지식은 외부 데이터베이스 접근 없이 학습 중에 직접 모델 가중치에 인코딩된 사실입니다. 모델이 쿼리만으로 올바른 신경 경로를 활성화해야 하기 때문에 검색이 불안정합니다.

computational buffer는 모델이 정확한 데이터를 기억하는 데 어떻게 도움을 줍니까?

네트워크를 통한 각 추가 순전파(forward pass)는 의미 없는 텍스트인 경우에도 모델에 지식을 검색할 더 많은 계산 용량을 제공합니다. 마치 사람이 잠시 생각할 시간을 갖는 것과 유사합니다.

Google Research: 추론이 LLM의 매개변수 지식을 어떻게 활성화하는가

왜 모델은 알고 있는 것을 잊습니까?

지식 검색을 바꾸는 두 가지 메커니즘

Gemini 2.5와 Qwen3-32B에서의 결과

실무적 의미

자주 묻는 질문

출처

관련 뉴스