arXiv:2605.07990 UCL: LLM 도구 선택이 선형 조종 가능

UCL, Holistic AI, 임페리얼 칼리지 연구자들이 LLM이 내부적으로 도구 선택을 선형으로 표현함을 발견했습니다. 평균차 벡터——두 도구의 평균 활성화 차이——를 활성화에 추가하면 12개 테스트 모델(2.7억~270억 파라미터)에서 파인튜닝 없이 77-100% 정확도로 도구 선택을 변경할 수 있습니다.

UCL(유니버시티 칼리지 런던), Holistic AI, 임페리얼 칼리지 런던의 연구팀——Zekun Wu, Ze Wang, Seonglae Cho, Yufei Yang, Adriano Koshiyama, Sahan Bulathwela, Maria Perez-Ortiz——은 2026년 5월 11일 LLM이 내부적으로 도구 선택을 선형으로 표현하며 해당 선택을 파인튜닝 없이 안정적으로 조종할 수 있음을 보여주는 연구를 발표했습니다.

연구자들은 무엇을 발견했는가?

핵심 발견: 언어 모델의 도구 선택은 활성화 조작을 통해 「선형으로 읽기 가능하고 조종 가능하다」. 평균차 벡터——두 도구의 평균 활성화 차이——를 추가함으로써 「이름만 포함된 단일 턴 프롬프트에서 77-100% 정확도를 달성했으며, 4B+ 파라미터 모델에서는 93-100%」를 기록했습니다. 기술은 추가 훈련을 전혀 필요로 하지 않습니다.

테스트된 모델은?

연구는 Gemma 3, Qwen 3, Qwen 2.5, Llama 3.1 패밀리의 12개 지시 튜닝 모델을 2.7억~270억 파라미터 범위에서 다루었습니다. 다양한 아키텍처에서 일관된 결과는 이 현상이 보편적이며 특정 모델이나 훈련의 산물이 아님을 시사합니다.

이것이 모델 내부 구조에 대해 무엇을 드러내는가?

연구자들은 활성화 패칭과 인과 분석을 사용하여 인과 효과가 「단일 방향——목표 도구의 첫 번째 토큰을 생성하는 출력 레이어 행——에 집중되어 있음」을 확인했습니다. 놀랍게도 기본 모델(지시 튜닝 이전)도 도구에 관한 올바른 정보를 인코딩했습니다——코사인 판독은 BFCL 벤치마크에서 69-82%를 달성하는 반면 기본 생성은 겨우 2-10%입니다. 지시 튜닝은 기존 표현을 출력에 연결하는 것처럼 보입니다.

실용적 응용과 한계는?

이 기술은 에이전트 시스템의 경량 제어에 새로운 가능성을 엽니다: 재훈련 없이 도구 전환, 다양한 도구 라우팅의 A/B 테스트, 특정 도구에 대한 모델 편향 완화. 한계도 중요합니다——저자들은 단일 턴 고정 메뉴 설정에서의 결론을 강조하며, 다중 턴 에이전트 전이는 「더 취약하여」 추가 연구가 필요합니다.

자주 묻는 질문

평균차 벡터란 무엇인가?

평균차 벡터는 두 클래스(예: 두 도구)의 평균 활성화 벡터 차이입니다. 모델이 도구 A를 선택하는 예시의 활성화 평균을 취하고 도구 B를 선택하는 예시의 평균을 빼서 계산합니다. 추론 중 이 차이를 활성화에 추가하면 모델을 한쪽 도구로 「밀 수 있습니다」.

왜 선형 표현이 놀라운가?

많은 연구자들이 LLM의 도구 선택을 여러 레이어와 구성 요소의 복잡한 상호작용의 결과로 추정했습니다. 연구는 인과 효과가 「단일 방향——목표 도구의 첫 번째 토큰을 생성하는 출력 레이어 행——에 집중되어 있음」을 보여주며, 이는 예상보다 단순한 구조를 시사하고 더 간단한 제어 방법의 가능성을 엽니다.

이것이 다중 턴 에이전트 시나리오에서도 유효한가?

저자들은 명시적으로 경고합니다: 결론은 「단일 턴 고정 메뉴 설정」에 적용되며 「다중 턴 에이전트 전이는 더 취약하다」고 합니다. 이는 기술이 단일 단계 도구 선택 제어에는 유용하지만 더 긴 에이전트 궤적을 통해 여러 도구를 안정적으로 관리하는 것은 아직 열린 문제임을 의미합니다.

arXiv:2605.07990: LLM 도구 호출이 선형으로 표현됨——평균차 벡터가 77-100% 정확도로 도구 선택 변경

연구자들은 무엇을 발견했는가?

테스트된 모델은?

이것이 모델 내부 구조에 대해 무엇을 드러내는가?

실용적 응용과 한계는?

자주 묻는 질문

출처

관련 뉴스