🟡 🤝 에이전트 게시일: · 3 분 읽기 ·

SkillOpt: Microsoft Research가 에이전트 명령 파일을 훈련 가능한 파라미터로 처리합니다

에디토리얼 일러스트레이션: Microsoft SkillOpt가 최적화를 위해 에이전트 스킬을 훈련 가능한 파라미터로 처리

Microsoft Research가 SkillOpt를 발표했습니다 — 모델 가중치를 건드리지 않고 반복적인 순방향-역방향 사이클로 에이전트 스킬 파일을 최적화하는 시스템. 52개 평가 셀에서 최고 또는 동점 결과를 달성했으며, 최적화된 스킬을 갖춘 GPT-5.5는 평균 정확도가 58.8%에서 82.3%로 향상되었습니다.

🤖

이 기사는 AI가 1차 출처를 기반으로 생성했습니다.

Microsoft Research가 SkillOpt를 발표했습니다 — 지금까지 주로 무시되어 왔던 문제를 해결하는 시스템: 모델 가중치를 건드리지 않고 AI 에이전트의 행동을 체계적으로 개선하는 방법. 파인튜닝 대신, SkillOpt는 명령 및 스킬 파일을 훈련 가능한 파라미터로 처리하고 에이전트가 명령으로 받는 텍스트에만 최적화 사이클을 적용합니다.

순방향-역방향-업데이트: 하나의 사이클이 어떻게 보이는가

절차는 반복되는 세 단계로 진행됩니다:

순방향 패스 — 고정된 대상 모델이 현재 버전의 스킬 파일을 사용하여 작업을 실행합니다. 모델에서 아무것도 변경되지 않습니다; 기록되는 것은 궤적뿐 — 일련의 행동과 중간 결과.

역방향 패스 — 별도의 최적화 모델이 궤적을 분석하고 패턴을 식별합니다: 무엇이 효과가 있었는지, 무엇이 효과가 없었는지, 에이전트가 어디서 이탈했는지. 이 분석을 기반으로 제한된 텍스트 편집을 제안합니다: 문장 추가, 명령 삭제, 표현 교체.

업데이트 단계 — 제안된 편집이 검증 게이트를 통과합니다. 보류된 검증 데이터에서 결과를 개선하는 편집만 허용됩니다. 거부된 편집은 다음 최적화 호출을 위한 피드백 루프에 들어가고, 에포크 수준에서 장기적 교훈을 통합하는 느린 메타 업데이트가 수행됩니다.

스킬 파일이 축적된 편집으로 무의미하게 저하되는 상황인 프롬프트 드리프트를 방지하는 메커니즘은 최상의 버전 선택입니다: 각 편집은 단순히 다른 것이 아니라 현재 버전보다 더 나아야 합니다.

52개 평가 셀: 핵심 발견으로서의 일관성

연구자들은 6개 벤치마크(SearchQA, SpreadsheetBench, OfficeQA, DocVQA, LiveMathematicianBench, ALFWorld) × 7개 모델 × 3가지 실행 모드 — 총 52개 평가 셀 — 에서 SkillOpt를 테스트했습니다. 모든 52개에서 SkillOpt는 관련 기준선과 비교하여 최고 또는 동점 결과를 달성했습니다.

GPT-5.5에서 측정된 가장 큰 문서화된 향상:

벤치마크이전이후개선
6개 벤치마크 평균58.8%82.3%+23.5pp
SpreadsheetBench41.8%80.7%+39.0pp
OfficeQA33.1%72.1%+39.0pp
LiveMathematicianBench37.6%66.9%+29.3pp

특히 주목할 만한 것은 OfficeQA 최적화 데이터입니다: 39 퍼센트 포인트 개선이 스킬 파일의 단 하나의 편집으로 달성되었습니다. 이는 기존 명령에 고가치 오류가 있음을 시사합니다 — 에이전트를 체계적으로 이탈시키는 표현들.

컴팩트함과 전이 가능성

최종 스킬 파일에는 케이스당 1~4개의 허용된 편집으로 중앙값 약 920 토큰이 포함됩니다. 컴팩트함은 우연이 아닙니다 — 검증 게이트가 측정 가능한 개선을 가져오지 않는 중복 편집을 자연스럽게 필터링합니다.

전이 가능성은 여러 수준에서 문서화되었습니다. 하나의 하네스(예: Codex)에 대한 최적화는 +24.8pp를 제공했으며, Claude Code 하네스에서의 동일한 스킬은 재최적화 없이 +19.1pp를 제공했습니다. 하나의 크로스 하네스 전이는 +59.7pp를 기록했습니다 — 하나의 플랫폼에 최적화된 스킬을 가진 에이전트가 완전히 다른 플랫폼에서 자체 기준선을 능가했음을 의미합니다.

이것이 프롬프트 엔지니어링과 다른 이유는 무엇입니까?

수동 프롬프트 엔지니어링은 반복적이지만 체계적이지 않습니다. 엔지니어들은 각 편집당 정량적 피드백 없이 직관에 따라 명령을 변경하며, 회귀를 방지하는 메커니즘도 없습니다. SkillOpt는 이 과정을 공식화합니다: 모든 변경이 측정되고, 모든 단계가 감사 가능하며, 최종 아티팩트 — 최적화된 스킬 파일 — 는 버전 관리, 공유 및 모든 호환 모델에 적용할 수 있습니다.

이미 에이전트 인프라를 보유한 조직에게 시사점은 명확합니다: 에이전트가 더 나아지기 위해 모델이 더 나아질 필요는 없습니다. 모델이 받는 텍스트를 체계적으로 최적화하는 것으로 충분합니다.

자주 묻는 질문

SkillOpt가 작동하려면 모델을 파인튜닝해야 합니까?
아닙니다. 모델 가중치는 완전히 고정된 상태로 유지됩니다 — SkillOpt는 에이전트가 명령으로 받는 텍스트 스킬 파일만 수정합니다.
최적화된 스킬의 크기는 얼마나 됩니까?
최적화된 스킬 파일의 중앙값 길이는 약 920 토큰이며, 최적화 절차당 1~4개의 허용된 텍스트 편집만 있습니다.
학습된 스킬이 서로 다른 모델 간에 전이됩니까?
예. 최적화된 스킬은 다양한 크기와 다양한 실행 환경의 모델 간에 전이 가능한 것으로 나타났으며, 59.7 퍼센트 포인트 개선을 가져온 크로스 하네스 전이 한 건이 문서화되었습니다.