SkillOpt:Microsoft Researchがエージェントの指示ファイルを訓練可能パラメータとして扱う
Microsoft Researchは、モデルの重みに触れることなく反復的なforward-backwardサイクルでエージェントのスキルファイルを最適化するシステム「SkillOpt」を発表した。52の評価セルで最良または同等の結果を達成し、最適化されたスキルを持つGPT-5.5の平均精度は58.8%から82.3%に向上した。
この記事はAIにより一次情報源から生成されました。
Microsoft ResearchはSkillOptを発表した——これまで主に無視されてきた問題を解決するシステムだ:モデルの重みに触れることなくAIエージェントの動作をどのように系統的に改善するか。ファインチューニングの代わりに、SkillOptは指示・スキルファイルを訓練可能パラメータとして扱い、エージェントが指示として受け取るテキストのみに最適化サイクルを適用する。
Forward-backward-update:1サイクルの流れ
処理は繰り返される三つのステップで進む:
Forward pass ——凍結された対象モデルが現在のスキルファイルのバージョンを使用してタスクを実行する。モデルの中では何も変わらない。記録されるのは軌跡——一連のアクションと中間結果のみだ。
Backward pass ——別の最適化モデルが軌跡を分析し、何がうまくいき何がそうでなかったか、エージェントがどこで軌道を外れたかのパターンを特定する。この分析に基づき、限定的なテキスト編集を提案する:文の追加、指示の削除、言い回しの変更など。
Update step ——提案された編集は検証ゲートを通過する。ホールドアウト検証データで結果を改善するものだけが受け入れられる。拒否された編集は次の最適化呼び出しのフィードバックループに入り、エポックレベルでは長期的な教訓を統合する低速のメタアップデートが実行される。
スキルファイルが累積編集によって無意味なものに退化するプロンプトドリフトを防ぐメカニズムはベストバージョン選択だ:各編集は単に異なるものではなく、現在のバージョンより優れていなければならない。
52の評価セル:一貫性が主要な知見
研究者たちは6つのベンチマーク(SearchQA、SpreadsheetBench、OfficeQA、DocVQA、LiveMathematicianBench、ALFWorld)× 7つのモデル × 3つの実行モード——合計52の評価セルでSkillOptをテストした。52セルすべてで、SkillOptは関連するベースラインと比較して最良または同等の結果を達成した。
GPT-5.5で測定された最大の記録された向上:
| ベンチマーク | 改善前 | 改善後 | 向上 |
|---|---|---|---|
| 6ベンチマーク平均 | 58.8% | 82.3% | +23.5pp |
| SpreadsheetBench | 41.8% | 80.7% | +39.0pp |
| OfficeQA | 33.1% | 72.1% | +39.0pp |
| LiveMathematicianBench | 37.6% | 66.9% | +29.3pp |
OfficeQAの最適化において特に注目すべきは:39ポイントの改善がスキルファイルのたった一つの編集で達成されたということだ。これは既存の指示に高影響度の誤りが存在することを示唆している——エージェントを系統的に逸脱させる言い回しだ。
コンパクト性と移転可能性
最終的なスキルファイルはケースあたり1〜4の受け入れ編集で中央値約920トークンを含む。このコンパクトさは偶然ではない——検証ゲートが測定可能な改善をもたらさない冗長な編集を自然にフィルタリングする。
移転可能性は複数のレベルで実証されている。あるハーネス(例:Codex)向けの最適化で**+24.8ppを達成し、同じスキルをClaude Codeハーネスに適用すると再最適化なしで+19.1ppの改善をもたらした。あるクロスハーネス転送では+59.7pp**を記録した——つまりあるプラットフォーム向けに最適化されたスキルを持つエージェントが、まったく別のプラットフォームで自身のベースラインを上回ったということだ。
これが従来のプロンプトエンジニアリングと何が違うか?
手動のプロンプトエンジニアリングは反復的だが、系統的ではない。エンジニアは各編集ごとの定量的フィードバックなしに、回帰を防ぐメカニズムなしに、直感によって指示を変更する。SkillOptはそのプロセスを形式化する:各変更は測定され、各ステップは監査可能で、最終的な成果物——最適化されたスキルファイル——はバージョン管理でき、共有でき、任意の互換モデルに適用できる。
すでにエージェントインフラを持つ組織への示唆は明確だ:モデルが優れていなくても、エージェントは優れることができる。モデルが受け取るテキストを系統的に最適化するだけで十分なのだ。
よくある質問
- SkillOptが機能するためにモデルのファインチューニングは必要か?
- 不要だ。モデルの重みは完全に凍結されたまま——SkillOptはエージェントが指示として受け取るテキストのスキルファイルのみを変更する。
- 最適化されたスキルはどのくらいの大きさか?
- 最適化されたスキルファイルの中央値は約920トークンで、最適化プロセスごとに受け入れられるテキスト編集は1〜4件だ。
- 習得したスキルは異なるモデル間で移転できるか?
- はい。最適化されたスキルは異なるサイズや実行環境のモデル間での移転可能性が実証されており、59.7ポイントの改善をもたらしたクロスハーネス転送の事例も記録されている。