🟡 🤖 モデル 公開日: · 2 分で読めます ·

arXiv:2606.23181: DART — トレーニング不要でハイブリッド推論モデルに適応的思考を実現

arXiv:2606.23181 ↗

編集用イラスト:トークンネットワーク内の2つの別々の意思決定パスを持つ抽象的な分岐ダイアグラム

DARTは追加トレーニングなしにAIモデルが長く考えるべきか即座に回答すべきかを判断する手法です。思考トークンの消費を15〜69%削減しながら、コードテストでは精度が最大+22.5ポイント向上しました。

🤖

この記事はAIにより一次情報源から生成されました。

ハイブリッド推論モデルとトークン無駄遣いの問題

現代のハイブリッド推論モデル——Claude 3.7 SonnetやQwQなど——は2つのモードを切り替えることができます。短い直接応答か、モデルのみが見える中間推論ステップである思考トークンを使った長い推論チェーンかです。問題は、モデルが些細な質問にも高価な思考トークンを消費することが多く、推論速度を不必要に低下させコストを増加させることです。

韓国大学および関連機関の研究者たちは、追加トレーニングなしにこれを解決するDART(Draft-Agreement Routing for Training-Free Adaptive Thinking Budgets)を発表しました。

DARTはモデルが「考える」必要があるかどうかをどのように決定するか?

アイデアはエレガントにシンプルです。DARTはまず2つの安価な「考えない」ドラフト(拡張推論なしの短い応答)を生成します。それらが一致する場合→モデルは直接応答を返します。一致しない場合、DARTは不一致のエントロピーを測定し、実際に必要な思考バジェット(より深い思考のためのトークンの最大数)を動的に計算します——不一致が大きいほど、バジェットは大きくなります。

このアプローチにより、ラベル付きデータや勾配の更新が完全に不要になり、内部アーキテクチャへのアクセスなしのAPIのみ設定を含む0.6Bから32Bパラメータのモデルに適用できます。

結果:トークンが少なく、精度が高い

実験結果はこの手法を明確に支持しています。オリンピックレベルの数学(Olympiadレベルのベンチマーク)では、DARTはベースラインモデルと比較して思考トークンを15〜69%削減しながら精度を最大**+9.0ポイント**向上させます。

コード記述タスクでは向上がさらに顕著です。トークン消費を51〜63%削減しながら精度が**+22.5ポイント**向上します。タスクの難易度に関係なく常に同じ数のトークンを消費する固定思考バジェットと比較すると、DARTはテストされたすべてのシナリオでより良いコストに対する精度の比率を提供します。

なぜ本番システムにとって重要か?

思考トークンは無料ではありません。APIモデルでは単位ごとに課金され、レイテンシに直接影響します。DARTは、ファインチューニングや新しいモデルを必要とせずに、クエリの難易度によって正当化される場合にのみより高価なリソースを消費する推論システムへの道を開きます。コードは公開されており、この手法はモデルに依存しないため、モデル自体を変更することなくさまざまなハイブリッド推論システムに適用できます。

よくある質問

DARTには追加トレーニングやラベル付きデータが必要ですか?
いいえ——DARTは2つの安価なドラフト間の合意にのみ基づいて動作するトレーニング不要の手法です。勾配の更新もラベル付きサンプルも、モデルの内部ウェイトへのアクセスも不要です。
DARTはどのモデルとサイズで機能しますか?
DARTは0.6Bから32Bパラメータのモデルでテストされており、さまざまなモデルファミリーで機能し、内部アーキテクチャへのアクセスがないAPIのみの設定でも動作します。