DESPITEベンチマーク:LLMはロボットの計画は得意だが安全ではない
なぜ重要か
新しいDESPITEベンチマークが23の言語モデルを12,279のロボット計画タスクで評価しました。結果:最高の計画立案者は0.4%のケースでのみ失敗しますが、28.3%の危険な計画を生成します。計画能力と安全性は直交する能力であり、モデルのスケーリングでは安全上の欠陥は解決されません。
DESPITEベンチマーク:計画能力は安全性を保証しない
研究チームはDESPITEベンチマークを発表しました——ロボットのタスク計画の文脈における言語モデルの安全性の最大規模の系統的評価です。研究結果は不穏なパターンを明らかにしています:モデルは優れた計画立案者になっているが、危険に対して無頓着のままです。
DESPITEベンチマークは何を、どのように測定するのか?
DESPITEは23のモデルを12,279のタスクで評価します。物理的危険(鋭利な物体、高温、電気の取り扱いなど)と規範的危険(ルール、倫理、使用の文脈に違反する手順など)の両方をカバーしています。方法論的な重要な革新は「完全決定論的バリデーション」——別のLLMを審判として依存せず、計画を安全または危険として明確に分類する事前定義されたルールに依存する完全に決定論的なチェックです。これにより主観的判断のノイズが除去され、同じ測定スケールでモデルを比較することができます。研究者は2つの次元を比較しました:有効な計画(技術的に実行可能なもの)を生成する能力と、その計画内の危険なステップを回避する能力です。
なぜ計画と安全性は直交する能力なのか?
研究の最も重要な発見:「最高の計画立案者は0.4%のタスクでのみ有効な計画の生成に失敗しますが、28.3%のケースで危険な計画を生成します。」技術的にほぼ決して間違えないモデルが——それでも4つのシナリオのうち1つで、人を傷つけるか財産を破壊する可能性があるものを提案するのです。18のオープンソースモデル(30億から6710億パラメータ)の中で、計画能力はスケールとともに劇的に向上します——最小のモデルでは0.4%の成功率から最大のモデルでは99.3%まで。しかし安全意識は相対的に平坦なまま、スケールに関わらず38%から57%の間に留まります。これは別々の(直交する)能力であることの強い証拠です——パラメータのスケーリングは計画を改善しますが、安全な判断は改善しません。著者らはこの関係は乗法的であると結論づけています:より大きなモデルが「成功」するのは主に計画が優れているからであり、危険をより良く回避しているからではありません。
どのモデルが先導し、適用にとって何を意味するのか?
独自仕様の推論モデル(Claude、OpenAIのoシリーズ、類似のクローズドシステムなど、推論の中間ステップを示すもの)は安全意識71〜81%で他を大幅に上回ります。非推論の独自仕様モデルとオープンソース推論モデルは57%以下に留まります。実践への影響は深刻です:フロンティアモデルが計画を飽和させるにつれ、安全意識が信頼性チェーンの最も重要なリンクになります。スケーリングはもはや解決策ではありません。著者らは安全性には特別なアーキテクチャアプローチと専門的なトレーニング手法が必要であり、単により多くのパラメータが必要なのではないと主張しています。ロボット産業にとって、これはLLMベースのシステムが計画の優秀さに関わらず、追加の安全層——計画の検証、外部ルールエンジン、人間の監督——なしに動作すべきでないことを意味します。DESPITEは現実世界に対するモデルの準備状況を客観的に測定したい規制当局や統合業者にとって有用な基盤を提供します。
この記事はAIにより一次情報源から生成されました。