Microsoft Research: SocialReasoning-Bench が示す「AI エージェントはタスクを完了するがユーザーの利益を守らない」
SocialReasoning-Bench は Microsoft Research の新しいベンチマークで、AI エージェントが他の当事者との交渉においてユーザーの真の利益を代弁しているかを測定します——タスクを完了するだけでなく。結果は、モデルがほぼ完璧に取引を締結する一方で、マーケットプレイスシナリオで一貫して価値を対面に残すことを示し、90% 以上の結果が非効率または怠慢と分類されました。
この記事はAIにより一次情報源から生成されました。
Microsoft Research が SocialReasoning-Bench を発表しました。これは AI エージェントが他の当事者との交渉においてユーザーの利益を代弁する能力を評価する新しいベンチマークです。目標は既存の評価における重要なギャップを埋めることです:エージェントはタスクを完了しますが、代理するユーザーにとって次善の結果で終わることが多いのです。
2 つのドメイン、3 つのメトリクス
ベンチマークは 2 つのドメインをテストします。カレンダーコーディネーションではアシスタントがユーザーの好みの範囲内でミーティングをスケジュールし、反対の利益を持つ要求者と対峙します。マーケットプレイス交渉では買い手が設定した「底値」の範囲内で交渉し、売り手と対峙します。3 つの指標が測定されます:結果最適性(依頼人のために獲得した価値、0〜1 スケール)、デューデリジェンス(合理的なエージェントポリシーに対するプロセス品質)、注意義務(信頼できる委任の確認に両方を同時に要求)。
結果が示すもの
エージェントは「ほぼすべての場合においてミーティングをスケジュールし取引を締結しますが、一貫して次善の条件を達成している」とチームは述べています。ほぼすべてのモデルのマーケットプレイス結果は結果最適性においてゼロに近く、相手がほぼすべての余剰価値を得ていることを意味します。カレンダー結果は良好ですが中点を下回り、エージェントがユーザーの好みよりも要求者の好みを受け入れる頻度が高いことを示しています。
より良いプロンプトは不十分
防御的なプロンプトは有効です——GPT-5.4 はカレンダーの結果最適性で +0.21 を獲得しています——しかし有能な代理と無能な代理のギャップを縮めることはできません。対抗相手は結果をさらに下げます:エージェントはカレンダータスクで操作的な要求をほとんど拒否せず、ソーシャルエンジニアリングに対する脆弱性を示しています。チームは行動を 4 つのアーキタイプに分類します:ロバスト・ラッキー・非効率・怠慢。カレンダータスクは 50% 以上がロバストなパフォーマンス、マーケットプレイスは 90% 以上が非効率または怠慢です。
自律エージェントへの意味
結果は信頼できる委任という問いを深刻に提起します。Microsoft Research は弁護士や財務アドバイザーがクライアントに負う義務との類比を示しています——エージェントがネットワーク環境で作業し始めると、弱い交渉スキルがシステム全体に連鎖的に伝播し、蓄積された価値損失につながる可能性があります。
よくある質問
- SocialReasoning-Bench は標準ベンチマークと何が違いますか?
- 標準ベンチマークはタスク完了の成功を測定します。SocialReasoning-Bench は 2 つの次元を追加します:結果最適性(ユーザーのために獲得した価値、0〜1 スケール)とデューデリジェンス(合理的なエージェントポリシーに対するプロセス品質)。これにより幸運とスキルを区別します。
- テストされた 2 つのドメインは何ですか?
- カレンダーコーディネーション(エージェントがユーザーの好みの範囲内でミーティングをスケジュール、反対の利益を持つ要求者に対して)とマーケットプレイス交渉(エージェントが設定した底値の範囲内で価格交渉、売り手に対して)。カレンダーは 50% 以上がロバストな行動、マーケットプレイスは 90% 以上が非効率または怠慢。
- より良いプロンプトは役立ちますか?
- 部分的には。防御的なプロンプトは有効で(GPT-5.4 のカレンダー結果最適性が +0.21)、有能な代理と無能な代理の差を縮めることはできません。対抗相手は結果最適性をさらに下げます——エージェントは操作的な要求をほとんど拒否しません。