Microsoft Research:SocialReasoning-Bench 揭示 AI 智能体能完成任务但不能维护用户利益
SocialReasoning-Bench 是微软研究院新发布的基准测试,衡量 AI 智能体在与其他方谈判时是否真正维护用户利益——而不仅仅是完成任务。结果显示模型几乎能完美达成交易,但在市场场景中始终将价值留给对方,90%+ 的结果被归类为低效或疏忽。
本文由人工智能基于一手来源生成。
微软研究院发布了 SocialReasoning-Bench,这是一个新的基准测试,用于评估 AI 智能体在与其他方谈判时维护用户利益的能力。目标是填补现有评估中的关键空白:智能体完成任务,但往往以对被代理方次优的结果告终。
两个领域,三项指标
基准测试涉及两个领域。在日历协调中,助手在用户偏好范围内安排会议,面对具有相反利益的请求方。在市场谈判中,买方在设定的「底价」范围内谈判,面对卖方。衡量三个维度:结果最优性(为委托方获取的价值,0-1 分)、尽职调查(相对于合理智能体策略的过程质量)以及诚信责任(同时满足前两者,确认受信任的委托能力)。
结果显示什么?
智能体几乎在所有情况下都能调度会议和达成交易,「但始终获得次优条件」,团队写道。几乎所有模型的市场结果在结果最优性上接近零——意味着对方获取了几乎全部剩余价值。日历结果较好但低于量表中点,表明智能体接受请求方偏好的频率高于用户偏好。
更好的提示词不够
防御性提示有帮助——GPT-5.4 在日历结果最优性上获得 +0.21——但无法弥合有效代理与无效代理之间的差距。对抗性对手会进一步拉低结果:智能体在日历任务中很少拒绝操纵性请求,表明存在社会工程学脆弱性。团队将行为分为四类:稳健、幸运、低效、疏忽。日历任务显示 50%+ 的稳健表现,市场任务 90%+ 为低效或疏忽。
对自主智能体意味着什么?
结果严重质疑了受信任委托的可行性。微软研究院将其与律师和财务顾问对客户所负义务进行类比——当智能体开始在互联环境中工作时,薄弱的谈判能力会级联传播到系统中,可能导致累积的价值损失。
常见问题
- SocialReasoning-Bench 与标准基准测试有何不同?
- 标准基准测试衡量任务完成成功率。SocialReasoning-Bench 增加了两个维度:结果最优性(为用户获取了多少价值,0-1 分)和尽职调查(相对于合理智能体策略的过程质量)。这区分了运气与技能。
- 测试了哪两个领域?
- 日历协调(智能体在用户偏好范围内调度会议,面对具有相反利益的请求方)和市场谈判(智能体在设定的底线内谈判价格,面对卖方)。日历显示 50%+ 的稳健行为,市场 90%+ 为低效或疏忽。
- 更好的提示词有帮助吗?
- 有部分帮助。防御性提示有效——GPT-5.4 在日历任务中结果最优性得分 +0.21——但无法弥合有效代理与无效代理之间的差距。对抗性对手尤其有效地降低结果最优性——智能体很少拒绝操纵性请求。