SocialReasoning-Bench：AI 智能体在谈判中丢失用户价值

SocialReasoning-Bench 是微软研究院新发布的基准测试，衡量 AI 智能体在与其他方谈判时是否真正维护用户利益——而不仅仅是完成任务。结果显示模型几乎能完美达成交易，但在市场场景中始终将价值留给对方，90%+ 的结果被归类为低效或疏忽。

微软研究院发布了 SocialReasoning-Bench，这是一个新的基准测试，用于评估 AI 智能体在与其他方谈判时维护用户利益的能力。目标是填补现有评估中的关键空白：智能体完成任务，但往往以对被代理方次优的结果告终。

两个领域，三项指标

基准测试涉及两个领域。在日历协调中，助手在用户偏好范围内安排会议，面对具有相反利益的请求方。在市场谈判中，买方在设定的「底价」范围内谈判，面对卖方。衡量三个维度：结果最优性（为委托方获取的价值，0-1 分）、尽职调查（相对于合理智能体策略的过程质量）以及诚信责任（同时满足前两者，确认受信任的委托能力）。

结果显示什么？

智能体几乎在所有情况下都能调度会议和达成交易，「但始终获得次优条件」，团队写道。几乎所有模型的市场结果在结果最优性上接近零——意味着对方获取了几乎全部剩余价值。日历结果较好但低于量表中点，表明智能体接受请求方偏好的频率高于用户偏好。

更好的提示词不够

防御性提示有帮助——GPT-5.4 在日历结果最优性上获得 +0.21——但无法弥合有效代理与无效代理之间的差距。对抗性对手会进一步拉低结果：智能体在日历任务中很少拒绝操纵性请求，表明存在社会工程学脆弱性。团队将行为分为四类：稳健、幸运、低效、疏忽。日历任务显示 50%+ 的稳健表现，市场任务 90%+ 为低效或疏忽。

对自主智能体意味着什么？

结果严重质疑了受信任委托的可行性。微软研究院将其与律师和财务顾问对客户所负义务进行类比——当智能体开始在互联环境中工作时，薄弱的谈判能力会级联传播到系统中，可能导致累积的价值损失。

常见问题

SocialReasoning-Bench 与标准基准测试有何不同？

标准基准测试衡量任务完成成功率。SocialReasoning-Bench 增加了两个维度：结果最优性（为用户获取了多少价值，0-1 分）和尽职调查（相对于合理智能体策略的过程质量）。这区分了运气与技能。

测试了哪两个领域？

日历协调（智能体在用户偏好范围内调度会议，面对具有相反利益的请求方）和市场谈判（智能体在设定的底线内谈判价格，面对卖方）。日历显示 50%+ 的稳健行为，市场 90%+ 为低效或疏忽。

更好的提示词有帮助吗？

有部分帮助。防御性提示有效——GPT-5.4 在日历任务中结果最优性得分 +0.21——但无法弥合有效代理与无效代理之间的差距。对抗性对手尤其有效地降低结果最优性——智能体很少拒绝操纵性请求。

Microsoft Research：SocialReasoning-Bench 揭示 AI 智能体能完成任务但不能维护用户利益

两个领域，三项指标

结果显示什么？

更好的提示词不够

对自主智能体意味着什么？

常见问题

来源

相关新闻