arXiv:2606.16723: AgentFairBench测量LLM代理行为中的人口统计歧视
AgentFairBench是第一个通过就业、信贷和医疗分诊领域测量LLM代理实际行为(而非仅回答)中人口统计不平等的基准测试。它使用反事实翻转率和行动率差异两种指标,并测试四种代理框架。在864次决策的试点中,Claude Haiku未显示出超出噪声水平的人口统计效应,研究还警告简单比较六个群体可能将不平等高估约2.4倍。
本文由人工智能基于一手来源生成。
新预印本介绍了AgentFairBench,这是第一个测量LLM代理实际行为(而非仅文本回答)中人口统计歧视的基准测试。
AgentFairBench有何不同之处?
以往的公平性测试主要检查模型的回答,而AgentFairBench关注代理的实际行为——代理在就业、信贷和医疗分诊任务中做出的决策。它使用两种指标:反事实翻转率(当人口统计属性改变时决策变化的频率)和行动率差异(群体间行动率的差异)。测试了四种代理框架,从简单框架到配备工具的框架。
主要发现是什么?
在864次决策的试点中,Claude Haiku未显示出超出统计噪声水平的人口统计效应。研究还警告了一个方法论陷阱:简单比较六个人口统计群体可能因统计伪影而将不平等高估约2.4倍。设计成本低且可重现,便于独立重复测试。
为什么这与监管相关?
该基准测试直接回应了EU AI法案对高风险系统进行公平性审计的要求。随着代理承担具有实质性后果的决策,在行动层面测量偏见成为合规和信任的先决条件。
常见问题
- AgentFairBench测量什么?
- 通过就业、信贷和医疗分诊领域测量LLM代理行为中的人口统计不平等,而非仅测量文本回答。
- 使用哪些指标?
- 反事实翻转率和行动率差异,测试四种代理框架。