🟡 ⚖️ 监管 2026年4月12日星期日 · 1 分钟阅读
ArXiv:人类-AI 集体中完整问责的数学不可能性证明
为什么重要
研究人员 Tibebu 证明了一个形式化的不可能性结果:在 AI 代理自主性的某个阈值之上,在结合人类和 AI 的系统中,问责性的所有四个属性不能同时成立。
监管者的理论框架
当关于 AI 问责的讨论在公共场合大多停留在直觉层面(“必须有人承担责任”)时,作者 Tibebu 从正式角度处理这个问题。于 4 月 10 日在 ArXiv 上发布的论文 The Accountability Horizon 为结合人类和 AI 代理的系统证明了一个不可能性定理。
问责的四个属性
Tibebu 定义了我们期望每个”负责任的”社会技术系统具备的四个属性:
- 归因 — 对于每个动作,必须存在可识别的行为者
- 可理解性 — 决策的原因必须对监督实体可理解
- 可制裁性 — 必须存在惩罚错误决策的机制
- 可纠正性 — 系统必须能够从错误中学习并且不重复它们
主要定理
在 AI 代理自主性的某个阈值之上(作者称之为”问责地平线”),所有四个属性不能同时成立。换句话说,我们赋予 AI 系统的自主性越多,我们就越难有意义地谈论问责。
张力的具体示例:
- 当多个代理协调时归因减弱(参见同日的 ACIArena 论文)
- 当代理使用不对应于人类概念的潜在表征时,可理解性减弱
- 当决策涉及分布式计算时,可制裁性减弱
- 当 RLHF 更新具有不可预测的副作用时,可纠正性减弱
对欧盟 AI 法案和其他法规的影响
这篇论文对试图在开发者、部署者和 AI 系统用户之间”分配”责任的法规具有实际后果。Tibebu 建议,如果自主性超过某个阈值,这种尝试就无法成功——监管者应对自主性水平设定硬性上限,而不是事后试图分配责任。
🤖 本文由人工智能基于一手来源生成。