arXiv:2604.21854《边界黑箱》:面向EU AI法案的高风险AI系统统计认证框架
为什么重要
Natan Levy与Gadi Perl于2026年4月23日在ArXiv发表论文,填补了EU AI法案、NIST框架和欧洲委员会公约的监管空白。他们提出了一个包含RoMA与gRoMA工具的两阶段统计框架,可在无需访问模型内部结构的前提下计算可审计的故障率上界。
研究人员Natan Levy与Gadi Perl于2026年4月23日在ArXiv发表了题为*《Bounding the Black Box》*(arXiv:2604.21854)的论文,直接切入一个困扰监管机构和产业界长达两年的问题——当没有任何法律以数字形式定义「足够安全」时,如何证明高风险AI系统已经足够安全?
这篇长达11页的论文,恰好发布于EU AI法案正式进入执行阶段之际。包括克罗地亚Hanfa、各部委和大型企业在内的机构,都必须在尚无明确方法论依据的情况下,开始对其AI系统进行合规性评估。
具体的监管空白在哪里?
作者以清晰而精确的方式表述了问题。三项核心监管工具——EU AI法案、NIST风险管理框架(RMF)和欧洲委员会AI、人权与法治公约——均要求高风险系统运营者在上线前证明安全性。然而,正如作者所言:「none specifies what ‘acceptable risk’ means in quantitative terms, and none provides a technical method for verifying that a deployed system actually meets such a threshold.」
换言之,监管机构要求提供证明,却既不说明需证明什么,也不说明如何证明。这造成了义务方的法律不确定性,并为「合规剧场」——即缺乏真实质量衡量的纸面风险评估——提供了滋生土壤。
两阶段框架是如何设计的?
Levy与Perl提出的框架受航空安全协议启发——安全性的证明依赖于测量低于预定义阈值的故障率,而非期望与侥幸。
第一阶段——政策层面。 主管机构(在EU语境下,指各国监管机构或欧洲AI办公室)正式确定两个数值:以δ(delta)表示的可接受故障概率,以及以ε(epsilon)表示的输入操作域。这一步骤属于政策与法律决策,而非技术决策——定义「可接受」的权力主体,负责设定门槛。
第二阶段——技术层面。 统计工具RoMA与gRoMA在给定操作域ε上计算系统实际故障率的可审计上界。若上界低于δ,系统通过认证;否则不通过。
为何RoMA方法对封闭模型尤为重要?
根据摘要,RoMA与gRoMA工具的核心技术特点在于无需访问模型内部结构。审计人员无需权重、梯度或架构细节——仅需输入和输出数据,即可计算故障率的统计边界。
这对欧洲市场至关重要,因为大多数将受EU AI法案约束的高风险系统将是封闭式商业模型(OpenAI、Anthropic、Google、Mistral)。任何需要访问模型权重的认证方法在实践中均不可行。RoMA使第三方机构能够对黑箱系统进行有意义的验证。
对克罗地亚义务方和监管机构意味着什么?
对于开发或集成高风险AI系统(医疗、金融、HR流程、关键基础设施)的克罗地亚企业,该论文提供了一个具体的技术模板,可在监管机构尚未发布自身指南时用于自评合规性。该方法在与供应商谈判时也具有参考价值——可要求模型厂商提供以RoMA方式计算的统计证据,而非通用的「模型卡」声明。
对于AZOP等监管机构以及克罗地亚潜在的未来AI监督机构,该论文提供了一个经学术发表、经过同行评审且技术上足够具体的方法论起点,可被纳入次级法规。摘要未涉及具体的p值阈值或案例研究,意味着在实施前需阅读论文全文,但方向已经明确:AI安全的量化认证已不再是理论问题,而是现实操作挑战。
本文由人工智能基于一手来源生成。