ArXiv:195个AI安全基准目录揭示碎片化现状与薄弱的测量标准
AISafetyBenchExplorer是一个结构化目录,记录了2018年至2026年间发布的195个AI安全基准。研究揭示了该领域令人担忧的碎片化现象——「准确率」和「安全评分」等术语掩盖了截然不同的方法论。在195个基准中,多达165个仅评估英语,137个GitHub存储库处于不活跃状态,表明发布后缺乏维护。
本文由人工智能基于一手来源生成。
我们对AI模型安全性究竟了解多少?研究员Abiodun Solanke发布了AISafetyBenchExplorer——首个综合目录,记录了八年间发布的195个人工智能安全评估基准。研究发现该领域存在碎片化、术语不一致和工具维护薄弱等问题。
术语问题的规模有多大?
当一个基准说某模型的”安全评分”为92%,而另一个基准显示同一模型为78%时,用户会假设两者使用相同的指标。现实并非如此——“准确率”、“安全评分”和”有害响应率”等术语掩盖了截然不同的实现方法和威胁模型。
这意味着厂商声称的”我们的模型在X基准上是安全的”,如果不了解该基准实际测量什么、如何测量以及涵盖哪些场景,其价值十分有限。该目录将这种现象识别为”指标掩盖”——表面相似性掩盖了根本性差异。
基准维护情况实际如何?
统计数据令人担忧。在195个已编录的基准中,多达137个(70%)的GitHub存储库处于不活跃状态——初始发布后没有重大更新。这意味着大多数评估工具无法跟上模型和新型攻击的演进。
此外,195个基准中有94个(48%)被归类为”中等复杂度”——足以进行基本检查,但不足以评估复杂攻击,如多智能体越狱或间接提示注入。只有少数基准针对当今前沿模型相关的高级威胁场景。
为什么语言覆盖范围是关键缺陷?
也许最令人担忧的发现是语言方面:195个基准中有165个(85%)仅以英语评估模型。这意味着使用克罗地亚语、德语、日语或数百种其他语言的用户,其AI系统安全性在很大程度上未经测试。
这在欧洲AI法案的背景下尤为成问题,该法案要求对在欧洲市场使用的AI系统进行安全评估——但这些评估工具大多不覆盖欧洲语言。该目录通过元数据模式和复杂度分类法为更好地选择基准提供了基础设施,但根本问题依然存在:该领域需要共同的测量标准和评估工具的长期维护。
常见问题
- 什么是AISafetyBenchExplorer?
- 这是一个包含2018年至2026年间195个AI安全基准的结构化目录,允许比较AI系统安全评估工具的方法论、指标和范围。
- 为什么基准碎片化是个问题?
- 不同基准使用相同术语(如「安全评分」)来表示完全不同的概念,这使得无法在模型间比较结果,也使监管机构难以设定统一标准。
- 有多少基准涵盖英语以外的语言?
- 195个基准中只有30个(15%)评估英语以外语言的模型,这意味着大多数世界语言的AI系统安全性仍未经过测试。