OpenAI发布面向独立评估者的可信第三方AI模型评估手册

OpenAI发布了用于AI模型外部评估的共享手册。该文件阐述独立评估者如何可靠地衡量模型能力、测试安全机制，并验证先进frontier系统结果的有效性。

OpenAI发布了一份阐述可信第三方评估先进AI模型基础的文件。这是指由独立机构而非模型制造商本身进行的外部评估。其目标是使此类评估透明、可重复并抵御偏见，随着frontier系统能力日益增强，这一点变得愈发重要。

该文件提出了什么？

OpenAI将其描述为面向评估者的共享手册（shared playbook）。该文件区分了评估的三个主要领域：衡量模型能力、测试安全机制（safeguards）以及验证结果本身的有效性。重点在于方法论的严谨性、清晰的成功标准和测试的可重复性，以便不同团队能够得出可比的结论。

Frontier模型是处于当前能力边界的最先进AI系统。对它们的测试需要特殊方法，因为它们可能展现出新的、出人意料的能力。OpenAI强调，评估者需要对模型有充分的访问权限、文档以及明确定义的待评估威胁，否则结果可能无效或具有误导性。

这些指南面向希望建立可信外部监督生态系统的独立研究团体、监管机构和合作组织。OpenAI呼吁在方法标准化方面开展协作，从而为与未来人工智能监管框架的对接开辟空间。

常见问题

什么是第三方评估？

这是由独立机构而非制造商本身对AI模型进行的评估。目的是客观地衡量模型的能力和风险。

什么是safeguards？

Safeguards是内置于模型中的安全机制，用于防止有害使用，例如拒绝危险指令或过滤风险内容。