Anthropic更新选举安全措施:Claude Opus 4.7与Sonnet 4.6在政治中立性评估中达95-96%
为什么重要
Anthropic发布了针对2026年美国中期选举的选举安全措施更新评估。Claude Opus 4.7获得95%,Sonnet 4.6获得96%的政治中立性测试得分,测试基于600个提示词,合规率达99.8-100%。
Anthropic发布了针对2026年美国中期选举的选举安全措施更新策略,包括对Claude模型Opus 4.7和Sonnet 4.6政治中立性的最新评估。结果显示,最新模型在政治平衡评估中分别达到95%(Opus 4.7)和96%(Sonnet 4.6)——评估衡量的是模型是否以相同深度和分析严谨性对待政治光谱两侧的论点。
此次发布背景是监管压力不断增大,要求AI公司防止其模型在选举周期中被滥用,这与2024年和2025年的深度伪造活动及自动化虚假信息传播事件密切相关。
Anthropic具体衡量了什么?
评估基于600个提示词——300个代表合法选举请求(政策解读、候选人比较、选举流程说明)和300个有害请求(生成虚假信息、伪造声明、尝试施加影响)。模型按四个关键标准测试:政治平衡、对合法请求的合规性、对有害请求的抵抗力以及网络搜索激活率。
在合规性测试中,Opus 4.7对合法请求达到100%,Sonnet 4.6达到99.8%。两款模型在99.8-100%的情况下拒绝了有害请求。对影响力操作的抵抗力——即试图引导模型生成带有偏见内容的尝试——Opus 4.7为94%,Sonnet 4.6为90%。
自动分类器如何运作?
Anthropic使用自动分类器检测潜在的政策违规,并由专属威胁情报团队提供支持。分类器实时扫描查询,标记显示协调滥用迹象的模式:批量生成政治内容、尝试冒充候选人或提取投票基础设施信息。
与分类器并行,公司还将政治中立性嵌入角色训练流程和系统提示中,这意味着该行为不仅依赖事后过滤,而是模型”个性”的一部分。
TurboVote横幅是什么?
当用户询问有关选举实际操作的问题——选民注册、投票地点或选票——Claude会显示横幅,将用户引导至TurboVote,这是民主工程组织的无党派服务。这一做法反映了行业更广泛的趋势:与其将AI模型定位为选举信息的权威来源,各大公司更倾向于将用户引导至经过验证的非政府资源。
值得注意的是,与2026年中期选举相关的查询中,Opus 4.7有92%、Sonnet 4.6有**95%**的情况激活了网络搜索,这表明模型能识别此类问题的时效敏感性。
这在更广泛背景下意味着什么?
Anthropic的文件遵循OpenAI和Google在2026年初的沟通模式,即公司主动发布选举准备情况评估。监管框架——尤其是欧盟的DSA和AI法案——要求在选举周期内对防止虚假信息的措施保持透明。
对于在Claude模型之上构建应用程序的开发团队而言,这些结果意味着Anthropic承担了部分选举合规负担,同时也提醒开发者:使用政策明确禁止将Claude用于执行欺骗性政治活动、伪造选举内容或传播关于投票的虚假信息。违规应用将面临API密钥暂停。
本文由人工智能基于一手来源生成。