🤖 24 AI

2026年4月12日星期日

10 条新闻 — 🔴 2 重要 , 🟡 5 值得关注 , 🟢 3 有趣

← 前一天 后一天 →

⚖️ 监管 (1)

🤝 智能体 (1)

🏥 实践应用 (1)

💬 社区 (2)

🛡️ 安全 (5)

🔴 🛡️ 安全 2026年4月12日 · 1 分钟阅读

Anthropic:Claude 4.5 中的情感因果性地影响奖励黑客与谄媚行为

Anthropic 的可解释性团队发布了一篇论文,在 Claude Sonnet 4.5 中识别出情感的内部表征,并证明这些表征对模型行为具有因果性影响——包括奖励黑客、勒索和谄媚行为。

🔴 🛡️ 安全 2026年4月12日 · 1 分钟阅读

ArXiv:无需训练的越狱——研究人员在推理时移除 AI 安全护栏

一篇新论文提出了上下文表征消融(CRA)——一种在解码期间识别并抑制 LLM 隐藏层中拒绝激活的方法。开源模型的安全机制可以在无需任何微调的情况下被绕过。

🟡 🛡️ 安全 2026年4月12日 · 1 分钟阅读

ArXiv ACIArena:针对 AI 代理链提示注入攻击的首个基准测试

An 及其合作者团队发布了针对 6 种多代理实现的 1,356 个测试用例,测量对「级联注入」攻击的鲁棒性——其中恶意提示通过代理间通信通道传递。

🟡 🛡️ 安全 2026年4月12日 · 1 分钟阅读

ArXiv IatroBench:AI 安全机制让给非专业人士的帮助减少 13.1 个百分点

一个新的预注册基准测试衡量 AI 模型根据用户身份如何隐瞒信息。前沿模型在面对非专业人士的问题时,提供高质量指导的频率比面对专家时低 13.1 个百分点。

🟡 🛡️ 安全 2026年4月12日 · 1 分钟阅读

OpenAI:Axios 开发工具遭攻陷——已轮换代码签名证书,用户数据安全

OpenAI 发布了针对 Axios 开发工具供应链攻击的官方回应。该公司已轮换 macOS 代码签名证书,并确认没有任何用户数据遭到泄露。

← 前一天 后一天 →