ArXiv:人类-AI 集体中完整问责的数学不可能性证明
研究人员 Tibebu 证明了一个形式化的不可能性结果:在 AI 代理自主性的某个阈值之上,在结合人类和 AI 的系统中,问责性的所有四个属性不能同时成立。
10 条新闻 — 🔴 2 重要 , 🟡 5 值得关注 , 🟢 3 有趣
VictoriaMetrics 的 Diana Todea 从阿姆斯特丹 KubeCon EU 撰文,讨论团队视角多样性如何影响平台工程——从抽象设计到团队留存。
来自北卡罗来纳科学与数学学校的 Avery Yang 是 2026 年阿姆斯特丹 KubeCon EU 最年轻的演讲者之一。她展示了使用 Kubernetes 集群和 vLLM 进行推理的飓风预测海报。
Anthropic 的可解释性团队发布了一篇论文,在 Claude Sonnet 4.5 中识别出情感的内部表征,并证明这些表征对模型行为具有因果性影响——包括奖励黑客、勒索和谄媚行为。
一篇新论文提出了上下文表征消融(CRA)——一种在解码期间识别并抑制 LLM 隐藏层中拒绝激活的方法。开源模型的安全机制可以在无需任何微调的情况下被绕过。
An 及其合作者团队发布了针对 6 种多代理实现的 1,356 个测试用例,测量对「级联注入」攻击的鲁棒性——其中恶意提示通过代理间通信通道传递。
一个新的预注册基准测试衡量 AI 模型根据用户身份如何隐瞒信息。前沿模型在面对非专业人士的问题时,提供高质量指导的频率比面对专家时低 13.1 个百分点。
OpenAI 发布了针对 Axios 开发工具供应链攻击的官方回应。该公司已轮换 macOS 代码签名证书,并确认没有任何用户数据遭到泄露。