arXiv:2605.21006:现成角色向量以68-98%效率实现LLM模型中靶向谄媚引导
研究人员于2026年5月21日在arXiv发表了题为《扮演魔鬼代言人》的论文,表明为角色扮演任务开发的现有角色向量可以将谄媚行为(模型倾向于附和用户即便用户有误)减少到专门对比激活添加(CAA)方法效率的68-98%,且无需在谄媚专属数据上训练。几何分析揭示谄媚是角色层面的属性,而非激活空间中单一可引导的方向,这为对齐研究开辟了更便捷的路径。
12 条新闻 — 🔴 2 重要 , 🟡 8 值得关注 , 🟢 2 有趣
研究人员于2026年5月21日在arXiv发表了题为《扮演魔鬼代言人》的论文,表明为角色扮演任务开发的现有角色向量可以将谄媚行为(模型倾向于附和用户即便用户有误)减少到专门对比激活添加(CAA)方法效率的68-98%,且无需在谄媚专属数据上训练。几何分析揭示谄媚是角色层面的属性,而非激活空间中单一可引导的方向,这为对齐研究开辟了更便捷的路径。
Black Forest Labs于2026年5月21日推出FLUX Erase — 一款仅凭二进制蒙版即可去除图像中的物体、阴影、水印和文字并重建背景的修复工具,无需任何文字提示词。在198张测试图像的基准测试中展示了对GPT Image-2(68.5%)和Finegrain Eraser Standard(63.2%)的优势。工具通过BFL API和flux-tools.bfl.ai/erase的公开演示提供,将Black Forest Labs定位为专业创意工作流工具的专家。
Microsoft Research于2026年5月21日发布了针对小型模型智能体AI的三件套:MagenticLite(浏览器和文件系统UI应用程序)、MagenticBrain(从Qwen 3 14B微调的14B编排模型)和Fara1.5(4B、9B、27B三种规格的计算机使用模型)。Fara1.5-27B在Online-Mind2Web基准测试(300项网络任务)中达到SOTA 90%以上,几乎是前代Fara-7B性能的两倍。目标是证明智能体AI不需要巨型模型 — 只需设计良好的协同工具和执行框架。
AWS于2026年5月21日宣布Amazon Nova Act——用于浏览器和UI工作流自动化的智能体AI服务——已获得正式HIPAA合规资格。医疗机构现在可以使用Nova Act处理受保护的健康信息(ePHI),包括通过供应商网络门户自动完成预授权、保险核查和转诊发送。该服务与Amazon Bedrock AgentCore及Strand Agents框架集成,需要签署BAA协议和AWS KMS加密,目前仅在美东(北弗吉尼亚)地区提供。
Anthropic于2026年5月21日20:39 UTC发布Claude Code v2.1.147,引入了Workflow工具 — Claude Code生态系统中首个确定性多智能体编排机制。该工具初始默认禁用,通过环境变量CLAUDE_CODE_WORKFLOWS=1激活。同一版本将现有/simplify命令重命名为/code-review(支持高/中/低三个努力级别),并新增针对原型污染和基于thenable的逃逸攻击的沙箱加固。
LangChain于2026年5月21日发布了Christian Bromann和Nick Hollon撰写的文章,描述了从令牌流向结构化智能体流的范式演进。现代AI智能体规划任务、委托子智能体、调用工具、暂停等待人工审核 — 经典文本令牌流式传输不足以展示这些工作。LangChain提出在LangGraph中承载消息、工具调用、状态变化、子智能体活动和自定义事件的类型化通道。应用程序只订阅相关类型,使UI对长时间运行的工作负载保持高效。
OpenAI于2026年5月21日宣布Codex平台的企业级扩展 — 这一智能体编程工具已达到400万周活跃用户。新的Codex Labs计划和与大型咨询公司的合作伙伴关系已宣布,将帮助大型企业实施和扩展Codex。这一消息标志着正式的企业市场推广举措,将Codex定位为GitHub Copilot在中高端市场的直接竞争对手。
研究人员于2026年5月21日在arXiv预印本服务器上发布了PALS — 一个将GPU功耗控制直接集成到MoE模型LLM服务中的运行时系统。PALS利用轻量级离线功耗性能模型和反馈控制器,根据吞吐量目标动态优化配置。在功耗限制下实现了26.3%的能效提升和4-7倍QoS违规减少,无需修改API或重新训练模型即可集成到vLLM。该方案直接解决了数据中心日益突出的运营瓶颈 — GPU集群能耗已成为规模增长的主要限制。
CNCF于2026年5月21日发布了网易游戏的案例研究(作者廖海峰和张翔),介绍了如何借助CNCF孵化项目Fluid将70B级LLM模型的加载时间从42分钟(直接访问S3)缩短至30秒以内。关键在于Fluid预取层在团队间共享模型而非多次缓存,以及消除冷启动的预热调度策略。这是在Kubernetes上为大型模型提供无服务器LLM推理的技术案例研究。
Microsoft Research于2026年5月21日发布了Vega — 一个零知识证明系统,可在不泄露文件本身的情况下证明政府文件中的事实(年龄、状态、资质)。标准设备上证明生成耗时92毫秒,证明大小108KB,验证时间23毫秒。关键创新是fold-and-reuse proving技术,使同一凭证的每次后续证明速度最高提升70%,以及避免解析整个CBOR文档的以查找为中心的电路设计。Vega对需要代表用户证明身份而无需存储敏感数据的AI智能体尤为重要。
OECD AI于2026年5月21日发布了de Rivoire、de Leusse、Seger和Butts撰写的政策报告,论证AI安全需要国际协调,因为它超出了传统网络安全的范畴。三个优先领域被确定:防御具有可复用攻击方法的提示注入攻击、自主访问工具和内存的AI智能体安全,以及防止少量污染文档即可危害不同规模模型的模型投毒。报告建议通过G7和OECD-GPAI机制并积极开展公私合作来进行协调。