arXiv:2605.21006:现成角色向量以68-98%效率实现LLM模型中靶向谄媚引导
研究人员于2026年5月21日在arXiv发表了题为《扮演魔鬼代言人》的论文,表明为角色扮演任务开发的现有角色向量可以将谄媚行为(模型倾向于附和用户即便用户有误)减少到专门对比激活添加(CAA)方法效率的68-98%,且无需在谄媚专属数据上训练。几何分析揭示谄媚是角色层面的属性,而非激活空间中单一可引导的方向,这为对齐研究开辟了更便捷的路径。
92 条新闻
研究人员于2026年5月21日在arXiv发表了题为《扮演魔鬼代言人》的论文,表明为角色扮演任务开发的现有角色向量可以将谄媚行为(模型倾向于附和用户即便用户有误)减少到专门对比激活添加(CAA)方法效率的68-98%,且无需在谄媚专属数据上训练。几何分析揭示谄媚是角色层面的属性,而非激活空间中单一可引导的方向,这为对齐研究开辟了更便捷的路径。
Black Forest Labs于2026年5月21日推出FLUX Erase — 一款仅凭二进制蒙版即可去除图像中的物体、阴影、水印和文字并重建背景的修复工具,无需任何文字提示词。在198张测试图像的基准测试中展示了对GPT Image-2(68.5%)和Finegrain Eraser Standard(63.2%)的优势。工具通过BFL API和flux-tools.bfl.ai/erase的公开演示提供,将Black Forest Labs定位为专业创意工作流工具的专家。
OpenAI宣布其AI模型解决了单位距离问题——这是离散几何学的核心猜想,自Paul Erdős于1946年提出以来悬而未决逾80年。公司将此结果描述为AI驱动数学研究的里程碑:模型不仅验证了既有命题,更通过构造反例将其推翻。
被ICML 2026收录的arXiv预印本通过受控预训练实验表明,可执行代码本身并不能改善LLM模型的整体推理能力——代码大幅提升了编程能力,但在标准模式下与数学任务存在竞争关系。数学方面的真正进步来自跨领域结构化推理轨迹(代码-文本与数学-文本混合),对专家混合模型的机制分析在专家激活模式中揭示了这些交互关系。
Google在Google I/O 2026发布Gemini 3.5 Flash和Pro——速度比竞争对手快4倍的前沿模型,重点强调智能体任务、面向开发者的全新Antigravity 2.0平台,以及全天候运行的个人AI智能体Gemini Spark。
Google在I/O 2026发布Gemini Omni Flash——新款多模态模型,可从图像、音频、视频和文本的组合中生成和编辑视频。即日起在YouTube Shorts可用,每个生成片段均附带SynthID数字水印。
Google在《自然》杂志发表ERA(实证研究助手)——基于Gemini的系统,通过树搜索评估数千种计算方法并自动化编写专业科学软件。Computational Discovery平台已向研究人员开放,通过Google Labs提供访问。
研究人员发布了OScaR,一种解决大型语言模型KV缓存量化根本问题的方法。采用INT2精度——每个数值仅用2比特——实现了几乎无损的精度、3倍解码加速、5.3倍内存压缩,以及与BF16 FlashDecoding-v2相比4.1倍的吞吐量提升。
arXiv论文2605.15514从数学上证明:旋转位置编码(RoPE)——几乎所有现代大型语言模型(包括Llama、Mistral、Qwen和GPT-NeoX)使用的位置机制——在长上下文中会失去区分位置和词元的能力。作者得出结论:需要从根本上创新架构机制。
Anthropic于2026年5月18日更新了Claude API中的网络搜索工具,使其能够返回来自SEC申报文件的更丰富结构化数据——包括10-K、10-Q和8-K文档。此次升级便于构建用于收益分析、尽职调查和引用主要来源研究的金融智能体。
研究人员在38个模型和8900多条引用上证明,LLM的事实召回遵循sigmoid曲线:参数数量与主题在训练数据中出现频率的组合解释了60–94%的方差。幻觉并非随机——它们是可预测的和可测量的。
GitHub于2026年5月17日宣布,GPT-5.3-Codex取代GPT-4.1,成为Copilot Business和Enterprise的基础模型。此次变更仅适用于企业级套餐(不含Copilot Pro、Pro+或Free)。GPT-5.3-Codex是首个LTS(长期支持)模型——保障从2026年2月5日至2027年2月4日共12个月的可用性。定价方面:1×高级请求乘数;GPT-4.1在2026年6月1日弃用前继续以0×乘数强制启用。
FLUX Outpainting是Black Forest Labs于2026年5月14日发布的新图像生成功能,通过专用扩展端点向任意方向扩展图像。用户指定目标画布尺寸和位置坐标——模型在扩展区域保留光线、纹理、深度和构图,无需文本提示。最高4MP输出,可通过BFL API访问,公开演示地址为flux-tools.bfl.ai/outpainting。
Amazon Nova 2 Sonic是第二代语音到语音基础模型,于2026年5月14日通过Amazon Bedrock发布。消除了对独立语音转文字和文字转语音服务的需求——端到端延迟低于500毫秒,通过Stream边缘网络音频延迟低于30毫秒,原生轮次检测、打断支持及对话中的函数调用。Stream Vision Agents框架抽象了双向音频流管理。
OpenDeepThink 是由 Shang Zhou 及合作者于 2026 年 5 月 14 日在 arXiv 上发布的新型基于种群的测试时计算扩展方法。该框架并行采样多个推理候选方案,通过逐对 Bradley-Terry 比较(而非逐点 LLM 评判)选出最佳结果。结果:Gemini 3.1 Pro 经过 8 轮序列 LLM 调用(约 27 分钟),在 Codeforces 基准测试中获得 +405 Elo 提升。团队还发布了包含 73 道专家评分 Codeforces 题目的 CF-73 数据集。
SU-01 是2026年5月14日在 arXiv 发布的全新推理训练方法论(Yafu Li 及27位共同作者,通讯作者 Runzhe Zhan)。30B 参数 A3B 骨干网络通过三个连续阶段——340K 轨迹上的逆困惑度课程 SFT、两阶段 RL 和测试时扩展——在 IMO 2025、USAMO 2026 和 IPhO 2024-2025 达到金牌水平。推理链可延伸至 100K+ 词元。
AIMIP(AI模型比较项目)是Allen Institute联合NVIDIA、谷歌研究院、华盛顿大学、马里兰大学和ArchesWeather团队于2026年5月13日发布的新型AI气象和气候模型社区基准测试。第一阶段对八个AI模型模拟的评估显示历史数据误差减少了一半——但同时也暴露出在长期变暖趋势上的严重泛化能力不足。
GridSFM是微软研究院于2026年5月13日发布的新型电力系统小型基础模型。它能在毫秒内对500至80000节点的电网进行交流最优潮流近似,比DC近似快100倍,比完整AC求解器快1000倍。中位成本差为2.23%,可行性检测达94.5%/96.1%,模型每年有望节省200亿美元的拥塞成本。
Claude Opus 4.7 Fast Mode 是 Anthropic API 的新研究预览功能,于 2026 年 5 月 12 日发布,可显著加快最强 Anthropic 模型的输出 token 生成速度,但需支付额外费用。开发者通过 speed="fast"参数、model claude-opus-4-7 以及 fast-mode-2026-02-01 测试版标头来激活该模式。访问权限、速率限制和定价与 Opus 4.6 Fast Mode 版本相同。
MatterSim 是 Microsoft Research 用于材料科学的新基础模型,其成果于 2026 年 5 月 12 日发布。该模型预测了经实验合成并测量热导率为 152 W/m/K(接近硅的水平)的四方晶系 TaP。MatterSim-v1 推理速度提升 3-5 倍,新的 MatterSim-MT 多任务模型新增了应力张量、磁矩、Born 有效电荷和介电矩阵输出。
vLLM 是一款开源推理引擎,凭借激进的核融合(每层从 33 降至 10 次启动,1.28× 加速)、自定义 EAGLE3 草稿模型推测解码以及线性注意力路径优化,在 DeepSeek V3.2、MiniMax-M2.5 和 Qwen 3.5 397B 三个前沿模型上夺得 Artificial Analysis 排行榜首位。
论文 arXiv:2605.07776 研究大型语言模型推理链中的不确定性追踪。作者(Grünefeld、Højer、Mondorf、Plank、Rogers 等人)开发了「不确定性追踪概况」——一组紧凑特征,通过仅前几百个令牌即可预测准确结果,AUROC 达 0.807(仅用前段令牌时为 0.801)。
一项新研究对14个LLM模型在深度研究任务中进行了测试,发现了巨大差距:链接有效率超过94%,但引文的事实准确率仅为39-77%。关键发现:当工具调用次数从2次增至150次时,引文准确率下降42%,推翻了「检索越多质量越好」的假设。
UCL、Holistic AI和帝国理工学院的研究人员发现LLM在内部以线性方式表示工具选择。均值差向量——两个工具平均激活值的差——添加到激活中,无需任何微调,即可以77-100%的准确率改变12个测试模型(2.7亿至270亿参数)的工具选择。
VHG(验证器支持的困难题目生成)框架解决了为LLM训练创建有效、困难且原创数学题的难题。它在出题者-解题者对偶结构中引入了独立验证器——三方自博弈同时保证题目的有效性和难度。在积分学测试中,VHG显著优于所有基线方法。
价值诱导是一种后训练技术,用于强调特定价值观(helpfulness、harmlessness、honesty)。ACL 2026 Findings中的研究表明,正向价值观的诱导能增强安全性,但所有测试的价值观都会增加拟人化语言,使模型更加「迎合和谄媚」,无论强调的是哪种价值观。
EMO是Allen Institute发布的新MoE语言模型,拥有10亿活跃参数和140亿总参数,在1万亿token上训练。专家自发组织成语义域——仅使用25%活跃专家时性能损失仅1%。
ScaleLogic是一个合成框架,证明了long-horizon推理所需的RL算力遵循深度的幂律:T ∝ D^γ(R² > 0.99)。指数γ随逻辑表达能力从1.04变化到2.60,而更具表达力的训练带来下游结果最高+10.66分的提升。
OpenAI于2026年5月7日在API中发布了三款全新实时语音模型:GPT-Realtime-2具备GPT-5级推理能力和128,000词元的上下文窗口;GPT-Realtime-Translate支持将70余种输入语言翻译为13种输出语言;GPT-Realtime-Whisper提供实时语音转录功能。
Gemini 3.1 Flash-Lite自2026年5月7日起通过Gemini API正式进入全面可用(GA)阶段,作为稳定的生产端点。该模型针对速度、规模和成本效率进行了优化,预览版将于2026年5月25日停止服务。
Terminus-4B是专为智能体系统中的终端执行任务设计的Qwen3微调模型(40亿参数)——在SWE-Bench Pro基准测试上与Claude Sonnet/Opus和GPT-5.3-Codex基线持平甚至超越,同时通过将冗长的构建/测试日志隔离在子智能体上下文中,将主智能体的Token消耗降低约30%。
Gosset是一款配备精选制药数据的专业AI平台,在与四个前沿系统的对比测试中,每次查询返回的已验证药物数量是最佳前沿系统的3.2倍,在十个小众肿瘤学和免疫学靶点上实现了100%精确率和完整召回率。
Google将Gemini文件搜索扩展至多模态图像检索,使用gemini-embedding-2模型,并在基础元数据中加入media_id以支持视觉引用。同时宣布Interactions API重大变更:outputs字段将改为steps,新默认值自2026年5月20日起生效,旧版方案将于2026年6月6日完全移除。
GPT-5.5 Instant 是 OpenAI 于 2026 年 5 月 5 日推出的新 ChatGPT 默认模型。该模型带来更智能、更精确的回答,减少幻觉并提升个性化能力,同时附带系统卡片一并发布。
EvoLM是一种消除外部监督的后训练方法——Qwen3-8B评分生成器在RewardBench-2上超越GPT-4.1达25.7%,在SkyWork-RM上超越16%,训练后的策略在OLMo3-Adapt基准测试中达到69.3%。
Google 将 Gemini API 中的 File Search 扩展至多模态搜索,通过 gemini-embedding-2 模型实现图像和文本文档的原生嵌入和检索。新增两个 grounding 字段及针对 Batch API 的事件驱动 webhook 支持。
Microsoft Research 在 NSDI 2026 上展示了 DroidSpeak,这是一个在架构相同的微调 LLM 变体之间共享 KV 缓存的系统,在拥有数十个领域模型的企业场景中实现了最高 4× 的吞吐量提升,同时质量下降极小。
Ranit Karmakar和Jayita Chatterjee发布了AgentFloor——由30个任务组成的确定性网络,分6个能力级别,用于评估16个开放权重模型(参数量0.27B至32B)及GPT-5。结论:小型模型对于短期、结构化的智能体任务已经足够,而前沿模型仅在受限长期规划上保持明显优势。
Yuxuan Gao、Megan Wang和Yi Ling Yu于2026年5月1日发布了Token Arena——一个在端点层面(78个端点,12个模型系列)评估AI推理的持续基准平台。研究揭示,同一模型在不同端点上的数学/代码基准成绩差异可达12.5分,尾部延迟差异可达数量级,每正确答案能耗差异可达6.2倍。平台在CC BY 4.0许可下发布结果。
美国NIST下属人工智能标准与创新中心(CAISI)于2026年5月1日发布了对DeepSeek V4 Pro模型的独立评估。结论:这是迄今评估过的最强中国AI模型,但在综合能力上落后美国前沿约8个月。评估使用未公开的基准测试,涵盖五个领域:网络安全、软件工程、自然科学、抽象推理和数学。
ICML 2026接收论文通过实证方法证明,增加任务时域长度会由于探索和信用分配问题导致LLM训练严重不稳定。提出的解决方案:在训练时缩短时域,同时在推理阶段引入显式的“时域泛化”机制。该论文为前沿模型训练中的任务时域扩展建立了首批实证规律。
AdaMeZO是一种零阶优化器,将Adam算法的优势与MeZO的内存高效性相结合,用于大语言模型微调。仅使用前向传播,相比MeZO减少最多70%的传播次数,同时提升收敛性。
BWLA是一个新的大型语言模型训练后量化框架,首次在不显著损失精度的情况下同时实现1位权重精度和低位激活。在Qwen3-32B模型上实现困惑度11.92,与现有方法相比推理速度提升3.26倍。
研究人员提出 Latent-GRPO,一种针对潜在推理(推理步骤被压缩为连续表示)的稳定化 RL 方法。他们识别出在潜在空间中直接应用 GRPO 的三个根本性问题——无效潜在状态、奖励信号与 token 更新之间的错位、以及无效的平均状态——并通过无效样本优势屏蔽、单边噪声采样和最优正确路径首 token 选择的组合加以解决。结果:GSM8K-Aug 上 Pass@1 提升 7.86 分,AIME 上提升 4.27 分,推理链长度缩短 3-4 倍。
GitHub宣布将于2026年6月1日从所有Copilot体验中弃用GPT-5.2和GPT-5.2-Codex模型。Chat、内联编辑、ask和agent模式以及代码补全用户将迁移至GPT-5.5,而Codex用户将迁移至GPT-5.3-Codex。唯一例外是Copilot Code Review,其中GPT-5.2-Codex将继续可用。企业管理员必须在截止日期前在模型策略中手动启用新模型。
NIST下属的AI标准与创新中心(CAISI)对中国模型DeepSeek V4 Pro进行了独立评估,涵盖5个领域的9个基准测试(网络安全、软件工程、自然科学、抽象推理、数学)。核心发现:V4落后美国前沿模型约8个月,尤其在推理和代理任务方面——这些是DeepSeek未纳入其自身技术报告的领域。在7项测试中的5项,其使用成本低于GPT-5.4 mini。
KellyBench是一个用于测试序贯决策能力的新基准:AI代理使用统计数据、阵容和市场赔率,在整个2023/24赛季Premier League期间管理投注资金。所有被测试的顶级模型均亏损,Claude Opus 4.6在专家策略复杂性评分中获得了26.5%。
LightSeek Foundation于2026年4月30日在PyTorch博客上发布了Shepherd Model Gateway(SMG)——一个将CPU绑定任务(分词、MCP编排、聊天历史、多模态预处理)从GPU进程迁移到独立gRPC层的Rust网关。Llama 3.3 70B FP8实现了1150对比327输出token/秒(3.5倍吞吐量),该方案已在Google云、Oracle云、阿里云和TogetherAI投入生产。
Allen研究所发布了更新的AstaBench排行榜,包含2400个面向科学AI智能体的问题。Claude Opus 4.7以58.0%领先,而GPT-5.5以52.9%的成绩和每问题一半的成本紧随其后。关键发现:在单项任务中表现良好并不自动意味着具备稳健的端到端科学研究能力。
Anthropic于2026年4月30日关闭了Claude Sonnet 4.5和Sonnet 4的百万token上下文窗口Beta入口。超过20万token的请求现在将返回错误。用户必须迁移到Sonnet 4.6或Opus 4.6,这两个模型已将百万上下文作为正式可用功能,无需Beta标头。