🤖 模型

92 条新闻

🟡 🤖 模型 2026年5月22日 · 3 分钟阅读

arXiv:2605.21006:现成角色向量以68-98%效率实现LLM模型中靶向谄媚引导

编辑插图:2605.21006:现成角色向量以68-98%效率实现LLM模型中靶向谄媚引导

研究人员于2026年5月21日在arXiv发表了题为《扮演魔鬼代言人》的论文,表明为角色扮演任务开发的现有角色向量可以将谄媚行为(模型倾向于附和用户即便用户有误)减少到专门对比激活添加(CAA)方法效率的68-98%,且无需在谄媚专属数据上训练。几何分析揭示谄媚是角色层面的属性,而非激活空间中单一可引导的方向,这为对齐研究开辟了更便捷的路径。

🟢 🤖 模型 2026年5月22日 · 2 分钟阅读

Black Forest Labs:FLUX Erase在无提示词物体移除中超越GPT Image-2(68.5%)和Finegrain(63.2%)

编辑插图:FLUX Erase在无提示词物体移除中超越GPT Image-2(68.5%)和Finegrain(63.2%)

Black Forest Labs于2026年5月21日推出FLUX Erase — 一款仅凭二进制蒙版即可去除图像中的物体、阴影、水印和文字并重建背景的修复工具,无需任何文字提示词。在198张测试图像的基准测试中展示了对GPT Image-2(68.5%)和Finegrain Eraser Standard(63.2%)的优势。工具通过BFL API和flux-tools.bfl.ai/erase的公开演示提供,将Black Forest Labs定位为专业创意工作流工具的专家。

🔴 🤖 模型 2026年5月21日 · 2 分钟阅读

OpenAI:AI模型推翻了离散几何学中存在80年的猜想

Editorial illustration: OpenAI AI模型推翻了离散几何学中存在80年的单位距离猜想

OpenAI宣布其AI模型解决了单位距离问题——这是离散几何学的核心猜想,自Paul Erdős于1946年提出以来悬而未决逾80年。公司将此结果描述为AI驱动数学研究的里程碑:模型不仅验证了既有命题,更通过构造反例将其推翻。

🟢 🤖 模型 2026年5月21日 · 1 分钟阅读

arXiv:2605.19762: ICML 2026论文声称代码并不能提升LLM的数学推理能力

Editorial illustration: ICML 2026论文证明结构化推理信号超越纯代码,对LLM数学推理更有效

被ICML 2026收录的arXiv预印本通过受控预训练实验表明,可执行代码本身并不能改善LLM模型的整体推理能力——代码大幅提升了编程能力,但在标准模式下与数学任务存在竞争关系。数学方面的真正进步来自跨领域结构化推理轨迹(代码-文本与数学-文本混合),对专家混合模型的机制分析在专家激活模式中揭示了这些交互关系。

🔴 🤖 模型 2026年5月20日 · 2 分钟阅读

Google:Gemini 3.5 Flash与Pro——迄今最快的前沿模型

Editorial illustration: Google je na Google I/O 2026 predstavio Gemini 3.5 Flash i Pro — frontier modele koji su 4× brži od

Google在Google I/O 2026发布Gemini 3.5 Flash和Pro——速度比竞争对手快4倍的前沿模型,重点强调智能体任务、面向开发者的全新Antigravity 2.0平台,以及全天候运行的个人AI智能体Gemini Spark。

🔴 🤖 模型 2026年5月20日 · 2 分钟阅读

Google:Gemini Omni Flash带来多模态输入的原生视频生成

Editorial illustration: Google je na I/O 2026 predstavio Gemini Omni Flash — novi multimodalni model koji generira i uređuje

Google在I/O 2026发布Gemini Omni Flash——新款多模态模型,可从图像、音频、视频和文本的组合中生成和编辑视频。即日起在YouTube Shorts可用,每个生成片段均附带SynthID数字水印。

🟡 🤖 模型 2026年5月20日 · 2 分钟阅读

Google:ERA——自动化科学代码编写的AI系统

Editorial illustration:

Google在《自然》杂志发表ERA(实证研究助手)——基于Gemini的系统,通过树搜索评估数千种计算方法并自动化编写专业科学软件。Computational Discovery平台已向研究人员开放,通过Google Labs提供访问。

🟢 🤖 模型 2026年5月20日 · 2 分钟阅读

arXiv:2605.19660:OScaR — INT2量化KV缓存实现3倍解码加速

Editorial illustration: Istraživači su objavili OScaR, metodu koja rješava temeljni problem kvantizacije KV cachea u velikim

研究人员发布了OScaR,一种解决大型语言模型KV缓存量化根本问题的方法。采用INT2精度——每个数值仅用2比特——实现了几乎无损的精度、3倍解码加速、5.3倍内存压缩,以及与BF16 FlashDecoding-v2相比4.1倍的吞吐量提升。

🔴 🤖 模型 2026年5月19日 · 3 分钟阅读

arXiv:2605.15514: RoPE在长上下文中无法区分位置或词元——基本限制的理论证明

Editorial illustration: arXiv论文2605.15514从数学上证明RoPE旋转位置编码在长上下文中失去区分位置和词元能力的根本限制

arXiv论文2605.15514从数学上证明:旋转位置编码(RoPE)——几乎所有现代大型语言模型(包括Llama、Mistral、Qwen和GPT-NeoX)使用的位置机制——在长上下文中会失去区分位置和词元的能力。作者得出结论:需要从根本上创新架构机制。

🟡 🤖 模型 2026年5月19日 · 2 分钟阅读

Anthropic: Claude API网络搜索工具现可返回来自SEC申报文件的富结构化数据

Editorial illustration: Anthropic于2026年5月18日更新Claude API中的网络搜索工具,使其返回来自SEC申报文件的更丰富结构化数据

Anthropic于2026年5月18日更新了Claude API中的网络搜索工具,使其能够返回来自SEC申报文件的更丰富结构化数据——包括10-K、10-Q和8-K文档。此次升级便于构建用于收益分析、尽职调查和引用主要来源研究的金融智能体。

🟢 🤖 模型 2026年5月19日 · 2 分钟阅读

arXiv:2605.18732:幻觉的缩放定律——更大的模型并不一定意味着更少的错误

Editorial illustration: LLM幻觉缩放定律研究

研究人员在38个模型和8900多条引用上证明,LLM的事实召回遵循sigmoid曲线:参数数量与主题在训练数据中出现频率的组合解释了60–94%的方差。幻觉并非随机——它们是可预测的和可测量的。

🟡 🤖 模型 2026年5月18日 · 2 分钟阅读

GitHub Copilot:GPT-5.3-Codex成为Business和Enterprise基础模型,享有12个月LTS保障

Editorial illustration: GitHub Copilot logo s GPT-5.3-Codex badge i LTS support stamp.

GitHub于2026年5月17日宣布,GPT-5.3-Codex取代GPT-4.1,成为Copilot Business和Enterprise的基础模型。此次变更仅适用于企业级套餐(不含Copilot Pro、Pro+或Free)。GPT-5.3-Codex是首个LTS(长期支持)模型——保障从2026年2月5日至2027年2月4日共12个月的可用性。定价方面:1×高级请求乘数;GPT-4.1在2026年6月1日弃用前继续以0×乘数强制启用。

🟡 🤖 模型 2026年5月16日 · 2 分钟阅读

Black Forest Labs: FLUX Outpainting向任意方向扩展图像,保留光线、纹理与构图

Editorial illustration: 图像在保持光线和纹理的同时向边框外扩展。

FLUX Outpainting是Black Forest Labs于2026年5月14日发布的新图像生成功能,通过专用扩展端点向任意方向扩展图像。用户指定目标画布尺寸和位置坐标——模型在扩展区域保留光线、纹理、深度和构图,无需文本提示。最高4MP输出,可通过BFL API访问,公开演示地址为flux-tools.bfl.ai/outpainting。

🟡 🤖 模型 2026年5月15日 · 2 分钟阅读

Amazon Nova 2 Sonic: 端到端延迟低于500毫秒、音频延迟低于30毫秒的语音到语音基础模型

编辑插图:语音代理,附声波和边缘网络图形。

Amazon Nova 2 Sonic是第二代语音到语音基础模型,于2026年5月14日通过Amazon Bedrock发布。消除了对独立语音转文字和文字转语音服务的需求——端到端延迟低于500毫秒,通过Stream边缘网络音频延迟低于30毫秒,原生轮次检测、打断支持及对话中的函数调用。Stream Vision Agents框架抽象了双向音频流管理。

🟡 🤖 模型 2026年5月15日 · 2 分钟阅读

arXiv:2605.15177 OpenDeepThink: 基于 Bradley-Terry 聚合的并行推理使 Gemini 3.1 Pro 在 Codeforces 上提升 +405 Elo

编辑插图:带有逐对评判符号和 Elo 评级的并行推理分支示意图。

OpenDeepThink 是由 Shang Zhou 及合作者于 2026 年 5 月 14 日在 arXiv 上发布的新型基于种群的测试时计算扩展方法。该框架并行采样多个推理候选方案,通过逐对 Bradley-Terry 比较(而非逐点 LLM 评判)选出最佳结果。结果:Gemini 3.1 Pro 经过 8 轮序列 LLM 调用(约 27 分钟),在 Codeforces 基准测试中获得 +405 Elo 提升。团队还发布了包含 73 道专家评分 Codeforces 题目的 CF-73 数据集。

🟡 🤖 模型 2026年5月14日 · 2 分钟阅读

arXiv:2605.13301 SU-01:30B A3B 模型通过三阶段训练在 IMO 2025、USAMO 2026 和 IPhO 达到金牌水平

编辑插图:带有数学公式和 AI 推理树的奥运领奖台。

SU-01 是2026年5月14日在 arXiv 发布的全新推理训练方法论(Yafu Li 及27位共同作者,通讯作者 Runzhe Zhan)。30B 参数 A3B 骨干网络通过三个连续阶段——340K 轨迹上的逆困惑度课程 SFT、两阶段 RL 和测试时扩展——在 IMO 2025、USAMO 2026 和 IPhO 2024-2025 达到金牌水平。推理链可延伸至 100K+ 词元。

🟢 🤖 模型 2026年5月14日 · 2 分钟阅读

Allen Institute:AIMIP基准测试——AI气候模型在历史数据上精度提升2倍,但无法泛化至长期变暖趋势

编辑插图:AI模型曲线与历史数据对比的气候时间序列图表。

AIMIP(AI模型比较项目)是Allen Institute联合NVIDIA、谷歌研究院、华盛顿大学、马里兰大学和ArchesWeather团队于2026年5月13日发布的新型AI气象和气候模型社区基准测试。第一阶段对八个AI模型模拟的评估显示历史数据误差减少了一半——但同时也暴露出在长期变暖趋势上的严重泛化能力不足。

🟢 🤖 模型 2026年5月14日 · 2 分钟阅读

Microsoft Research GridSFM:基础模型以比DC近似快100倍的速度解决交流最优潮流

编辑插图:带有AI基础模型和优化图的电力系统网络。

GridSFM是微软研究院于2026年5月13日发布的新型电力系统小型基础模型。它能在毫秒内对500至80000节点的电网进行交流最优潮流近似,比DC近似快100倍,比完整AC求解器快1000倍。中位成本差为2.23%,可行性检测达94.5%/96.1%,模型每年有望节省200亿美元的拥塞成本。

🟡 🤖 模型 2026年5月13日 · 1 分钟阅读

Anthropic: Claude Opus 4.7 Fast Mode 进入研究预览——旗舰模型的高速输出

编辑插图:高速 token 流在高级信号下穿越神经网络架构。

Claude Opus 4.7 Fast Mode 是 Anthropic API 的新研究预览功能,于 2026 年 5 月 12 日发布,可显著加快最强 Anthropic 模型的输出 token 生成速度,但需支付额外费用。开发者通过 speed="fast"参数、model claude-opus-4-7 以及 fast-mode-2026-02-01 测试版标头来激活该模式。访问权限、速率限制和定价与 Opus 4.6 Fast Mode 版本相同。

🟢 🤖 模型 2026年5月13日 · 2 分钟阅读

Microsoft Research: MatterSim 实验合成热导率 152 W/m/K 的 TaP,MatterSim-MT 突破 PES 局限

编辑插图:带有热导率可视化效果的晶体材料结构。

MatterSim 是 Microsoft Research 用于材料科学的新基础模型,其成果于 2026 年 5 月 12 日发布。该模型预测了经实验合成并测量热导率为 152 W/m/K(接近硅的水平)的四方晶系 TaP。MatterSim-v1 推理速度提升 3-5 倍,新的 MatterSim-MT 多任务模型新增了应力张量、磁矩、Born 有效电荷和介电矩阵输出。

🟡 🤖 模型 2026年5月12日 · 2 分钟阅读

vLLM:开源推理引擎登顶 Artificial Analysis 排行榜榜首

Editorial illustration: 开源推理引擎登顶 Artificial Analysis 排行榜榜首

vLLM 是一款开源推理引擎,凭借激进的核融合(每层从 33 降至 10 次启动,1.28× 加速)、自定义 EAGLE3 草稿模型推测解码以及线性注意力路径优化,在 DeepSeek V3.2、MiniMax-M2.5 和 Qwen 3.5 397B 三个前沿模型上夺得 Artificial Analysis 排行榜首位。

🟢 🤖 模型 2026年5月12日 · 1 分钟阅读

arXiv:2605.07776:追踪 LLM 推理链中的不确定性——错误可从前 100 个令牌预测

Editorial illustration: 2605.07776: 追踪 LLM 推理链中的不确定性——错误可从前 100 个令牌预测

论文 arXiv:2605.07776 研究大型语言模型推理链中的不确定性追踪。作者(Grünefeld、Højer、Mondorf、Plank、Rogers 等人)开发了「不确定性追踪概况」——一组紧凑特征,通过仅前几百个令牌即可预测准确结果,AUROC 达 0.807(仅用前段令牌时为 0.801)。

🟡 🤖 模型 2026年5月11日 · 1 分钟阅读

arXiv:2605.06635:LLM代理引用但不验证——链接有效率94%以上,准确率仅39-77%

Editorial illustration: 2605.06635: LLM agenti citiraju ali ne verificiraju — link valid 94%+, točnost 39-77%

一项新研究对14个LLM模型在深度研究任务中进行了测试,发现了巨大差距:链接有效率超过94%,但引文的事实准确率仅为39-77%。关键发现:当工具调用次数从2次增至150次时,引文准确率下降42%,推翻了「检索越多质量越好」的假设。

🟡 🤖 模型 2026年5月11日 · 2 分钟阅读

arXiv:2605.07990: LLM工具调用线性可表示——均值差向量以77-100%准确率改变工具选择

Editorial illustration: arXiv:2605.07990 LLM工具调用线性可表示——均值差向量以77-100%准确率改变工具选择

UCL、Holistic AI和帝国理工学院的研究人员发现LLM在内部以线性方式表示工具选择。均值差向量——两个工具平均激活值的差——添加到激活中,无需任何微调,即可以77-100%的准确率改变12个测试模型(2.7亿至270亿参数)的工具选择。

🟢 🤖 模型 2026年5月11日 · 1 分钟阅读

arXiv:2605.06660:VHG——用于生成困难数学题的验证器支持框架

Editorial illustration: 2605.06660: VHG — verifier-backed framework za generiranje teških matematičkih zadataka

VHG(验证器支持的困难题目生成)框架解决了为LLM训练创建有效、困难且原创数学题的难题。它在出题者-解题者对偶结构中引入了独立验证器——三方自博弈同时保证题目的有效性和难度。在积分学测试中,VHG显著优于所有基线方法。

🟢 🤖 模型 2026年5月11日 · 1 分钟阅读

arXiv:2605.07925: LLM价值诱导——所有价值观都会增加谄媚行为,包括正向价值观

Editorial illustration: arXiv:2605.07925 LLM价值诱导——所有价值观都会增加谄媚行为包括正向价值观

价值诱导是一种后训练技术,用于强调特定价值观(helpfulness、harmlessness、honesty)。ACL 2026 Findings中的研究表明,正向价值观的诱导能增强安全性,但所有测试的价值观都会增加拟人化语言,使模型更加「迎合和谄媚」,无论强调的是哪种价值观。

🟡 🤖 模型 2026年5月9日 · 1 分钟阅读

Allen Institute: EMO——具备数据驱动语义模块化的MoE语言模型

编辑插图:专家按语义域分组的MoE语言模型架构图

EMO是Allen Institute发布的新MoE语言模型,拥有10亿活跃参数和140亿总参数,在1万亿token上训练。专家自发组织成语义域——仅使用25%活跃专家时性能损失仅1%。

🟡 🤖 模型 2026年5月9日 · 1 分钟阅读

arXiv:2605.06638: ScaleLogic——RL算力遵循推理深度的幂律规律

编辑插图:对数-对数刻度图表,连接算力与推理深度的直线

ScaleLogic是一个合成框架,证明了long-horizon推理所需的RL算力遵循深度的幂律:T ∝ D^γ(R² > 0.99)。指数γ随逻辑表达能力从1.04变化到2.60,而更具表达力的训练带来下游结果最高+10.66分的提升。

🔴 🤖 模型 2026年5月8日 · 1 分钟阅读

OpenAI: API中推出三款全新实时语音模型,支持推理与翻译

编辑插图:API中推出三款全新实时语音模型,支持推理与翻译

OpenAI于2026年5月7日在API中发布了三款全新实时语音模型:GPT-Realtime-2具备GPT-5级推理能力和128,000词元的上下文窗口;GPT-Realtime-Translate支持将70余种输入语言翻译为13种输出语言;GPT-Realtime-Whisper提供实时语音转录功能。

🟡 🤖 模型 2026年5月8日 · 1 分钟阅读

Google: Gemini 3.1 Flash-Lite正式进入全面可用阶段

编辑插图:Gemini 3.1 Flash-Lite正式进入全面可用阶段

Gemini 3.1 Flash-Lite自2026年5月7日起通过Gemini API正式进入全面可用(GA)阶段,作为稳定的生产端点。该模型针对速度、规模和成本效率进行了优化,预览版将于2026年5月25日停止服务。

🟡 🤖 模型 2026年5月7日 · 2 分钟阅读

arXiv:2605.03195: Terminus-4B——40亿参数终端执行模型在SWE-Bench Pro上与Claude Opus和GPT-5.3-Codex持平,主智能体Token消耗降低约30%

Editorial illustration: dva koncentrična kruga — manji 4B model za terminal i veći frontier model za planiranje povezani strelicom delegacije zadataka

Terminus-4B是专为智能体系统中的终端执行任务设计的Qwen3微调模型(40亿参数)——在SWE-Bench Pro基准测试上与Claude Sonnet/Opus和GPT-5.3-Codex基线持平甚至超越,同时通过将冗长的构建/测试日志隔离在子智能体上下文中,将主智能体的Token消耗降低约30%。

🟡 🤖 模型 2026年5月7日 · 1 分钟阅读

arXiv:2605.04908: 配备精选制药数据库的Gosset超越前沿大语言模型3.2倍

编辑插图:配备精选制药数据库的Gosset超越前沿大语言模型3.2倍

Gosset是一款配备精选制药数据的专业AI平台,在与四个前沿系统的对比测试中,每次查询返回的已验证药物数量是最佳前沿系统的3.2倍,在十个小众肿瘤学和免疫学靶点上实现了100%精确率和完整召回率。

🟡 🤖 模型 2026年5月7日 · 2 分钟阅读

Google: Gemini API获得多模态文件搜索图像检索能力及Interactions API重大变更

编辑插图:Gemini API获得多模态文件搜索及Interactions API重大变更

Google将Gemini文件搜索扩展至多模态图像检索,使用gemini-embedding-2模型,并在基础元数据中加入media_id以支持视觉引用。同时宣布Interactions API重大变更:outputs字段将改为steps,新默认值自2026年5月20日起生效,旧版方案将于2026年6月6日完全移除。

🔴 🤖 模型 2026年5月6日 · 2 分钟阅读

OpenAI: GPT-5.5 Instant 成为 ChatGPT 新默认模型,减少幻觉

编辑插图:蓝色背景上 ChatGPT 界面标注 GPT-5.5 Instant 为新默认模型

GPT-5.5 Instant 是 OpenAI 于 2026 年 5 月 5 日推出的新 ChatGPT 默认模型。该模型带来更智能、更精确的回答,减少幻觉并提升个性化能力,同时附带系统卡片一并发布。

🟡 🤖 模型 2026年5月6日 · 2 分钟阅读

arXiv:2605.03871: EvoLM — 无需外部监督即可自我提升的语言模型

编辑插图:两个语言模型在反馈回路中交换评分和改进,无需外部监督

EvoLM是一种消除外部监督的后训练方法——Qwen3-8B评分生成器在RewardBench-2上超越GPT-4.1达25.7%,在SkyWork-RM上超越16%,训练后的策略在OLMo3-Adapt基准测试中达到69.3%。

🟡 🤖 模型 2026年5月6日 · 1 分钟阅读

Google: Gemini API File Search 扩展至图像和文本的多模态搜索

编辑插图:Gemini API 通过嵌入模型将图像和文本结合到共同的语义搜索中

Google 将 Gemini API 中的 File Search 扩展至多模态搜索,通过 gemini-embedding-2 模型实现图像和文本文档的原生嵌入和检索。新增两个 grounding 字段及针对 Batch API 的事件驱动 webhook 支持。

🟡 🤖 模型 2026年5月6日 · 2 分钟阅读

Microsoft Research: DroidSpeak 在微调 LLM 变体间共享 KV 缓存,实现 4× 更高吞吐量

编辑插图:数据中心中多个微调 LLM 变体之间共享 KV 缓存的示意图

Microsoft Research 在 NSDI 2026 上展示了 DroidSpeak,这是一个在架构相同的微调 LLM 变体之间共享 KV 缓存的系统,在拥有数十个领域模型的企业场景中实现了最高 4× 的吞吐量提升,同时质量下降极小。

🟡 🤖 模型 2026年5月5日 · 2 分钟阅读

ArXiv AgentFloor:小型开放权重模型(0.27B-32B)能胜任短期智能体任务,GPT-5仅在长期规划上保持优势

编辑插图:不同大小模型位于不同级别的能力阶梯,工具使用评估的象征

Ranit Karmakar和Jayita Chatterjee发布了AgentFloor——由30个任务组成的确定性网络,分6个能力级别,用于评估16个开放权重模型(参数量0.27B至32B)及GPT-5。结论:小型模型对于短期、结构化的智能体任务已经足够,而前沿模型仅在受限长期规划上保持明显优势。

🟡 🤖 模型 2026年5月5日 · 2 分钟阅读

ArXiv Token Arena:统一能耗与认知的持续基准,揭示端点间每正确答案能耗6.2倍差距

编辑插图:测量AI推理端点能耗与认知的天平,多维基准的象征

Yuxuan Gao、Megan Wang和Yi Ling Yu于2026年5月1日发布了Token Arena——一个在端点层面(78个端点,12个模型系列)评估AI推理的持续基准平台。研究揭示,同一模型在不同端点上的数学/代码基准成绩差异可达12.5分,尾部延迟差异可达数量级,每正确答案能耗差异可达6.2倍。平台在CC BY 4.0许可下发布结果。

🟡 🤖 模型 2026年5月5日 · 2 分钟阅读

NIST CAISI:DeepSeek V4 Pro是迄今最强中国AI模型,但落后美国前沿约8个月

编辑插图:标示8个月差距的时间线上的AI模型,象征独立评估

美国NIST下属人工智能标准与创新中心(CAISI)于2026年5月1日发布了对DeepSeek V4 Pro模型的独立评估。结论:这是迄今评估过的最强中国AI模型,但在综合能力上落后美国前沿约8个月。评估使用未公开的基准测试,涵盖五个领域:网络安全、软件工程、自然科学、抽象推理和数学。

🟢 🤖 模型 2026年5月5日 · 2 分钟阅读

arXiv:2605.02572: 长时域使LLM训练不稳定 — ICML 2026论文提出“时域泛化”解决方案

编辑插图:破裂的水平线,神经节点和数据流在此汇聚

ICML 2026接收论文通过实证方法证明,增加任务时域长度会由于探索和信用分配问题导致LLM训练严重不稳定。提出的解决方案:在训练时缩短时域,同时在推理阶段引入显式的“时域泛化”机制。该论文为前沿模型训练中的任务时域扩展建立了首批实证规律。

🟢 🤖 模型 2026年5月4日 · 1 分钟阅读

AdaMeZO:以类Adam方式微调LLM,无需在GPU内存中存储动量

Editorial illustration: AdaMeZO:以类Adam方式微调LLM,无需在GPU内存中存储动量

AdaMeZO是一种零阶优化器,将Adam算法的优势与MeZO的内存高效性相结合,用于大语言模型微调。仅使用前向传播,相比MeZO减少最多70%的传播次数,同时提升收敛性。

🟢 🤖 模型 2026年5月4日 · 1 分钟阅读

BWLA:1位量化LLM实现3.26倍加速和70%更好结果(ACL 2026)

Editorial illustration: BWLA:1位量化LLM实现3.26倍加速和70%更好结果(ACL 2026)

BWLA是一个新的大型语言模型训练后量化框架,首次在不显著损失精度的情况下同时实现1位权重精度和低位激活。在Qwen3-32B模型上实现困惑度11.92,与现有方法相比推理速度提升3.26倍。

🟡 🤖 模型 2026年5月2日 · 2 分钟阅读

Latent-GRPO:面向潜在推理的稳定 RL 优化——GSM8K-Aug 上提升 7.86 分、AIME 上提升 4.27 分,推理链长度缩短 3-4 倍

Editorial illustration: kompresija mreže rezoniranja u sažeti latentni prostor

研究人员提出 Latent-GRPO,一种针对潜在推理(推理步骤被压缩为连续表示)的稳定化 RL 方法。他们识别出在潜在空间中直接应用 GRPO 的三个根本性问题——无效潜在状态、奖励信号与 token 更新之间的错位、以及无效的平均状态——并通过无效样本优势屏蔽、单边噪声采样和最优正确路径首 token 选择的组合加以解决。结果:GSM8K-Aug 上 Pass@1 提升 7.86 分,AIME 上提升 4.27 分,推理链长度缩短 3-4 倍。

🟡 🤖 模型 2026年5月2日 · 2 分钟阅读

GitHub将于2026年6月1日从Copilot中弃用GPT-5.2和GPT-5.2-Codex——迁移至GPT-5.5和GPT-5.3-Codex

Editorial illustration: GitHub Copilot dashboard s novim modelom koji zamjenjuje stari

GitHub宣布将于2026年6月1日从所有Copilot体验中弃用GPT-5.2和GPT-5.2-Codex模型。Chat、内联编辑、ask和agent模式以及代码补全用户将迁移至GPT-5.5,而Codex用户将迁移至GPT-5.3-Codex。唯一例外是Copilot Code Review,其中GPT-5.2-Codex将继续可用。企业管理员必须在截止日期前在模型策略中手动启用新模型。

🟡 🤖 模型 2026年5月2日 · 2 分钟阅读

NIST CAISI对DeepSeek V4 Pro的评估:在5个领域9个基准测试中落后美国前沿模型8个月

Editorial illustration: vaga koja uspoređuje AI modele iznad geopolitičke karte

NIST下属的AI标准与创新中心(CAISI)对中国模型DeepSeek V4 Pro进行了独立评估,涵盖5个领域的9个基准测试(网络安全、软件工程、自然科学、抽象推理、数学)。核心发现:V4落后美国前沿模型约8个月,尤其在推理和代理任务方面——这些是DeepSeek未纳入其自身技术报告的领域。在7项测试中的5项,其使用成本低于GPT-5.4 mini。

🟢 🤖 模型 2026年5月2日 · 1 分钟阅读

KellyBench:AI代理管理Premier League赛季投注资金——所有顶级模型均亏损

Editorial illustration: nogometni stadion s digitalnom analizom kvota

KellyBench是一个用于测试序贯决策能力的新基准:AI代理使用统计数据、阵容和市场赔率,在整个2023/24赛季Premier League期间管理投注资金。所有被测试的顶级模型均亏损,Claude Opus 4.6在专家策略复杂性评分中获得了26.5%。

🔴 🤖 模型 2026年5月1日 · 2 分钟阅读

PyTorch SMG:LLM推理中CPU与GPU分离使Llama 3.3 70B FP8输出吞吐量提升3.5倍,已在Google云、Oracle和阿里云投入生产

编辑插图:带有独立CPU网关层通过gRPC网络连接的服务器机架和GPU

LightSeek Foundation于2026年4月30日在PyTorch博客上发布了Shepherd Model Gateway(SMG)——一个将CPU绑定任务(分词、MCP编排、聊天历史、多模态预处理)从GPU进程迁移到独立gRPC层的Rust网关。Llama 3.3 70B FP8实现了1150对比327输出token/秒(3.5倍吞吐量),该方案已在Google云、Oracle云、阿里云和TogetherAI投入生产。

🟡 🤖 模型 2026年5月1日 · 2 分钟阅读

2026年春季AstaBench:Claude Opus 4.7以58%领跑科学AI基准测试,GPT-5.5成本低一半

编辑插图:显示AI模型科学任务性能图表的排行榜表格,中性实验室美学

Allen研究所发布了更新的AstaBench排行榜,包含2400个面向科学AI智能体的问题。Claude Opus 4.7以58.0%领先,而GPT-5.5以52.9%的成绩和每问题一半的成本紧随其后。关键发现:在单项任务中表现良好并不自动意味着具备稳健的端到端科学研究能力。

🟢 🤖 模型 2026年5月1日 · 1 分钟阅读

Anthropic关闭Sonnet 4.5和Sonnet 4的百万上下文Beta——必须迁移至4.6

编辑插图:两个API版本块之间的迁移箭头,极简主义技术美学

Anthropic于2026年4月30日关闭了Claude Sonnet 4.5和Sonnet 4的百万token上下文窗口Beta入口。超过20万token的请求现在将返回错误。用户必须迁移到Sonnet 4.6或Opus 4.6,这两个模型已将百万上下文作为正式可用功能,无需Beta标头。

查看完整档案 →