🤖 模型

35 条新闻

🟡 🤖 模型 2026年4月27日 · 2 分钟阅读

arXiv:2604.21764：'Thinking with Reasoning Skills'在ACL 2026工业赛道减少推理token数的同时提升准确率

Guangxiang Zhao等作者团队于2026年4月23日发表了论文《Thinking with Reasoning Skills: Fewer Tokens, More Accuracy》，该论文被ACL 2026工业赛道录用。该方法从长链思维推理中提炼出可复用的推理技能，并将其作为检索引导的新问题解决捷径，在减少token数量的同时提升了编程和数学任务的准确率。

🔴 🤖 模型 2026年4月24日 · 2 分钟阅读

DeepSeek发布V4-Pro和V4-Flash：百万令牌上下文开源模型，SWE Verified达80.6分

DeepSeek于2026年4月24日发布了V4-Pro（1.6T/49B激活参数）和V4-Flash（284B/13B激活参数），两款支持百万令牌上下文的开源模型。V4-Pro在SWE Verified基准上达到80.6分，接近Opus 4.6，同时显著降低了内存消耗。

🔴 🤖 模型 2026年4月24日 · 2 分钟阅读

OpenAI发布GPT-5.5：最智能的编程、研究和复杂数据分析工具型模型

OpenAI于2026年4月23日发布了GPT-5.5，将其描述为迄今最智能的模型。该模型面向编程、研究和通过工具进行数据分析等复杂任务。随模型同步发布了System Card和专项生物安全漏洞赏金计划。

🟡 🤖 模型 2026年4月24日 · 2 分钟阅读

Thinking with Reasoning Skills（ACL 2026工业赛道）：通过检索推理技能减少令牌消耗、提升准确率

Zhao等人的团队在ACL 2026工业赛道发表论文，提出从大量探索中提炼可复用推理技能。模型无需从头思考，而是检索相关模式，从而减少推理令牌数量并提升编程和数学任务的准确率。

🟡 🤖 模型 2026年4月23日 · 2 分钟阅读

Google发布gemini-embedding-2正式版：首个支持5种模态统一嵌入空间的多模态嵌入模型

Google宣布gemini-embedding-2模型正式发布（GA），该模型支持将文本、图像、视频、音频和PDF文件映射到统一的嵌入向量空间。该模型自2026年3月10日起以预览版提供，现已通过Gemini API向所有用户开放。

🟡 🤖 模型 2026年4月23日 · 2 分钟阅读

Microsoft AutoAdapt：30分钟4美元自动将LLM适配至专业领域

Microsoft Research推出了AutoAdapt框架，可自动将通用语言模型适配到医学、法律和事件响应等专业领域。该系统自主在RAG和微调之间做出选择，优化超参数，约30分钟内完成任务，额外成本约4美元。

🟢 🤖 模型 2026年4月23日 · 2 分钟阅读

苹果发布MANZANO——兼顾图像理解与生成的统一多模态模型

苹果研究团队在ICLR 2026大会上发布了MANZANO，这是一个统一的多模态框架，旨在解决图像理解能力与图像生成质量之间长期存在的权衡问题。该模型采用混合视觉分词器，为理解任务生成连续嵌入，为生成任务生成离散标记，并共享编码器与两个专用适配器，从而减少单一模型同时处理两项任务时通常产生的性能损失。

🟢 🤖 模型 2026年4月22日 · 2 分钟阅读

MathNet：来自47个国家的30,676道奥林匹克题目，顶级模型仍有差距

MIT团队发布了MathNet，一个包含来自47个国家17种语言的30,676道奥林匹克数学题目的多模态基准测试。Gemini-3.1-Pro达到78.4%，GPT-5达到69.3%，而嵌入模型在找到数学等价问题方面有很大困难。

🟢 🤖 模型 2026年4月22日 · 2 分钟阅读

xAI语音转文字API正式发布：支持25种语言全面开放

xAI宣布其语音转文字（STT）API从测试阶段进入正式发布阶段。该服务支持25种语言，提供批处理和流式两种模式，无需等待名单即可使用——与此前正式发布的Grok语音智能体API共同构成完整的语音技术栈。

🔴 🤖 模型 2026年4月21日 · 3 分钟阅读

Claude Opus 4.7与Haiku 4.5在Amazon Bedrock正式发布：覆盖27个区域，企业可自助访问

插图：Claude Opus 4.7与Haiku 4.5在Amazon Bedrock正式发布——覆盖27个区域，提供企业自助访问

Anthropic已将Claude Opus 4.7和Haiku 4.5在Amazon Bedrock中转为正式可用状态（GA）。两款模型现已在27个AWS区域上线，无需等待名单，通过标准Messages API端点即可访问，并支持区域路由和全局路由。

🟡 🤖 模型 2026年4月21日 · 2 分钟阅读

Anthropic停止Claude Haiku 3生产服务：4月20日起必须迁移至Haiku 4.5

Editorialna ilustracija: Anthropic povlači Claude Haiku 3 iz produkcije: migracija na Haiku 4.5 obavezna od 20. travnja

Anthropic于2026年4月20日正式停止了Claude Haiku 3（模型ID：claude-3-haiku-20240307）的生产服务。所有对该模型的API调用现在返回错误。推荐迁移至Claude Haiku 4.5，此举是2026年2月宣布的弃用周期的一部分。

🟢 🤖 模型 2026年4月21日 · 3 分钟阅读

为何微调会促进幻觉？语义表示之间的干扰——解决方案是自蒸馏SFT

Editorialna ilustracija: Zašto fine-tuning potiče halucinacije? Interference među semantičkim reprezentacijama, a rješen

一篇新ArXiv论文揭示，微调后幻觉增加的原因既不是容量不足，也不是行为克隆，而是重叠语义表示之间的干扰。解决方案：自蒸馏SFT，通过正则化输出分布漂移并将微调视为持续学习问题。

🟡 🤖 模型 2026年4月19日 · 2 分钟阅读

YAN：混合专家流匹配模型仅需3个采样步骤即可实现自回归语言模型40倍加速

YAN是一款新型生成语言模型，融合了Transformer与Mamba架构以及混合专家流匹配方法——仅需3个采样步骤即可达到与自回归模型相当的质量，相对自回归基线实现40倍加速，比扩散语言模型最高提速1000倍。该模型将全局传输几何分解为局部专用向量场。

🟢 🤖 模型 2026年4月19日 · 2 分钟阅读

IG-Search：以信息增益为奖励信号改善搜索增强推理，计算开销仅6.4%

IG-Search是一种用于训练搜索增强推理AI模型的新方法，使用信息增益（Information Gain）作为步骤级奖励信号。该信号从模型自身的生成概率中派生，无需外部标注。Qwen2.5-3B采用此方法后在7个QA基准上的平均EM得分为0.430——比MR-Search高1.6分，比GiGPO高0.9分，而计算开销仅6.4%。

🟢 🤖 模型 2026年4月19日 · 2 分钟阅读

大语言模型能学习图上的最短路径——但当任务视野延伸时就会失效

新的arXiv论文从两个维度系统研究了LLM在最短路径问题上的泛化能力：空间迁移到未见地图效果良好，但按视野长度扩展由于递归不稳定性而持续失败。结论对自主代理有直接影响——训练数据覆盖范围定义了能力边界，RL提高稳定性但不扩展边界，推理时扩展有帮助但无法解决长度扩展问题。

🟡 🤖 模型 2026年4月18日 · 2 分钟阅读

AWS Nova蒸馏用于视频语义搜索：节省95%成本，推理速度提升一倍

AWS演示了模型蒸馏如何将大型Nova Premier模型的智能转移到更小的Nova Micro用于视频搜索路由。结果是推理成本节省95%，延迟降低50%（833毫秒而非1741毫秒），LLM-as-judge评分保持质量（5分中的4分）。整个训练使用了从Nova Premier生成的10000个合成样本。

🟡 🤖 模型 2026年4月18日 · 3 分钟阅读

AWS Nova多模态嵌入用于视频搜索：混合方法将召回率从51%提升至90%

AWS Nova多模态嵌入是一种新架构，可同时在统一的1024维向量空间中处理视频的视觉、音频和文本内容，无需转换为文本。语义嵌入与BM25词汇搜索的结合产生了90%的Recall@5，相比基线组合模式嵌入的51%——在所有指标上提升了30至40个百分点。

🟡 🤖 模型 2026年4月18日 · 2 分钟阅读

NVIDIA Nemotron OCR v2：每秒34.7页，单模型支持五种语言，比PaddleOCR快28倍

NVIDIA在HuggingFace上发布了Nemotron OCR v2，这是一款多语言OCR模型，在单个A100 GPU上每秒处理34.7页。这比PaddleOCR v5快28倍。该模型在单一架构中支持英语、中文、日语、韩语和俄语，无需语言检测。在1220万张合成图像上训练完成，模型和数据集在NVIDIA Open Model许可证和CC-BY-4.0下提供。

🟢 🤖 模型 2026年4月18日 · 2 分钟阅读

ArXiv AC/DC：通过模型与任务协同进化自动发现专业化LLM

AC/DC是一个在ICLR 2026上提出的新框架，通过模型合并同时进化LLM模型，并通过合成数据进化任务。发现的模型群体展示了比手工策划模型更广泛的专业知识覆盖范围，无需明确针对基准测试进行优化。模型能以更少的GPU内存超越更大的同类模型，代表了LLM持续开发的新范式。

🔴 🤖 模型 2026年4月17日 · 1 分钟阅读

Anthropic：Claude Opus 4.7带来高分辨率视觉、任务预算和新分词器——Opus 4 退休

Claude Opus 4.7是Anthropic新旗舰AI模型，以相同价格取代Opus 4.6，每百万token输入5美元、输出25美元。新模型支持最高2576像素的三倍图像分辨率、面向复杂智能体任务的新效力等级xhigh、让模型在长循环中自主管理资源的任务预算，以及全新分词器。

🟡 🤖 模型 2026年4月17日 · 2 分钟阅读

ArXiv：共形预测揭示LLM评审的隐藏不可靠性

「诊断LLM评审可靠性」是一项新研究，表明LLM-as-judge系统的聚合可靠性指标掩盖了严重的逐实例不一致性。尽管传递性违规的总体比率为0.8%至4.1%，但33%至67%的文档至少存在一个传递性循环。该方法依赖具有理论保证覆盖率的共形预测集。

🟡 🤖 模型 2026年4月17日 · 2 分钟阅读

ArXiv：LongCoT基准测试揭示GPT 5.2在长链式思维推理上仅得9.8%

LongCoT是一个包含2500个专家设计问题的新基准，覆盖五个领域，测试可能需要数万至数十万token的长链式思维推理能力。当前前沿模型表现大幅不及预期，GPT 5.2仅得9.8%，Gemini 3 Pro仅得6.1%，揭示了自主部署AI代理的关键弱点。

🟡 🤖 模型 2026年4月17日 · 2 分钟阅读

Google Research：AI生成合成神经元，为脑图谱绘制节省157人年工作量

Google Research开发的MoGen系统使用PointInfinity点云流匹配模型，生成的合成神经元形态与真实神经元在专家评分中无法区分。仅10%的合成数据加入训练即可将错误率降低4.4%，相当于在完整小鼠脑图谱绘制中节省157人年的人工标注工作。

🟡 🤖 模型 2026年4月17日 · 2 分钟阅读

Google Simula：将数据合成视为机制设计而非逐样本优化

Simula是谷歌的框架，将合成数据生成视为机制设计问题，而非单个样本的问题。系统使用推理模型构建层次分类体系，并控制数据生成的四个独立维度。它已投入生产——驱动Gemini安全分类器、MedGemma、Android欺诈检测和Google Messages中的垃圾过滤。

🟡 🤖 模型 2026年4月17日 · 1 分钟阅读

OpenAI：GPT-Rosalind——首个专注于生命科学的前沿推理模型

GPT-Rosalind是OpenAI专为生物科学研究打造的新前沿推理模型，涵盖药物发现、基因组分析和蛋白质推理。该模型延续了继GPT-5.4-Cyber网络安全模型之后的专业化AI系统趋势，标志着OpenAI战略性地为关键行业构建垂直优化模型。

🟡 🤖 模型 2026年4月16日 · 2 分钟阅读

Google：Gemini 3.1 Flash TTS为70多种语言带来富有表现力的AI语音

Google推出了Gemini 3.1 Flash TTS，这是一款支持70多种语言的新型文本转语音模型，在Artificial Analysis排行榜上获得1,211的Elo评分。核心创新是音频标签——将自然语言命令直接嵌入文本，以精确控制声音、语调和情感。该模型可在Google AI Studio、Vertex AI和Google Vids上使用，并配备SynthID水印用于检测AI生成的音频。

🟢 🤖 模型 2026年4月16日 · 2 分钟阅读

ArXiv：LLM中的数值不稳定性——浮点错误如何在Transformer中制造混乱

一项新研究严格分析了浮点算术中的舍入误差如何通过Transformer架构的各层传播混乱。该研究确定了三种行为模式——稳定、混乱和信号主导——并证明数值不稳定性不是一个缺陷，而是LLM的基本属性，会威胁生产系统中的可重现性。

🔴 🤖 模型 2026年4月15日 · 1 分钟阅读

Anthropic: Claude Sonnet 4 和 Opus 4 将于6月15日停用

Anthropic宣布弃用原版Claude Sonnet 4和Claude Opus 4模型。两个模型将于2026年6月15日从API下线。开发团队需尽快迁移至4.6版本。

🟡 🤖 模型 2026年4月15日 · 1 分钟阅读

ArXiv：发现大语言模型生成有害回复的神经元机制

对LLM内部机制的因果分析揭示，有害内容主要产生于模型的后层，主要通过MLP模块生成。最终层中的一小组神经元充当有害回复的控制机制。

🟡 🤖 模型 2026年4月15日 · 1 分钟阅读

Google: Gemini Robotics-ER 1.6 带来仪表读取和空间理解能力

Google发布了Gemini Robotics-ER 1.6，具备全新的仪表读取能力以及改进的空间和物理理解能力。前一版本1.5将于4月30日停用。

🟡 🤖 模型 2026年4月14日 · 1 分钟阅读

ArXiv：过程奖励智能体——实时反馈无需重新训练即可改善AI医学推理

研究人员提出了过程奖励智能体（PRA），一种在医学领域AI推理过程中提供逐步实时反馈的新方法。该系统可与现有模型配合使用，无需重新训练，并在医学基准测试中取得了显著成果。

🟡 🤖 模型 2026年4月13日 · 1 分钟阅读

ArXiv PRA：4B模型在医学基准测试中达到80.8%——小规模模型的新SOTA

过程奖励代理使小型冻结模型（0.5B-8B）无需任何训练即可显著提升医学推理能力——Qwen3-4B在MedQA上达到了80.8%的新最优成绩。

🟡 🤖 模型 2026年4月13日 · 1 分钟阅读

ArXiv SPPO：序列级PPO解决了长推理链中的信用分配问题

序列级PPO将LLM推理重新表述为上下文老虎机问题，以远低于GRPO等昂贵的分组方法的资源消耗达到了同等性能——无需多次采样。

🟡 🤖 模型 2026年4月11日 · 2 分钟阅读

ArXiv SUPERNOVA：基于自然指令的强化学习将推理能力提升 52.8%

新论文 SUPERNOVA 表明，对现有指令调优数据集的系统性整理可以显著提升 LLM 的推理能力。在 SUPERNOVA 上训练的模型在 BBEH 基准上实现了高达 52.8% 的相对改进。

🟢 🤖 模型 2026年4月10日 · 1 分钟阅读

Sentence Transformers v5.4新增对多模态嵌入与重排序模型的支持

HuggingFace的Sentence Transformers库发布了5.4版本，引入了多模态嵌入和重排序模型。用户现在可以将文本、图像、音频和视频映射到统一的嵌入空间，并进行跨模态相似度计算——实现不同类型内容搜索的统一。