🤖 模型

35 条新闻

🟡 🤖 模型 2026年4月27日 · 2 分钟阅读

arXiv:2604.21764:'Thinking with Reasoning Skills'在ACL 2026工业赛道减少推理token数的同时提升准确率

ArXiv 2604.21764:'Thinking with Reasoning Skills'在ACL 2026工业赛道减少推理token数的同时提升准确率

Guangxiang Zhao等作者团队于2026年4月23日发表了论文《Thinking with Reasoning Skills: Fewer Tokens, More Accuracy》,该论文被ACL 2026工业赛道录用。该方法从长链思维推理中提炼出可复用的推理技能,并将其作为检索引导的新问题解决捷径,在减少token数量的同时提升了编程和数学任务的准确率。

🔴 🤖 模型 2026年4月24日 · 2 分钟阅读

DeepSeek发布V4-Pro和V4-Flash:百万令牌上下文开源模型,SWE Verified达80.6分

编辑插图:DeepSeek V4模型——百万令牌模块

DeepSeek于2026年4月24日发布了V4-Pro(1.6T/49B激活参数)和V4-Flash(284B/13B激活参数),两款支持百万令牌上下文的开源模型。V4-Pro在SWE Verified基准上达到80.6分,接近Opus 4.6,同时显著降低了内存消耗。

🔴 🤖 模型 2026年4月24日 · 2 分钟阅读

OpenAI发布GPT-5.5:最智能的编程、研究和复杂数据分析工具型模型

编辑插图:AI模型 — modeli

OpenAI于2026年4月23日发布了GPT-5.5,将其描述为迄今最智能的模型。该模型面向编程、研究和通过工具进行数据分析等复杂任务。随模型同步发布了System Card和专项生物安全漏洞赏金计划。

🟡 🤖 模型 2026年4月24日 · 2 分钟阅读

Thinking with Reasoning Skills(ACL 2026工业赛道):通过检索推理技能减少令牌消耗、提升准确率

编辑插图:推理技能——推理模式与令牌

Zhao等人的团队在ACL 2026工业赛道发表论文,提出从大量探索中提炼可复用推理技能。模型无需从头思考,而是检索相关模式,从而减少推理令牌数量并提升编程和数学任务的准确率。

🟡 🤖 模型 2026年4月23日 · 2 分钟阅读

Google发布gemini-embedding-2正式版:首个支持5种模态统一嵌入空间的多模态嵌入模型

编辑插图:AI模型 — modeli

Google宣布gemini-embedding-2模型正式发布(GA),该模型支持将文本、图像、视频、音频和PDF文件映射到统一的嵌入向量空间。该模型自2026年3月10日起以预览版提供,现已通过Gemini API向所有用户开放。

🟡 🤖 模型 2026年4月23日 · 2 分钟阅读

Microsoft AutoAdapt:30分钟4美元自动将LLM适配至专业领域

编辑插图:AI模型 — modeli

Microsoft Research推出了AutoAdapt框架,可自动将通用语言模型适配到医学、法律和事件响应等专业领域。该系统自主在RAG和微调之间做出选择,优化超参数,约30分钟内完成任务,额外成本约4美元。

🟢 🤖 模型 2026年4月23日 · 2 分钟阅读

苹果发布MANZANO——兼顾图像理解与生成的统一多模态模型

编辑插图:AI模型——modeli

苹果研究团队在ICLR 2026大会上发布了MANZANO,这是一个统一的多模态框架,旨在解决图像理解能力与图像生成质量之间长期存在的权衡问题。该模型采用混合视觉分词器,为理解任务生成连续嵌入,为生成任务生成离散标记,并共享编码器与两个专用适配器,从而减少单一模型同时处理两项任务时通常产生的性能损失。

🟢 🤖 模型 2026年4月22日 · 2 分钟阅读

MathNet:来自47个国家的30,676道奥林匹克题目,顶级模型仍有差距

编辑插图:带有数学符号和来自47个国家地球仪片段的互联节点

MIT团队发布了MathNet,一个包含来自47个国家17种语言的30,676道奥林匹克数学题目的多模态基准测试。Gemini-3.1-Pro达到78.4%,GPT-5达到69.3%,而嵌入模型在找到数学等价问题方面有很大困难。

🟢 🤖 模型 2026年4月22日 · 2 分钟阅读

xAI语音转文字API正式发布:支持25种语言全面开放

编辑插图:麦克风和声波流通过Grok API转换为25种语言的文字转录

xAI宣布其语音转文字(STT)API从测试阶段进入正式发布阶段。该服务支持25种语言,提供批处理和流式两种模式,无需等待名单即可使用——与此前正式发布的Grok语音智能体API共同构成完整的语音技术栈。

🔴 🤖 模型 2026年4月21日 · 3 分钟阅读

Claude Opus 4.7与Haiku 4.5在Amazon Bedrock正式发布:覆盖27个区域,企业可自助访问

插图:Claude Opus 4.7与Haiku 4.5在Amazon Bedrock正式发布——覆盖27个区域,提供企业自助访问

Anthropic已将Claude Opus 4.7和Haiku 4.5在Amazon Bedrock中转为正式可用状态(GA)。两款模型现已在27个AWS区域上线,无需等待名单,通过标准Messages API端点即可访问,并支持区域路由和全局路由。

🟡 🤖 模型 2026年4月21日 · 2 分钟阅读

Anthropic停止Claude Haiku 3生产服务:4月20日起必须迁移至Haiku 4.5

Editorialna ilustracija: Anthropic povlači Claude Haiku 3 iz produkcije: migracija na Haiku 4.5 obavezna od 20. travnja

Anthropic于2026年4月20日正式停止了Claude Haiku 3(模型ID:claude-3-haiku-20240307)的生产服务。所有对该模型的API调用现在返回错误。推荐迁移至Claude Haiku 4.5,此举是2026年2月宣布的弃用周期的一部分。

🟢 🤖 模型 2026年4月21日 · 3 分钟阅读

为何微调会促进幻觉?语义表示之间的干扰——解决方案是自蒸馏SFT

Editorialna ilustracija: Zašto fine-tuning potiče halucinacije? Interference među semantičkim reprezentacijama, a rješen

一篇新ArXiv论文揭示,微调后幻觉增加的原因既不是容量不足,也不是行为克隆,而是重叠语义表示之间的干扰。解决方案:自蒸馏SFT,通过正则化输出分布漂移并将微调视为持续学习问题。

🟡 🤖 模型 2026年4月19日 · 2 分钟阅读

YAN:混合专家流匹配模型仅需3个采样步骤即可实现自回归语言模型40倍加速

编辑插图:抽象向量场与生成模型的并行流

YAN是一款新型生成语言模型,融合了Transformer与Mamba架构以及混合专家流匹配方法——仅需3个采样步骤即可达到与自回归模型相当的质量,相对自回归基线实现40倍加速,比扩散语言模型最高提速1000倍。该模型将全局传输几何分解为局部专用向量场。

🟢 🤖 模型 2026年4月19日 · 2 分钟阅读

IG-Search:以信息增益为奖励信号改善搜索增强推理,计算开销仅6.4%

编辑插图:信息增益曲线与推理步骤中的搜索箭头

IG-Search是一种用于训练搜索增强推理AI模型的新方法,使用信息增益(Information Gain)作为步骤级奖励信号。该信号从模型自身的生成概率中派生,无需外部标注。Qwen2.5-3B采用此方法后在7个QA基准上的平均EM得分为0.430——比MR-Search高1.6分,比GiGPO高0.9分,而计算开销仅6.4%。

🟢 🤖 模型 2026年4月19日 · 2 分钟阅读

大语言模型能学习图上的最短路径——但当任务视野延伸时就会失效

编辑插图:带有节点和路径的图,远处渐渐消失的长视野

新的arXiv论文从两个维度系统研究了LLM在最短路径问题上的泛化能力:空间迁移到未见地图效果良好,但按视野长度扩展由于递归不稳定性而持续失败。结论对自主代理有直接影响——训练数据覆盖范围定义了能力边界,RL提高稳定性但不扩展边界,推理时扩展有帮助但无法解决长度扩展问题。

🟡 🤖 模型 2026年4月18日 · 2 分钟阅读

AWS Nova蒸馏用于视频语义搜索:节省95%成本,推理速度提升一倍

AWS演示了模型蒸馏如何将大型Nova Premier模型的智能转移到更小的Nova Micro用于视频搜索路由。结果是推理成本节省95%,延迟降低50%(833毫秒而非1741毫秒),LLM-as-judge评分保持质量(5分中的4分)。整个训练使用了从Nova Premier生成的10000个合成样本。

🟡 🤖 模型 2026年4月18日 · 3 分钟阅读

AWS Nova多模态嵌入用于视频搜索:混合方法将召回率从51%提升至90%

AWS Nova多模态嵌入是一种新架构,可同时在统一的1024维向量空间中处理视频的视觉、音频和文本内容,无需转换为文本。语义嵌入与BM25词汇搜索的结合产生了90%的Recall@5,相比基线组合模式嵌入的51%——在所有指标上提升了30至40个百分点。

🟡 🤖 模型 2026年4月18日 · 2 分钟阅读

NVIDIA Nemotron OCR v2:每秒34.7页,单模型支持五种语言,比PaddleOCR快28倍

NVIDIA在HuggingFace上发布了Nemotron OCR v2,这是一款多语言OCR模型,在单个A100 GPU上每秒处理34.7页。这比PaddleOCR v5快28倍。该模型在单一架构中支持英语、中文、日语、韩语和俄语,无需语言检测。在1220万张合成图像上训练完成,模型和数据集在NVIDIA Open Model许可证和CC-BY-4.0下提供。

🟢 🤖 模型 2026年4月18日 · 2 分钟阅读

ArXiv AC/DC:通过模型与任务协同进化自动发现专业化LLM

AC/DC是一个在ICLR 2026上提出的新框架,通过模型合并同时进化LLM模型,并通过合成数据进化任务。发现的模型群体展示了比手工策划模型更广泛的专业知识覆盖范围,无需明确针对基准测试进行优化。模型能以更少的GPU内存超越更大的同类模型,代表了LLM持续开发的新范式。

🔴 🤖 模型 2026年4月17日 · 1 分钟阅读

Anthropic:Claude Opus 4.7带来高分辨率视觉、任务预算和新分词器——Opus 4 退休

Claude Opus 4.7是Anthropic新旗舰AI模型,以相同价格取代Opus 4.6,每百万token输入5美元、输出25美元。新模型支持最高2576像素的三倍图像分辨率、面向复杂智能体任务的新效力等级xhigh、让模型在长循环中自主管理资源的任务预算,以及全新分词器。

🟡 🤖 模型 2026年4月17日 · 2 分钟阅读

ArXiv:共形预测揭示LLM评审的隐藏不可靠性

「诊断LLM评审可靠性」是一项新研究,表明LLM-as-judge系统的聚合可靠性指标掩盖了严重的逐实例不一致性。尽管传递性违规的总体比率为0.8%至4.1%,但33%至67%的文档至少存在一个传递性循环。该方法依赖具有理论保证覆盖率的共形预测集。

🟡 🤖 模型 2026年4月17日 · 2 分钟阅读

ArXiv:LongCoT基准测试揭示GPT 5.2在长链式思维推理上仅得9.8%

LongCoT是一个包含2500个专家设计问题的新基准,覆盖五个领域,测试可能需要数万至数十万token的长链式思维推理能力。当前前沿模型表现大幅不及预期,GPT 5.2仅得9.8%,Gemini 3 Pro仅得6.1%,揭示了自主部署AI代理的关键弱点。

🟡 🤖 模型 2026年4月17日 · 2 分钟阅读

Google Research:AI生成合成神经元,为脑图谱绘制节省157人年工作量

Google Research开发的MoGen系统使用PointInfinity点云流匹配模型,生成的合成神经元形态与真实神经元在专家评分中无法区分。仅10%的合成数据加入训练即可将错误率降低4.4%,相当于在完整小鼠脑图谱绘制中节省157人年的人工标注工作。

🟡 🤖 模型 2026年4月17日 · 2 分钟阅读

Google Simula:将数据合成视为机制设计而非逐样本优化

Simula是谷歌的框架,将合成数据生成视为机制设计问题,而非单个样本的问题。系统使用推理模型构建层次分类体系,并控制数据生成的四个独立维度。它已投入生产——驱动Gemini安全分类器、MedGemma、Android欺诈检测和Google Messages中的垃圾过滤。

🟡 🤖 模型 2026年4月17日 · 1 分钟阅读

OpenAI:GPT-Rosalind——首个专注于生命科学的前沿推理模型

GPT-Rosalind是OpenAI专为生物科学研究打造的新前沿推理模型,涵盖药物发现、基因组分析和蛋白质推理。该模型延续了继GPT-5.4-Cyber网络安全模型之后的专业化AI系统趋势,标志着OpenAI战略性地为关键行业构建垂直优化模型。

🟡 🤖 模型 2026年4月16日 · 2 分钟阅读

Google:Gemini 3.1 Flash TTS为70多种语言带来富有表现力的AI语音

Google推出了Gemini 3.1 Flash TTS,这是一款支持70多种语言的新型文本转语音模型,在Artificial Analysis排行榜上获得1,211的Elo评分。核心创新是音频标签——将自然语言命令直接嵌入文本,以精确控制声音、语调和情感。该模型可在Google AI Studio、Vertex AI和Google Vids上使用,并配备SynthID水印用于检测AI生成的音频。

🟢 🤖 模型 2026年4月16日 · 2 分钟阅读

ArXiv:LLM中的数值不稳定性——浮点错误如何在Transformer中制造混乱

一项新研究严格分析了浮点算术中的舍入误差如何通过Transformer架构的各层传播混乱。该研究确定了三种行为模式——稳定、混乱和信号主导——并证明数值不稳定性不是一个缺陷,而是LLM的基本属性,会威胁生产系统中的可重现性。

🔴 🤖 模型 2026年4月15日 · 1 分钟阅读

Anthropic: Claude Sonnet 4 和 Opus 4 将于6月15日停用

Anthropic宣布弃用原版Claude Sonnet 4和Claude Opus 4模型。两个模型将于2026年6月15日从API下线。开发团队需尽快迁移至4.6版本。

🟡 🤖 模型 2026年4月15日 · 1 分钟阅读

ArXiv:发现大语言模型生成有害回复的神经元机制

对LLM内部机制的因果分析揭示,有害内容主要产生于模型的后层,主要通过MLP模块生成。最终层中的一小组神经元充当有害回复的控制机制。

🟡 🤖 模型 2026年4月15日 · 1 分钟阅读

Google: Gemini Robotics-ER 1.6 带来仪表读取和空间理解能力

Google发布了Gemini Robotics-ER 1.6,具备全新的仪表读取能力以及改进的空间和物理理解能力。前一版本1.5将于4月30日停用。

🟡 🤖 模型 2026年4月14日 · 1 分钟阅读

ArXiv:过程奖励智能体——实时反馈无需重新训练即可改善AI医学推理

研究人员提出了过程奖励智能体(PRA),一种在医学领域AI推理过程中提供逐步实时反馈的新方法。该系统可与现有模型配合使用,无需重新训练,并在医学基准测试中取得了显著成果。

🟡 🤖 模型 2026年4月13日 · 1 分钟阅读

ArXiv PRA:4B模型在医学基准测试中达到80.8%——小规模模型的新SOTA

过程奖励代理使小型冻结模型(0.5B-8B)无需任何训练即可显著提升医学推理能力——Qwen3-4B在MedQA上达到了80.8%的新最优成绩。

🟡 🤖 模型 2026年4月13日 · 1 分钟阅读

ArXiv SPPO:序列级PPO解决了长推理链中的信用分配问题

序列级PPO将LLM推理重新表述为上下文老虎机问题,以远低于GRPO等昂贵的分组方法的资源消耗达到了同等性能——无需多次采样。

🟡 🤖 模型 2026年4月11日 · 2 分钟阅读

ArXiv SUPERNOVA:基于自然指令的强化学习将推理能力提升 52.8%

新论文 SUPERNOVA 表明,对现有指令调优数据集的系统性整理可以显著提升 LLM 的推理能力。在 SUPERNOVA 上训练的模型在 BBEH 基准上实现了高达 52.8% 的相对改进。

🟢 🤖 模型 2026年4月10日 · 1 分钟阅读

Sentence Transformers v5.4新增对多模态嵌入与重排序模型的支持

HuggingFace的Sentence Transformers库发布了5.4版本,引入了多模态嵌入和重排序模型。用户现在可以将文本、图像、音频和视频映射到统一的嵌入空间,并进行跨模态相似度计算——实现不同类型内容搜索的统一。