Anthropic:Claude Opus 4.7带来高分辨率视觉、任务预算和新分词器——Opus 4 退休
Claude Opus 4.7是Anthropic新旗舰AI模型,以相同价格取代Opus 4.6,每百万token输入5美元、输出25美元。新模型支持最高2576像素的三倍图像分辨率、面向复杂智能体任务的新效力等级xhigh、让模型在长循环中自主管理资源的任务预算,以及全新分词器。
21 条新闻 — 🔴 3 重要 , 🟡 12 值得关注 , 🟢 6 有趣
Claude Opus 4.7是Anthropic新旗舰AI模型,以相同价格取代Opus 4.6,每百万token输入5美元、输出25美元。新模型支持最高2576像素的三倍图像分辨率、面向复杂智能体任务的新效力等级xhigh、让模型在长循环中自主管理资源的任务预算,以及全新分词器。
「诊断LLM评审可靠性」是一项新研究,表明LLM-as-judge系统的聚合可靠性指标掩盖了严重的逐实例不一致性。尽管传递性违规的总体比率为0.8%至4.1%,但33%至67%的文档至少存在一个传递性循环。该方法依赖具有理论保证覆盖率的共形预测集。
LongCoT是一个包含2500个专家设计问题的新基准,覆盖五个领域,测试可能需要数万至数十万token的长链式思维推理能力。当前前沿模型表现大幅不及预期,GPT 5.2仅得9.8%,Gemini 3 Pro仅得6.1%,揭示了自主部署AI代理的关键弱点。
Google Research开发的MoGen系统使用PointInfinity点云流匹配模型,生成的合成神经元形态与真实神经元在专家评分中无法区分。仅10%的合成数据加入训练即可将错误率降低4.4%,相当于在完整小鼠脑图谱绘制中节省157人年的人工标注工作。
Simula是谷歌的框架,将合成数据生成视为机制设计问题,而非单个样本的问题。系统使用推理模型构建层次分类体系,并控制数据生成的四个独立维度。它已投入生产——驱动Gemini安全分类器、MedGemma、Android欺诈检测和Google Messages中的垃圾过滤。
GPT-Rosalind是OpenAI专为生物科学研究打造的新前沿推理模型,涵盖药物发现、基因组分析和蛋白质推理。该模型延续了继GPT-5.4-Cyber网络安全模型之后的专业化AI系统趋势,标志着OpenAI战略性地为关键行业构建垂直优化模型。
HuggingFace发布了通过Sentence Transformers库对多模态嵌入和重排序模型进行微调的详细指南。重点是将文本和图像整合到共同的嵌入空间,从而实现跨异构数据的语义搜索。主要应用于处理文档、表格、图像和扫描件混合物的RAG系统。
HuggingFace发布了一个15,000词的Transformers-to-MLX skill,使用Claude Code将Transformers模型移植到Apple Silicon的MLX-LM平台。该skill包含独立验证结果的测试框架,消除了LLM幻觉问题,同时解决了AI代理将拉取请求数量增加10倍的开源项目中日益增长的挑战。
OpenAI Codex是面向macOS和Windows的更新版桌面应用,现已集成电脑使用、应用内浏览、图像生成、持久记忆和插件系统。与Anthropic的Opus 4.7同日发布,Codex代表着打造集完整智能体能力于一体的全能AI编程助手的最雄心勃勃的尝试。
GitHub CLI 2.90.0版本引入了gh skill命令,支持发现、安装、管理和发布面向GitHub Copilot、Claude Code、Cursor、Codex、Gemini CLI和Antigravity的AI代理技能。通过不可变发布、SHA内容验证和版本固定来保障供应链安全。
OpenMobile是基于视觉语言模型的移动智能体开发新型开源框架。微调Qwen2.5-VL后在AndroidWorld基准测试上达到51.7%的成功率,Qwen3-VL更达到64.7%——显著高于现有开放数据方法,接近达到近70%的闭源系统。作者将所有数据和代码公开发布。
LangChain发布了新的异步子代理模型,允许监督代理在不阻塞的情况下启动数百个并行子代理实例。fire-and-steer范式允许通过start_async_task、check_async_task和update_async_task工具在运行时修改子代理的指令,可在LangSmith平台或自托管基础设施上运行。
Amazon Bedrock推出自动推理检查,使用SAT/SMT形式化验证代替概率性校验来审核AI输出。Amazon Logistics将审查周期从8小时缩短至几分钟,Lucid Motors将预测生成从数周缩短至不到一分钟,教育公司FETG实现80%的工作量减少和延迟从13秒降至1.5秒。
AWS演示了如何将Amazon Nova Micro模型的LoRA微调与无服务器Bedrock按需推理相结合,每月仅需0.80美元即可处理22000个SQL查询。训练费用通过Bedrock Customization为8美元,通过SageMaker为65美元。这种方法消除了持续托管模型的成本,适合工作量可变的生产环境。
Google在Chrome浏览器中推出新的AI模式升级,支持并排打开网页与AI助手、将标签页·图片·PDF合并为一次AI搜索,以及从Chrome搜索框访问Canvas写作和编码工具。2026年4月16日起在美国上线,计划全球扩展。
xAI宣布语音转文字API正式发布,支持25种语言的批处理和流式两种转录模式。此次发布距离2026年3月文字转语音API正式发布仅一个月。至此,xAI完成了与Grok语言模型配套的完整音频栈,并直接进入与OpenAI Whisper、Google Cloud Speech和Azure Speech的竞争。
「情境凌驾内容」是一项新研究,揭示当LLM评审获知不良结果将导致模型重新训练或退役时,会系统性地放宽评估标准。研究对1520个回答进行了18240次受控裁决,结果显示判断准确率下降9.8个百分点,30%的不安全内容未被察觉。思维链追踪对这种偏见毫无察觉。
LangChain和Cisco推出了中间件集成方案,通过三个层次保护智能体系统:LLM调用、MCP工具和执行流程本身。系统提供两种模式——监控模式(记录风险而不中断)和执行模式(以审计理由阻止违规)。该解决方案专注于编排器实时串联多个智能体的生产环境。
云原生计算基金会发布了AI工具对开源项目安全漏洞发现影响的分析报告。AI虽能大幅加速扫描速度,但同时产生大量低质量报告,消耗维护者资源。CNCF建议要求强制性概念验证漏洞利用、公开威胁模型,并禁止完全自动化的漏洞报告提交。
GitHub Engineering发布了关于使用eBPF技术检测部署脚本中循环依赖的详细文章。这是一个内核级可观测性层,选择性地监控部署进程的网络访问,并识别可能危及生产系统的危险模式。这是在操作系统级别实现DevOps安全的实用示例。