Anthropic：向加拿大AI投资1000万加元，并发布Claude使用数据

Anthropic向8家加拿大机构投资1000万加元（CAD），聚焦AI安全、医疗健康与低资源语言。同期发布的Economic Index显示，加拿大占Claude.ai全球流量的2.6%，人均采用率是预期的4.4倍。

🟡 🤖 模型

Anthropic：Claude for Teachers——为美国K-12教师提供免费Claude

Anthropic推出面向美国经过认证的K-12教师的免费Claude版本，有效期至2027年6月。该计划包含教学技能库、与全美50个州教育标准对齐的课程，以及与9款教育工具的集成。

🟡 🤖 模型

arXiv:2607.11598: 交互作为测试时计算的「第三轴」，可消除最多74%的错误

测试时计算是模型在推理过程中为获得更好答案而消耗的额外计算。Bojie Li和Noah Shi将与外部工具的交互定义为测试时计算的第三轴——与较长的思考链和best-of-N采样并列。提议者-审核者系统实现100% pass rate，而单纯的思考链和best-of-N则触及瓶颈。

最新AI动态 2026年7月14日

🟡 🤝 智能体 2026年7月14日 · 2 分钟阅读

arXiv:2607.11185: SCALECUA通过强化学习扩展计算机使用代理——OSWorld得分68.7%

SCALECUA是清华大学/THUDM研究人员提出的新框架，通过在线强化学习扩展计算机使用代理，在OSWorld基准测试中取得68.7%的新SOTA成绩，在ScienceBoard上达到54.0%。

🟡 🏥 实践应用 2026年7月14日 · 2 分钟阅读

Anthropic：Claude Code v2.1.208和v2.1.209——屏幕阅读器、vim重映射与进程包装器支持

Claude Code v2.1.208带来三项新功能：面向无障碍访问的屏幕阅读器模式（opt-in）、vim插入模式快捷键重映射，以及覆盖所有自生成进程的企业级进程包装器。热修复版本v2.1.209随即修复了一个导致后台代理会话中对话框被阻塞的错误。

🟡 🛡️ 安全 2026年7月14日 · 2 分钟阅读

GitHub：在拉取请求中引入AI安全检测，并在Copilot应用中推出/security-review命令

编辑插图：突出显示AI安全警告的GitHub拉取请求界面，以及带有/security-review命令的Copilot聊天窗口

GitHub在Code Scanning的拉取请求中直接引入AI生成的安全检测，并在Copilot应用中推出新命令/security-review，可分析代码中的注入、XSS、路径遍历和弱加密问题。

🟡 🔧 硬件 2026年7月14日 · 1 分钟阅读

NVIDIA：每瓦性能成为关键指标——Blackwell GB300效率最高达Hopper的25倍

编辑插图：NVIDIA Blackwell GB300 NVL72芯片，附与上一代Hopper的效率对比图

以DeepSeek V4 Pro模型测试，NVIDIA Blackwell GB300 NVL72的每瓦性能最高可达Hopper的25倍；仅靠软件优化，在一个月内实现最高5倍的效率提升。

🟢 📦 开源 2026年7月14日 · 1 分钟阅读

AMD：LogsLop——开源工具将巨型日志文件压缩至11%，节省78%的令牌

AMD发布了LogsLop，这是一款开源Python CLI工具，通过归一化和聚类来压缩巨型日志文件。在73个真实日志文件上，行数压缩至11%，字节压缩至7.5%，配合Llama 3.3 70B使用时节省78%的令牌。

🟢 🤝 智能体 2026年7月14日 · 2 分钟阅读

arXiv:2607.10891: SETA——4,500+强化学习环境提升终端代理性能

SETA强化学习环境生成系统示意图，包含用于终端代理训练的SETA-Synth和SETA-Evol组件

终端代理是通过终端或shell命令解决任务的AI代理。SETA（沈等人，牛津大学、KAUST）生成4,500+个可验证的强化学习环境用于终端代理训练。DeepSeek-V4-Flash在Terminal-Bench 2.0上将pass@1从40%提升至43%，pass@5从54%提升至58%。

🟢 🏥 实践应用 2026年7月14日 · 2 分钟阅读

arXiv:2607.11307: ToMap——多代理数学证明自动形式化，超越SOTA +19%

ToMap流水线的三代理示意图：Decomposer、Formalizer和Prover，用于数学证明的自动形式化

自动形式化是将自然语言数学自动转化为机器可验证的形式化形式。刘天硕等人的ToMap流水线在ProofFlowBench数据集上比前一SOTA方法提升19.0%。核心创新在于将测试时计算集中用于识别出的瓶颈——Decomposer，而非均匀分配。

🟢 🤝 智能体 2026年7月14日 · 1 分钟阅读

AWS：Strands Agents和Bedrock助力多代理B2B客户搜索

基于Amazon Bedrock的B2B客户搜索Swarm和Graph编排模式示意图

多代理编排是多个专业AI代理在共同任务上的协调。Thrad.ai利用Amazon Bedrock和Strands Agents SDK构建了一套通过6个来源搜索B2B客户的系统。Swarm模式实现邮件质量8.2/10，Graph模式成本降低25%、速度提升28%。

🟢 📦 开源 2026年7月14日 · 1 分钟阅读

CNCF：Kubernetes Pod是AI代理的合适部署单元吗？

Kubernetes WorkerPool架构示意图，多个挂起的AI代理共享同一个Worker

Solo.io的林孙重新审视了Kubernetes Pod是否是调度AI代理的合适抽象。代理是短暂的——短暂激活后即进入休眠，而专用的空闲Pod会浪费资源。他提出了一种带有Actor和WorkerPool的新「agent-substrate」模型。

🟢 💬 社区 2026年7月14日 · 1 分钟阅读

Google DeepMind：ATL Saathi——面向印度教师的Gemini工具，目标惠及1100万学生

Google DeepMind与Atal Innovation Mission联合推出ATL Saathi，这是一款由Gemini驱动的Web应用，旨在帮助印度学校STEM实验室的教师开展教学工作。目前在100所学校试点，目标覆盖逾1100万学生，支持8种语言和12个教学模块。

上一期 2026年7月13日

所有新闻来自 2026年7月13日 →

🟡 🤝 智能体 2026年7月13日 · 2 分钟阅读

Allen Institute：Shippy智能体的开发为构建可靠AI智能体带来了哪些启示

编辑插图：Soul-Skills-Config AI智能体架构图，包含Kubernetes按用户隔离

Allen Institute for AI发布了关于Shippy海事智能体架构的详细分析，该智能体基于Claude Opus 4.6，服务于70多个国家。核心结论是：智能体的可靠性更多取决于确定性工具、隔离基础设施和基于真实工作流的评估，而非模型本身的能力。

🟡 🔧 硬件 2026年7月13日 · 1 分钟阅读

AMD：GEAK智能体自动优化DeepSeek-V4 MLA内核，MI355上实现最高9倍加速

编辑插图：AMD MI355 GPU加速器图示，显示GEAK智能体生成优化的Triton内核代码

AMD的GEAK GPU内核自动化优化智能体将DeepSeek-V4 MLA内核从PyTorch迁移到MI355加速器的Triton。结果显示预填充速度最高提升9.13倍，解码几何平均加速4.94倍，SGLang框架中端到端吞吐量提升2.10倍。

🟡 🤖 模型 2026年7月13日 · 2 分钟阅读

Anthropic：Claude的价值观因模型和语言而异

Anthropic分析了309,815段匿名Claude.ai对话，发现Sonnet 4.6、Opus 4.6和Opus 4.7三个模型之间，以及20种分析语言之间，在表达价值观上存在统计显著差异——印地语表现出最高的热情，俄语和英语则最为严谨。

🟡 🤖 模型 2026年7月13日 · 2 分钟阅读

arXiv:2607.09375：理想汽车发布Mach-Mind-4-Flash——35B MoE模型，3B激活参数

中国汽车制造商理想汽车发布了自研基础模型Mach-Mind-4-Flash。这是一个拥有350亿参数的MoE模型，每次输入仅激活30亿参数，通过三阶段训练流水线达到1000亿+参数级别模型的性能，同时推理成本大幅降低。

🟡 🤝 智能体 2026年7月13日 · 2 分钟阅读

arXiv:2607.09493：智能体的共享选择性持久记忆——96%成功率，token开销降低97倍

一个针对智能体LLM系统的新架构框架引入了选择性持久记忆，保留四类可复用上下文，同时丢弃临时推理痕迹。结果是任务完成成功率96%，每次调用token开销降低97倍。

🟡 📦 开源 2026年7月13日 · 2 分钟阅读

arXiv:2607.09424：Soofi S——在德国电信云上训练的德英主权开源模型

编辑插图：带有Deutsche Telekom云基础设施和欧盟旗帜标识的开放语言模型Soofi S

Soofi S是一个30B MoE混合Mamba-Transformer模型，拥有3B活跃参数，在约27万亿token上预训练，包括强化的德语数据。完全在Deutsche Telekom的云基础设施上训练，超越所有欧洲主权替代方案，在17个开放模型中的代码基准上排名第一。

更早的新闻

2026年7月11日星期六

6 条新闻 →

🟡 💬 社区 2026年7月11日 · 1 分钟阅读

arXiv:2607.07779：Terence Tao 参与撰写探讨大型语言模型在前沿数学中局限性的论文

「From Solvers to Research」是一篇 arXiv 论文，作者之一为菲尔兹奖得主 Terence Tao，探讨 LLM 智能体能否通过自动形式化和证明综合进行研究级数学。论文系统识别了现有证明综合系统的弱点，并绘制了任务求解与真正研究之间的边界。

🟡 🛡️ 安全 2026年7月11日 · 1 分钟阅读

arXiv:2607.08395：Token-Flow Firewall — 实时监控持久 AI 智能体并将攻击成功率降至 12.5%

Token-Flow Firewall 是 arXiv 上提出的一种防御机制，可在运行时实时监控长生命周期（持久）AI 智能体中的自然语言 token 流。在 prompt injection 和其他对抗性攻击测试中，将攻击成功率降低至 12.5%，提供运行时防护层，而非仅依赖模型训练。

🟡 🏥 实践应用 2026年7月11日 · 1 分钟阅读

Anthropic: Claude Code v2.1.207 在所有企业云上启用 auto mode，将默认模型切换为 Opus 4.8 并修复 shell-injection 漏洞

Claude Code v2.1.207 是 Anthropic CLI 工具的最新版本，无需 opt-in 变量即可在 Amazon Bedrock、Google Vertex AI 和 Microsoft Foundry 上自动启用「auto mode」。该版本修复了 hook 配置中的 shell-injection 安全漏洞，并在 Bedrock、Vertex 和 AWS 上的 Claude 平台将默认模型切换为 Claude Opus 4.8。

🟢 🤝 智能体 2026年7月11日 · 1 分钟阅读

arXiv:2607.08093：CausalDS — 衡量 AI 智能体在数据科学任务中因果推理能力的新基准

CausalDS 是 arXiv 上提出的基准，用于测试 AI 智能体能否在数据科学工作流中区分因果性与相关性。它填补了自主分析智能体评估中的空白——现有标准测试只衡量执行步骤的准确性，而非正确因果推理的能力。

2026年7月10日星期五

12 条新闻 →

🟡 🛡️ 安全 2026年7月10日 · 2 分钟阅读

arXiv:2607.08173：「过度思考」——增强推理迫使reasoning模型泄露所学秘密，ICML 2026新型提取攻击

「过度思考」是一篇被ICML 2026接收的论文，表明增强大型语言模型的推理权重可以提取出模型通常不会暴露的隐藏学习信息。这一发现开辟了针对推理型模型（如o1、DeepSeek R1和开启长思考的Claude）的全新提取攻击类别。

🟡 🤖 模型 2026年7月10日 · 1 分钟阅读

arXiv:2607.08733：「超级权重」揭示选择性微调失败之谜——COLM 2026接收论文

《LLM中的超级权重》是一篇被COLM 2026接收的论文，识别出「超级权重」——少量参数，其改变对语言模型行为产生不成比例的影响。论文表明，正是这些权重解释了为何仅对部分层进行选择性微调往往会失败，对PEFT和LoRA方法具有直接影响。

🟡 🏥 实践应用 2026年7月10日 · 1 分钟阅读

AWS: SageMaker带来NVIDIA Nemotron 3模型的无服务器微调，支持SFT、RLVR和RLAIF技术

Amazon SageMaker AI推出了NVIDIA Nemotron 3模型的无服务器定制化功能，无需管理基础设施。提供三种技术：SFT（监督微调）、RLVR（可验证奖励强化学习）和RLAIF（AI反馈强化学习），使企业团队无需机器学习基础设施知识即可使用先进的强化学习方法。

🟡 🛡️ 安全 2026年7月10日 · 1 分钟阅读

GitHub: CodeQL 2.26引入AI提示注入检测——首款将AI攻击与经典攻击同等对待的主流SAST工具

CodeQL 2.26.0是GitHub静态安全分析工具的新版本，将AI提示注入攻击检测作为新分析类型引入，同时支持Kotlin 2.4.0。这是首次将AI特定攻击向量集成到主流SAST工具中，使提示注入与XSS和SQL注入进入相同的安全工作流程。

2026年7月9日星期四

16 条新闻 →

🔴 🤖 模型 2026年7月9日 · 2 分钟阅读

Google: SensorFM——基于万亿分钟可穿戴数据训练的基础模型，在 35 项健康任务中赢得 34 项

SensorFM 是 Google 用于可穿戴设备健康数据的基础模型，基于来自 100 多个国家 500 万用户的 Fitbit 和 Pixel Watch 超过万亿分钟的信号训练而成。在 35 项任务中赢得 34 项，分类任务 AUC 提升 +9%，回归任务相关性提升 +21%。

🔴 🤖 模型 2026年7月9日 · 1 分钟阅读

Microsoft: 开源模型 Aurora 1.5 在 88.9% 的变量上超越 ECMWF 集合预报——AI 天气预报新标准

Aurora 1.5 是微软的开源地球系统基础模型，在 88.9% 的评估变量和预报时效上超越 ECMWF 集合预报。新版本新增 22 个气象变量、小时级分辨率和概率集合预报，针对飓风 Helene 的路径误差比初代 Aurora 降低约 33%。

🔴 🤖 模型 2026年7月9日 · 2 分钟阅读

OpenAI: GPT-5.6 推出三款变体——Sol、Terra 与 Luna，内置多智能体编排，GitHub Copilot 同日上线

GPT-5.6 是 OpenAI 推出的全新模型家族，包含三款变体：Sol（旗舰推理）、Terra（均衡型）和 Luna（高容量、成本高效型）。新增程序化工具调用、显式提示缓存控制、持久化推理及多智能体编排测试版，首日即登陆 GitHub Copilot。

🟡 💬 社区 2026年7月9日 · 1 分钟阅读

Anthropic: 诺贝尔奖得主、前美联储主席 Ben Bernanke 加入 Long-Term Benefit Trust——公司使命监督机构

Ben Bernanke 是 2006 至 2014 年间担任美联储主席、并于 2022 年获得诺贝尔经济学奖的经济学家，Anthropic 已将其任命为 Long-Term Benefit Trust 成员。LTBT 是一个无股权、无利润分配的独立机构，负责监督公司的公共利益使命，Bernanke 将带来其对 AI 经济影响的专业见解。

2026年7月8日星期三

15 条新闻 →

🔴 🤖 模型 2026年7月8日 · 3 分钟阅读

Mistral Robostral Navigate：仅用RGB摄像头导航的机器人AI模型

编辑配图：仅依赖RGB视觉的Mistral Robostral具身机器人导航模型

Mistral推出Robostral Navigate，这是首款面向具身机器人导航的80亿参数模型。该模型仅使用单个RGB摄像头，无需LiDAR或深度传感器，在R2R-CE基准测试的未见环境中达到76.6%的成功率，超越多传感器竞争对手4.5个百分点。

🔴 🤖 模型 2026年7月8日 · 3 分钟阅读

OpenAI发布GPT-Live：面向生动自然对话的语音AI模型

编辑配图：集成于ChatGPT Voice界面的OpenAI GPT-Live语音模型

OpenAI推出GPT-Live，这是一款专为自然、生动的对话式AI交互而设计的新语音模型。该模型从发布第一天起便集成于ChatGPT Voice，是语音模型加速研发周期的成果——距GPT-Realtime-2.1发布仅两天。技术规格和定价目前尚未公布。

🔴 📦 开源 2026年7月8日 · 3 分钟阅读

PyTorch 2.13：LLM训练GPU显存最高降低4倍，FlexAttention提速12.3倍

PyTorch 2.13发布，包含来自526位贡献者的3328个提交。核心亮点：nn.LinearCrossEntropyLoss将LLM训练峰值GPU显存最高降低4倍，Apple Silicon上FlexAttention最高提速12.3倍，新torchcomms后端现代化分布式训练。

🟡 🤖 模型 2026年7月8日 · 3 分钟阅读

Anthropic开发危险知识「关闭开关」：GRAM将两用能力隔离为可移除模块

编辑配图：Anthropic GRAM可互换知识模块，用于AI两用能力的控制与移除

Anthropic与AE Studio发布GRAM（梯度路由辅助模块）——这一方法在训练期间将病毒学、网络安全、核物理等两用知识隔离到可移除的神经网络模块中，允许单次训练生成具有不同能力集合的多个模型变体。

2026年7月7日星期二

15 条新闻 →

🔴 ⚖️ 监管 2026年7月7日 · 3 分钟阅读

欧盟网络安全与AI行动计划：欧盟委员会无需新立法即可协调防御

欧洲委员会今日发布了欧盟网络安全与AI联合行动计划，该计划建立在现行欧盟法律框架之上，协调成员国与行业力量，同时将AI视为攻击载体与防御工具加以应对。

🔴 🤖 模型 2026年7月7日 · 3 分钟阅读

Meta发布Muse Image和Muse Video：能自主纠错的智能体AI

Meta超级智能实验室推出Muse Image和Muse Video——两款以智能体模式运行的模型，内部调用代码和网络搜索工具，在Arena排行榜上同时占据第2和第3位，并强制嵌入Content Seal水印。

🟡 🛡️ 安全 2026年7月7日 · 3 分钟阅读

AISI：前沿AI模型以不足150英镑的成本发现关键云端漏洞

英国AI安全研究所使用前沿模型对其研究平台进行安全审计，发现了一条此前被标准工具遗漏的五步攻击链——全部成本不足150英镑的token费用。

🟡 🛡️ 安全 2026年7月7日 · 3 分钟阅读

智能体数据注入攻击：绕过AI智能体防御的全新攻击类别

来自首尔国立大学及印第安纳大学和威斯康星大学的研究人员引入了智能体数据注入攻击（ADI）——一种将恶意数据注入智能体受信数据结构的新型攻击，在Claude Code、Codex和Gemini CLI上实现了任意点击攻击和远程代码执行，并绕过了现有防御。

查看完整档案 →