Anthropic:Project Fetch第二阶段——机器人作业速度提升20倍,代码量减少10倍
Claude Opus 4.7自主控制机器人四足动物,完成任务的速度比人类团队快20倍,且编写的代码量约减少10倍,同时达到同等甚至更优的效果。然而,精确的闭环控制仍是一大挑战。
过去 72 小时,按类别整理
Claude Opus 4.7自主控制机器人四足动物,完成任务的速度比人类团队快20倍,且编写的代码量约减少10倍,同时达到同等甚至更优的效果。然而,精确的闭环控制仍是一大挑战。
CEO-Bench是一个模拟500天初创企业运营的基准测试,旨在检验AI智能体在无人监督情况下做出商业决策的能力。只有Claude Opus 4.8和GPT-5.5超越了100万美元的初始资本,但没有任何模型能实现持续盈利。
Amazon Bedrock AgentCore Harness已从预览阶段正式发布,面向所有用户开放生产使用。部署生产级AI代理现在只需2次API调用,平台支持Claude、Nova、Llama、DeepSeek、GPT-5.5和GPT-5.4,并可在会话中途切换模型且不丢失上下文。
GitHub引入了创建issue时的实时重复检测功能,并通过issue字段MCP支持扩展了MCP服务器。AI智能体现在可以创建并立即设置所有元数据的issue,无需手动分类。
AWS为Amazon Bedrock AgentCore扩展了三个知识层:带有代理检索器的托管知识库、基于亚马逊基础设施的网络搜索,以及用于访问许可内容的AgentCore Payments。新增检测静默行为错误的Monitoring功能、支持生产环境A/B测试的Optimization功能,以及对每个代理操作进行提示词注入和数据泄露评估的Guardrails功能。AWS WAF同步引入AI流量变现机制。
基于评分标准的条件自蒸馏是一种新型推理模型训练方法,在科学推理基准测试上比GRPO高出+1.0分,比OPSD高出+0.9分。该方法以评分标准作为词元级指导,取代标量奖励,实现了更精确的功劳分配。
GPT-5.5 Instant通过更强的推理能力和更好的上下文理解,提升了ChatGPT中健康与健康管理类回答的质量。评估工作由一组医生参与完成,目标是实现更清晰、更可靠的医疗主题沟通。
Google在Nature上发表了一项研究,医疗AI系统AMIE在盲法测试中达到了21位家庭医生的疾病管理水平,在治疗计划精确性和指南依从性方面统计显著优于医生。AMIE采用双代理架构:共情对话代理与疾病管理深度推理代理相互交叉验证数百页临床指南。Google随后在真实虚拟诊所启动了全国随机对照研究。
GitHub推出了HyDRA模型路由器,可根据推理深度、代码复杂度和工具编排需求为Copilot自动选择AI模型。HyDRA在保持质量的前提下节省72.5%的成本;保守模式下任务解决率70.8%,成本比OpenRouter Auto低3.3倍。新增提示词缓存和工具搜索功能,19种语言下路由精度与英语基准相差不超过4个百分点。
OpenAI与Molecule.one展示了一款基于GPT-5.4的近全自主AI化学家,该系统在极少人工干预的情况下改进了药物合成中的关键反应。该系统对医学化学中的反应进行优化,是迈向AI驱动制药研究与开发的重要一步。由于原文无法获取,本文基于OpenAI官方描述撰写。
TxBench-PP是一个通过4800条轨迹、测试11个模型来评估AI智能体在小分子临床前药理学表现的基准测试。Claude Opus 4.8以59.3%的成功率领先,GPT-5.5以55.3%紧随其后,但没有任何模型达到足够可靠的医学应用水平。
MAI-Code-1-Flash——微软定位为同类最佳的紧凑型编程模型——现在可在GitHub Copilot的8个开发界面上使用,从CLI到移动平台,覆盖free到max所有套餐。
OpenAI的推理模型在此前未能确诊的儿童罕见遗传病病例中识别出18个新诊断,并与医生和研究机构展开合作。这些结果为AI在临床诊断中的作用提出了新的问题。
PyTorch核心团队发布了针对Helion内核的LLM引导自动调优方案,将GPU代码优化时间从分钟缩短至秒级。大型语言模型取代穷举搜索,智能引导内核参数空间的搜索过程。
GitHub宣布Copilot桌面应用在macOS、Windows和Linux上正式发布(GA)。该应用带来并行会话、画布界面、云端自动化,以及自定义模型和工具集成。它将GitHub Spark、Copilot Chat和Copilot CLI整合为统一的桌面体验。此次发布是当天更大范围Copilot公告的一部分,包括HyDRA模型路由和面向所有用户开放的Auto模式。
欧洲委员会发布了第四份数字十年年度状况报告,评估欧盟在基础设施、商业、技能和公共服务四个领域向 2030 年数字目标迈进的进展。报告将 AI、半导体、云计算和开源认定为欧洲技术主权的支柱,并将「在规模、速度和一致性上交付成果」列为关键挑战。根据欧洲晴雨表调查,绝大多数欧洲人将数字政策列为欧盟的首要优先议题。
CNCF 发布了云原生平台数字主权架构模式指南,因 EU Data Act 已于 2025 年 1 月 11 日全面生效。监管机构期望四项属性:司法管辖区约束、运营自主权、加密访问控制和可移植性。单个 Kubernetes 集群是不够的,因为共享 control plane 意味着共享风险;建议每个司法管辖区拥有自己的 control plane(vCluster),并通过 GitOps 声明边界。
AgentFairBench是第一个通过就业、信贷和医疗分诊领域测量LLM代理实际行为(而非仅回答)中人口统计不平等的基准测试。它使用反事实翻转率和行动率差异两种指标,并测试四种代理框架。在864次决策的试点中,Claude Haiku未显示出超出噪声水平的人口统计效应,研究还警告简单比较六个群体可能将不平等高估约2.4倍。
该论文提出了一个贝叶斯审计框架,表明一个含1000个系统的最终排行榜快照可能对应多条不兼容的历史轨迹,收敛时间在23至75步之间。依靠LiveBench、Open LLM Leaderboard v2、LMArena、GAIA和tau-bench的存档数据,作者提出了archive-and-adjudication协议,用于重建评分历史并驳斥关于前沿模型的无根据主张。
Google DeepMind分析了100万条智能体编程轨迹,发现超过50%被标记的AI智能体安全事件源于任务误解或模型过度热情,而非外部对抗性攻击。这一发现改变了防御工作的优先级。
GitHub在一天之内发布了两项针对Actions的互补安全升级:actions/checkout@v7阻断来自fork PR的pwn request攻击,新的工作流执行保护功能允许管理员在整个组织范围内按行为者和事件类型配置允许列表。
新基准PseudoBench对七个顶级AI智能体进行了测试,涵盖五个领域的200个伪科学主张,发现拒绝率接近于零——最高抵抗力仅为27.4%。矛盾的是,能力更强的模型会将伪科学包装成更复杂的学术语言,从而增加风险。作者警告称,在大规模部署能够从实验设计到论文撰写全程生成可信虚假研究的自主研究智能体之前,「科学对齐」是必要前提。
Anthropic红队发布了一份分析报告,与Verizon合作将真实的AI武器化网络行动映射至MITRE ATT&CK框架。该研究分析了实践中观察到的AI辅助攻击模式。与此同时,红队还发布了大型语言模型如何加速利用已披露但尚未修补(N-day)漏洞的分析报告。
AWS在Amazon Bedrock中推出了InvokeGuardrailChecks——一个返回评分而不自动拦截且无需预先创建guardrail资源的检测API。涵盖三类保护:内容过滤器、提示攻击检测(越狱、注入、泄露)以及包含31种实体类型的个人信息识别。API以0到1.0的尺度返回严重性和置信度评分,专为多步骤智能体循环设计,由开发团队自行控制阈值。
GitHub推出pull request限制功能,让维护者能够控制外部贡献者的同时开放PR数量。自2023年1月以来,合并的PR数量从每月2500万增长至9000万以上——增长了3.6倍——这已使许多项目不堪重负。
Anthropic在首尔开设了办公室,这是其在亚洲的第一个办公室,并宣布与韩国AI生态系统建立新的合作伙伴关系。此举是公司在美国和欧洲以外进行全球扩张的一部分。由于来源中无法获取各合作伙伴关系的具体细节,本文有意不作说明。韩国是拥有强大科技产业和高AI采用率的重要市场。
自2026年6月16日起,GitHub关闭了GitHub Models(包括演练场、API和模型目录)对新组织的访问。现有用户暂时保留完整访问权限,完全关闭的详细信息将随后公布。GitHub将新用户引导至Azure AI Foundry作为替代方案。公告中未说明退出原因,但此举表明GitHub正在撤出直接向开发者提供AI模型服务的业务。
OpenAI启动了合作伙伴网络,这是一个投入1.5亿美元面向全球合作伙伴、旨在加速企业AI采用的计划。该计划旨在帮助公司在AI实施、部署和业务转型方面取得进展。公告发布于2026年6月14日。由于完整公告文本无法访问,本文基于OpenAI的官方公告描述撰写。
AMD发布了一份比较分析报告,研究训练四款大型语言模型——GPT-4、Llama 3、DeepSeek-V2和Grok 4.0——时产生的RoCE网络流量模式,为在多GPU节点横向扩展集群中构建AI基础设施提供了实践指南。
AMD 推出了 Schola,这是一款用于 Unreal Engine 的开源插件,通过 Python 框架和 gRPC 实现与 Gymnasium 兼容的强化学习训练。示例中,协作机器人手臂 xArm6 在 Unreal Engine 5.7 中配合 MuJoCo 物理引擎、PPO 算法和 PyTorch 在 AMD ROCm GPU 加速栈上进行训练。教程展示了一个到达任务,机械臂末端移动至随机目标位置。
AMD在MLPerf Training v6.0中展示了Instinct MI355X在LLM基准测试中与同级NVIDIA GPU性能差距约为5%。MI355X比去年的MI300X快3.5倍,比上一轮快13–19%。AMD首次引入MXFP4(FP4)训练配方和Primus统一框架,并完成了包含512块MI300X GPU、64个节点的多节点提交。
NVIDIA宣布其Blackwell平台在MLPerf Training 6.0全部七项测试中取得最佳成绩。GB300 NVL72训练速度比GB200 NVL72最高提升1.6倍,最大规模提交使用8192块Blackwell GPU训练拥有6710亿参数的DeepSeek-V3模型。CoreWeave用8192块GPU在2.02分钟内完成DeepSeek-V3 671B训练,微软Azure用7.07分钟完成Llama 3.1 405B训练。
AMD发布了ATOM推理引擎,专为Instinct GPU设计,提供OpenAI兼容API并协调KV缓存、调度和并行性。ATOM位于ROCm技术栈顶层,搭配AITER内核和MoRI RDMA通信,支持TP、DP和EP并行,针对DeepSeek V2至V4、Mixtral和Qwen3-MoE等MoE模型进行了优化。提供FP8、MXFP4、INT8和INT4量化,以及配备EAGLE提议器的MTP投机解码。
Robin Rombach——Black Forest Labs(FLUX模型开发者)联合创始人兼CEO——向G7领导人发出呼吁:开放、负责任的AI发展应成为全球规范。Rombach认为,AI参数的公开可及性能够促进创新并推动技术民主化。
Allen Institute发布了MolmoMotion,一款完全开源的模型,可根据视频和「旋转碗」等自然语言指令预测物体的3D轨迹。该模型在PointMotionBench上达到最优性能,平均位移0.109米(前记录为0.134米),并将机器人抓放任务成功率从56%提升至76.3%,提升20.3个百分点。模型在包含116万段视频及3D轨迹和动作描述的MolmoMotion-1M数据集上训练。
vLLM推出了Semantic Router Fusion——一种多个模型并行组成面板、由裁判模型分析共识与差异并合成单一回答的基本单元。支持本地vLLM和私有端点,以及Gemini、Kimi、DeepSeek和Claude等公共提供商。在OpenRouter DRACO上的外部验证显示合并面板达到69%,优于最佳单一模型的65.3%,且具备完整的OpenAI API兼容性。
GitHub发布了多语言代码库数据集,包含超过4000万个仓库的8000万行以上分类记录,采用完全开放的CC0-1.0许可证。数据集为每个仓库记录三个文本来源——README、评论最多的issue和评论最多的pull request——并通过fastText、gcld3和lingua-py三种工具进行语言检测。在非英语README文件中葡萄牙语排名第一,韩语在issue讨论中最为突出。
CNCF报告称,Oracle捐赠的300万美元OCI计算积分为OpenTelemetry、containerd、Falco、Longhorn、Crossplane和Jaeger等12个以上项目提供了Arm64 CI/CD支持。需求迅速超过了每月5,000美元的初始指导方针。这一转变伴随着超过50%的新AWS实例和33%的Azure实例现在运行Arm64架构的数据。