最新 AI 新闻

过去 72 小时,按类别整理

🤝 智能体

更多 智能体
🔴 🤝 智能体 2026年6月19日 · 2 分钟阅读

Anthropic:Project Fetch第二阶段——机器人作业速度提升20倍,代码量减少10倍

编辑插图:Project Fetch第二阶段——机器人作业速度提升20倍,代码量减少10倍

Claude Opus 4.7自主控制机器人四足动物,完成任务的速度比人类团队快20倍,且编写的代码量约减少10倍,同时达到同等甚至更优的效果。然而,精确的闭环控制仍是一大挑战。

🟡 🤝 智能体 2026年6月19日 · 2 分钟阅读

arXiv:2606.18543:CEO-Bench——AI智能体能长期经营初创企业吗?

编辑插图:2606.18543——CEO-Bench,AI智能体能长期经营初创企业吗?

CEO-Bench是一个模拟500天初创企业运营的基准测试,旨在检验AI智能体在无人监督情况下做出商业决策的能力。只有Claude Opus 4.8和GPT-5.5超越了100万美元的初始资本,但没有任何模型能实现持续盈利。

🟡 🤝 智能体 2026年6月19日 · 1 分钟阅读

AWS:Amazon Bedrock AgentCore Harness正式发布——仅需2次API调用完成部署

编辑插图:Amazon Bedrock AgentCore Harness正式发布——仅需2次API调用完成部署

Amazon Bedrock AgentCore Harness已从预览阶段正式发布,面向所有用户开放生产使用。部署生产级AI代理现在只需2次API调用,平台支持Claude、Nova、Llama、DeepSeek、GPT-5.5和GPT-5.4,并可在会话中途切换模型且不丢失上下文。

🟢 🤝 智能体 2026年6月19日 · 1 分钟阅读

GitHub:AI智能体现可无需人工干预创建完整分类的issue

编辑插图:AI智能体现可无需人工干预创建完整分类的issue

GitHub引入了创建issue时的实时重复检测功能,并通过issue字段MCP支持扩展了MCP服务器。AI智能体现在可以创建并立即设置所有元数据的issue,无需手动分类。

🟡 🤝 智能体 2026年6月18日 · 1 分钟阅读

AWS:Bedrock AgentCore新增网络搜索、支付功能和代理A/B测试

编辑插图:具有扩展知识和持续学习能力的AI代理

AWS为Amazon Bedrock AgentCore扩展了三个知识层:带有代理检索器的托管知识库、基于亚马逊基础设施的网络搜索,以及用于访问许可内容的AgentCore Payments。新增检测静默行为错误的Monitoring功能、支持生产环境A/B测试的Optimization功能,以及对每个代理操作进行提示词注入和数据泄露评估的Guardrails功能。AWS WAF同步引入AI流量变现机制。

🟡 🤖 模型 2026年6月19日 · 2 分钟阅读

arXiv:2606.19327:基于评分标准的自蒸馏在推理模型训练中超越GRPO

编辑插图:2606.19327——基于评分标准的自蒸馏在推理模型训练中超越GRPO

基于评分标准的条件自蒸馏是一种新型推理模型训练方法,在科学推理基准测试上比GRPO高出+1.0分,比OPSD高出+0.9分。该方法以评分标准作为词元级指导,取代标量奖励,实现了更精确的功劳分配。

🟡 🤖 模型 2026年6月19日 · 1 分钟阅读

OpenAI:GPT-5.5 Instant提升ChatGPT健康领域回答质量

编辑插图:GPT-5.5 Instant提升ChatGPT健康领域回答质量

GPT-5.5 Instant通过更强的推理能力和更好的上下文理解,提升了ChatGPT中健康与健康管理类回答的质量。评估工作由一组医生参与完成,目标是实现更清晰、更可靠的医疗主题沟通。

🔴 🤖 模型 2026年6月18日 · 1 分钟阅读

Google:AMIE在Nature研究中达到家庭医生水平的疾病管理能力

编辑插图:虚拟诊所中用于疾病管理的医疗AI系统

Google在Nature上发表了一项研究,医疗AI系统AMIE在盲法测试中达到了21位家庭医生的疾病管理水平,在治疗计划精确性和指南依从性方面统计显著优于医生。AMIE采用双代理架构:共情对话代理与疾病管理深度推理代理相互交叉验证数百页临床指南。Google随后在真实虚拟诊所启动了全国随机对照研究。

🟡 🤖 模型 2026年6月18日 · 1 分钟阅读

GitHub:Copilot HyDRA路由器自动选择模型,节省72.5%成本且质量不变

编辑插图:根据任务复杂度自动将请求路由到不同AI模型

GitHub推出了HyDRA模型路由器,可根据推理深度、代码复杂度和工具编排需求为Copilot自动选择AI模型。HyDRA在保持质量的前提下节省72.5%的成本;保守模式下任务解决率70.8%,成本比OpenRouter Auto低3.3倍。新增提示词缓存和工具搜索功能,19种语言下路由精度与英语基准相差不超过4个百分点。

🟡 🤖 模型 2026年6月18日 · 1 分钟阅读

OpenAI:基于GPT-5.4的近全自主AI化学家改进了药物合成中的关键反应

编辑插图:AI系统在制药研究中优化化学反应

OpenAI与Molecule.one展示了一款基于GPT-5.4的近全自主AI化学家,该系统在极少人工干预的情况下改进了药物合成中的关键反应。该系统对医学化学中的反应进行优化,是迈向AI驱动制药研究与开发的重要一步。由于原文无法获取,本文基于OpenAI官方描述撰写。

🏥 实践应用

更多 实践应用
🟡 🏥 实践应用 2026年6月19日 · 2 分钟阅读

arXiv:2606.19245:TxBench-PP——AI智能体探索新药研发

编辑插图:2606.19245——TxBench-PP,AI智能体探索新药研发

TxBench-PP是一个通过4800条轨迹、测试11个模型来评估AI智能体在小分子临床前药理学表现的基准测试。Claude Opus 4.8以59.3%的成功率领先,GPT-5.5以55.3%紧随其后,但没有任何模型达到足够可靠的医学应用水平。

🟡 🏥 实践应用 2026年6月19日 · 1 分钟阅读

GitHub:MAI-Code-1-Flash现已在Copilot的8个开发界面上提供

编辑插图:MAI-Code-1-Flash现已在Copilot的8个开发界面上提供

MAI-Code-1-Flash——微软定位为同类最佳的紧凑型编程模型——现在可在GitHub Copilot的8个开发界面上使用,从CLI到移动平台,覆盖free到max所有套餐。

🟡 🏥 实践应用 2026年6月19日 · 1 分钟阅读

OpenAI:AI帮助医生诊断儿童罕见遗传病

编辑插图:AI帮助医生诊断儿童罕见遗传病

OpenAI的推理模型在此前未能确诊的儿童罕见遗传病病例中识别出18个新诊断,并与医生和研究机构展开合作。这些结果为AI在临床诊断中的作用提出了新的问题。

🟢 🏥 实践应用 2026年6月19日 · 1 分钟阅读

PyTorch:LLM将GPU内核优化时间从分钟缩短至秒级

编辑插图:LLM将GPU内核优化时间从分钟缩短至秒级

PyTorch核心团队发布了针对Helion内核的LLM引导自动调优方案,将GPU代码优化时间从分钟缩短至秒级。大型语言模型取代穷举搜索,智能引导内核参数空间的搜索过程。

🟡 🏥 实践应用 2026年6月18日 · 1 分钟阅读

GitHub:Copilot桌面应用正式发布——并行会话与云端自动化

编辑插图:AI编程助手桌面应用

GitHub宣布Copilot桌面应用在macOS、Windows和Linux上正式发布(GA)。该应用带来并行会话、画布界面、云端自动化,以及自定义模型和工具集成。它将GitHub Spark、Copilot Chat和Copilot CLI整合为统一的桌面体验。此次发布是当天更大范围Copilot公告的一部分,包括HyDRA模型路由和面向所有用户开放的Auto模式。

⚖️ 监管

更多 监管
🟢 ⚖️ 监管 2026年6月18日 · 1 分钟阅读

欧盟:2026 年数字十年状况报告要求在 2030 年前弥合结构性差距

编辑插图:欧洲数字与技术主权

欧洲委员会发布了第四份数字十年年度状况报告,评估欧盟在基础设施、商业、技能和公共服务四个领域向 2030 年数字目标迈进的进展。报告将 AI、半导体、云计算和开源认定为欧洲技术主权的支柱,并将「在规模、速度和一致性上交付成果」列为关键挑战。根据欧洲晴雨表调查,绝大多数欧洲人将数字政策列为欧盟的首要优先议题。

🟢 ⚖️ 监管 2026年6月17日 · 1 分钟阅读

CNCF:EU 法规下云原生平台数字主权的架构模式

编辑插图:云基础设施中的数字主权与独立司法管辖区

CNCF 发布了云原生平台数字主权架构模式指南,因 EU Data Act 已于 2025 年 1 月 11 日全面生效。监管机构期望四项属性:司法管辖区约束、运营自主权、加密访问控制和可移植性。单个 Kubernetes 集群是不够的,因为共享 control plane 意味着共享风险;建议每个司法管辖区拥有自己的 control plane(vCluster),并通过 GitOps 声明边界。

🟢 ⚖️ 监管 2026年6月16日 · 1 分钟阅读

arXiv:2606.16723: AgentFairBench测量LLM代理行为中的人口统计歧视

编辑插图:测量AI代理决策的公平性

AgentFairBench是第一个通过就业、信贷和医疗分诊领域测量LLM代理实际行为(而非仅回答)中人口统计不平等的基准测试。它使用反事实翻转率和行动率差异两种指标,并测试四种代理框架。在864次决策的试点中,Claude Haiku未显示出超出噪声水平的人口统计效应,研究还警告简单比较六个群体可能将不平等高估约2.4倍。

🟢 ⚖️ 监管 2026年6月16日 · 1 分钟阅读

arXiv:2606.17005: 贝叶斯审计框架揭示AI排行榜隐藏不兼容的历史记录

编辑插图:审计AI模型排行榜的历史得分记录

该论文提出了一个贝叶斯审计框架,表明一个含1000个系统的最终排行榜快照可能对应多条不兼容的历史轨迹,收敛时间在23至75步之间。依靠LiveBench、Open LLM Leaderboard v2、LMArena、GAIA和tau-bench的存档数据,作者提出了archive-and-adjudication协议,用于重建评分历史并驳斥关于前沿模型的无根据主张。

🛡️ 安全

更多 安全
🔴 🛡️ 安全 2026年6月19日 · 2 分钟阅读

Google DeepMind:超过50%的AI智能体安全事件源于错误,而非攻击

编辑插图:超过50%的AI智能体安全事件源于错误,而非攻击

Google DeepMind分析了100万条智能体编程轨迹,发现超过50%被标记的AI智能体安全事件源于任务误解或模型过度热情,而非外部对抗性攻击。这一发现改变了防御工作的优先级。

🟡 🛡️ 安全 2026年6月19日 · 1 分钟阅读

GitHub:两项安全升级保护GitHub Actions免受pwn request攻击

编辑插图:两项安全升级保护GitHub Actions免受pwn request攻击

GitHub在一天之内发布了两项针对Actions的互补安全升级:actions/checkout@v7阻断来自fork PR的pwn request攻击,新的工作流执行保护功能允许管理员在整个组织范围内按行为者和事件类型配置允许列表。

🟡 🛡️ 安全 2026年6月18日 · 1 分钟阅读

arXiv:2606.18060: PseudoBench揭示智能体AI传播伪科学的拒绝率接近于零

编辑插图:AI智能体生成可信但虚假的科学主张

新基准PseudoBench对七个顶级AI智能体进行了测试,涵盖五个领域的200个伪科学主张,发现拒绝率接近于零——最高抵抗力仅为27.4%。矛盾的是,能力更强的模型会将伪科学包装成更复杂的学术语言,从而增加风险。作者警告称,在大规模部署能够从实验设计到论文撰写全程生成可信虚假研究的自主研究智能体之前,「科学对齐」是必要前提。

🟡 🛡️ 安全 2026年6月17日 · 1 分钟阅读

Anthropic:红队将AI辅助网络攻击映射至MITRE ATT&CK框架,与Verizon合作完成

编辑插图:将AI辅助网络攻击映射至安全框架

Anthropic红队发布了一份分析报告,与Verizon合作将真实的AI武器化网络行动映射至MITRE ATT&CK框架。该研究分析了实践中观察到的AI辅助攻击模式。与此同时,红队还发布了大型语言模型如何加速利用已披露但尚未修补(N-day)漏洞的分析报告。

🟡 🛡️ 安全 2026年6月17日 · 1 分钟阅读

AWS:新版Bedrock InvokeGuardrailChecks API为智能体应用带来无需资源的安全检查

编辑插图:智能体AI应用中的安全检查

AWS在Amazon Bedrock中推出了InvokeGuardrailChecks——一个返回评分而不自动拦截且无需预先创建guardrail资源的检测API。涵盖三类保护:内容过滤器、提示攻击检测(越狱、注入、泄露)以及包含31种实体类型的个人信息识别。API以0到1.0的尺度返回严重性和置信度评分,专为多步骤智能体循环设计,由开发团队自行控制阈值。

🟢 💬 社区 2026年6月19日 · 1 分钟阅读

GitHub:PR限制如何减少开源项目中的噪音

编辑插图:PR限制如何减少开源项目中的噪音

GitHub推出pull request限制功能,让维护者能够控制外部贡献者的同时开放PR数量。自2023年1月以来,合并的PR数量从每月2500万增长至9000万以上——增长了3.6倍——这已使许多项目不堪重负。

🟡 💬 社区 2026年6月18日 · 1 分钟阅读

Anthropic:首尔办公室开业,并宣布与韩国AI生态系统建立新合作伙伴关系

编辑插图:AI公司向亚洲市场的全球扩张

Anthropic在首尔开设了办公室,这是其在亚洲的第一个办公室,并宣布与韩国AI生态系统建立新的合作伙伴关系。此举是公司在美国和欧洲以外进行全球扩张的一部分。由于来源中无法获取各合作伙伴关系的具体细节,本文有意不作说明。韩国是拥有强大科技产业和高AI采用率的重要市场。

🟡 💬 社区 2026年6月17日 · 1 分钟阅读

GitHub:GitHub Models对新用户关闭——GitHub退出模型服务领域

编辑插图:AI模型服务平台关闭访问

自2026年6月16日起,GitHub关闭了GitHub Models(包括演练场、API和模型目录)对新组织的访问。现有用户暂时保留完整访问权限,完全关闭的详细信息将随后公布。GitHub将新用户引导至Azure AI Foundry作为替代方案。公告中未说明退出原因,但此举表明GitHub正在撤出直接向开发者提供AI模型服务的业务。

🟡 💬 社区 2026年6月16日 · 1 分钟阅读

OpenAI:启动合作伙伴网络,投入1.5亿美元加速企业AI采用

编辑插图:围绕AI平台的全球商业合作伙伴网络

OpenAI启动了合作伙伴网络,这是一个投入1.5亿美元面向全球合作伙伴、旨在加速企业AI采用的计划。该计划旨在帮助公司在AI实施、部署和业务转型方面取得进展。公告发布于2026年6月14日。由于完整公告文本无法访问,本文基于OpenAI的官方公告描述撰写。

🟡 🔧 硬件 2026年6月19日 · 1 分钟阅读

AMD:大型语言模型训练中RoCE网络流量模式分析

编辑插图:大型语言模型训练中RoCE网络流量模式分析

AMD发布了一份比较分析报告,研究训练四款大型语言模型——GPT-4、Llama 3、DeepSeek-V2和Grok 4.0——时产生的RoCE网络流量模式,为在多GPU节点横向扩展集群中构建AI基础设施提供了实践指南。

🟢 🔧 硬件 2026年6月18日 · 1 分钟阅读

AMD:开源 Schola 在 ROCm 平台上连接 Unreal Engine 与强化学习,用于机器人手臂训练

编辑插图:在仿真环境中通过强化学习训练机器人手臂

AMD 推出了 Schola,这是一款用于 Unreal Engine 的开源插件,通过 Python 框架和 gRPC 实现与 Gymnasium 兼容的强化学习训练。示例中,协作机器人手臂 xArm6 在 Unreal Engine 5.7 中配合 MuJoCo 物理引擎、PPO 算法和 PyTorch 在 AMD ROCm GPU 加速栈上进行训练。教程展示了一个到达任务,机械臂末端移动至随机目标位置。

🟡 🔧 硬件 2026年6月17日 · 1 分钟阅读

AMD:Instinct MI355X在MLPerf Training v6.0中与NVIDIA差距缩至5%,性能比上代提升3.5倍

编辑配图:数据中心中的AMD Instinct MI355X加速器

AMD在MLPerf Training v6.0中展示了Instinct MI355X在LLM基准测试中与同级NVIDIA GPU性能差距约为5%。MI355X比去年的MI300X快3.5倍,比上一轮快13–19%。AMD首次引入MXFP4(FP4)训练配方和Primus统一框架,并完成了包含512块MI300X GPU、64个节点的多节点提交。

🟡 🔧 硬件 2026年6月17日 · 1 分钟阅读

NVIDIA Blackwell横扫MLPerf Training 6.0 — 7项基准全部第一,GB300速度提升最高1.6倍

编辑配图:NVIDIA Blackwell GPU集群用于AI模型训练

NVIDIA宣布其Blackwell平台在MLPerf Training 6.0全部七项测试中取得最佳成绩。GB300 NVL72训练速度比GB200 NVL72最高提升1.6倍,最大规模提交使用8192块Blackwell GPU训练拥有6710亿参数的DeepSeek-V3模型。CoreWeave用8192块GPU在2.02分钟内完成DeepSeek-V3 671B训练,微软Azure用7.07分钟完成Llama 3.1 405B训练。

🟡 🔧 硬件 2026年6月16日 · 1 分钟阅读

AMD:面向Instinct GPU的全新ATOM推理引擎提供OpenAI兼容API和MoE优化

编辑插图:用于AI模型服务的AMD Instinct GPU技术栈

AMD发布了ATOM推理引擎,专为Instinct GPU设计,提供OpenAI兼容API并协调KV缓存、调度和并行性。ATOM位于ROCm技术栈顶层,搭配AITER内核和MoRI RDMA通信,支持TP、DP和EP并行,针对DeepSeek V2至V4、Mixtral和Qwen3-MoE等MoE模型进行了优化。提供FP8、MXFP4、INT8和INT4量化,以及配备EAGLE提议器的MTP投机解码。

🟡 📦 开源 2026年6月19日 · 1 分钟阅读

Black Forest Labs:Robin Rombach呼吁G7领导人支持开放式AI发展

编辑插图:Robin Rombach呼吁G7领导人支持开放式AI发展

Robin Rombach——Black Forest Labs(FLUX模型开发者)联合创始人兼CEO——向G7领导人发出呼吁:开放、负责任的AI发展应成为全球规范。Rombach认为,AI参数的公开可及性能够促进创新并推动技术民主化。

🟡 📦 开源 2026年6月18日 · 1 分钟阅读

Allen Institute:开源MolmoMotion从视频中预测3D运动,在机器人领域达到SOTA

编辑插图:用于机器人操作的物体3D路径预测

Allen Institute发布了MolmoMotion,一款完全开源的模型,可根据视频和「旋转碗」等自然语言指令预测物体的3D轨迹。该模型在PointMotionBench上达到最优性能,平均位移0.109米(前记录为0.134米),并将机器人抓放任务成功率从56%提升至76.3%,提升20.3个百分点。模型在包含116万段视频及3D轨迹和动作描述的MolmoMotion-1M数据集上训练。

🟡 📦 开源 2026年6月17日 · 1 分钟阅读

vLLM:Semantic Router Fusion将模型面板合并,由裁判模型合成单一回答

编辑插图:AI模型面板和裁判模型合成单一回答

vLLM推出了Semantic Router Fusion——一种多个模型并行组成面板、由裁判模型分析共识与差异并合成单一回答的基本单元。支持本地vLLM和私有端点,以及Gemini、Kimi、DeepSeek和Claude等公共提供商。在OpenRouter DRACO上的外部验证显示合并面板达到69%,优于最佳单一模型的65.3%,且具备完整的OpenAI API兼容性。

🟡 📦 开源 2026年6月16日 · 1 分钟阅读

GitHub:开放多语言代码库数据集——8000万行记录、4000万个仓库

编辑插图:来自开放代码仓库的多语言数据集

GitHub发布了多语言代码库数据集,包含超过4000万个仓库的8000万行以上分类记录,采用完全开放的CC0-1.0许可证。数据集为每个仓库记录三个文本来源——README、评论最多的issue和评论最多的pull request——并通过fastText、gcld3和lingua-py三种工具进行语言检测。在非英语README文件中葡萄牙语排名第一,韩语在issue讨论中最为突出。

🟢 📦 开源 2026年6月16日 · 1 分钟阅读

CNCF:Oracle捐赠300万美元OCI积分,加速12个以上项目的Arm64支持

编辑插图:面向开源项目的Arm64云基础设施

CNCF报告称,Oracle捐赠的300万美元OCI计算积分为OpenTelemetry、containerd、Falco、Longhorn、Crossplane和Jaeger等12个以上项目提供了Arm64 CI/CD支持。需求迅速超过了每月5,000美元的初始指导方针。这一转变伴随着超过50%的新AWS实例和33%的Azure实例现在运行Arm64架构的数据。