🏥 实践应用

100 条新闻

🟡 🏥 实践应用 2026年5月23日 · 2 分钟阅读

arXiv:2605.22681:CUSP基准测试显示前沿模型无法可靠预测科学突破

编辑插图:科学曲线突破点与未能预测的AI系统

CUSP基准测试用4,700个事件的数据库测试AI模型预测科学突破的能力。前沿模型(GPT-5、Claude Opus 4.7、Gemini 3 Pro)能识别合理的研究方向,但系统性地以过高置信度猜测结果和时机。额外的截止前上下文并无帮助——限制是结构性的,而非信息性的。

🟡 🏥 实践应用 2026年5月23日 · 2 分钟阅读

GitHub:2026年Gartner魔力象限——GitHub Copilot连续第三年荣获企业AI编码代理领导者

编辑插图:象限矩阵中 GitHub Copilot 位于 Leader 区

Gartner在其2026年企业AI编码代理魔力象限报告中将GitHub定位为领导者——这是该类别存在以来连续第三年。GitHub Copilot目前被全球140,000个组织使用,评估强调了覆盖整个SDLC(从代码到审查、安全和治理)的智能体工作流,而不仅仅是代码生成。

🟢 🏥 实践应用 2026年5月23日 · 3 分钟阅读

arXiv:2605.22337:Meta-Soft通过可组合元令牌和可学习正交基引入KV缓存压缩

编辑插图:元令牌将注意力缓存压缩到正交基结构

研究人员提出了Meta-Soft,一种用于LLM推理中动态KV缓存压缩的新方法。该方法使用可学习的正交基矩阵和选择器网络,合成软元令牌——长提示中关键信息的压缩表示。注意力流机制将已删除令牌的语义信息重新分配给保留的令牌,在大多数长上下文基准测试中优于现有的KV缓存驱逐方法。

🟢 🏥 实践应用 2026年5月23日 · 3 分钟阅读

arXiv:2605.22664:WorkstreamBench测试LLM智能体处理金融端到端电子表格任务,前沿模型表现不佳

编辑插图:包含公式的Excel电子表格和正在分析它们的AI智能体

WorkstreamBench是一项由Thomson Yen带领10位作者完成的新基准测试,在金融领域对LLM智能体进行真实Excel和电子表格任务的测试——包括发票、报告、费用分析。GPT-4o、Claude和Gemini在对比测试中均未能可靠地完成全部任务,这表明当前面向企业财务的智能体基础设施存在结构性不足。

🟢 🏥 实践应用 2026年5月23日 · 2 分钟阅读

Anthropic Claude Code v2.1.150 — 内部基础设施补丁,无用户可见更改

编辑插图:带有版本号和内部齿轮图案的Claude Code终端

Anthropic于UTC时间周六04:03发布了Claude Code CLI版本v2.1.150,距v2.1.149仅一天。该版本仅包含内部基础设施改进,无任何面向用户的更改。适用于Darwin、Linux和Windows的ARM64和x64架构,以及Linux musl构建版本。

🟡 🏥 实践应用 2026年5月22日 · 2 分钟阅读

arXiv:2605.21427:PALS — MoE模型的功耗感知LLM服务实现+26.3%能效提升与4-7倍QoS违规减少

编辑插图:2605.21427:PALS — MoE模型功耗感知LLM服务实现+26.3%能效提升与4-7倍QoS违规减少

研究人员于2026年5月21日在arXiv预印本服务器上发布了PALS — 一个将GPU功耗控制直接集成到MoE模型LLM服务中的运行时系统。PALS利用轻量级离线功耗性能模型和反馈控制器,根据吞吐量目标动态优化配置。在功耗限制下实现了26.3%的能效提升和4-7倍QoS违规减少,无需修改API或重新训练模型即可集成到vLLM。该方案直接解决了数据中心日益突出的运营瓶颈 — GPU集群能耗已成为规模增长的主要限制。

🟢 🏥 实践应用 2026年5月22日 · 2 分钟阅读

CNCF:网易游戏通过Fluid预取层在Kubernetes上实现30秒LLM冷启动

编辑插图:网易游戏通过Fluid预取层在Kubernetes上实现30秒LLM冷启动

CNCF于2026年5月21日发布了网易游戏的案例研究(作者廖海峰和张翔),介绍了如何借助CNCF孵化项目Fluid将70B级LLM模型的加载时间从42分钟(直接访问S3)缩短至30秒以内。关键在于Fluid预取层在团队间共享模型而非多次缓存,以及消除冷启动的预热调度策略。这是在Kubernetes上为大型模型提供无服务器LLM推理的技术案例研究。

🟡 🏥 实践应用 2026年5月21日 · 2 分钟阅读

AWS:SageMaker AI新增OpenAI兼容API端点

Editorial illustration: AWS SageMaker AI提供OpenAI兼容API端点,可在自有GPU基础设施上直接替换

AWS于2026年5月20日宣布,Amazon SageMaker AI的实时推理端点现已提供OpenAI兼容API——可直接替换OpenAI SDK、LangChain和Strands Agents,只需更改URL即可。端点通过/openai/v1路径提供Chat Completions和流式传输支持,身份验证使用从AWS凭据生成的时效性Bearer令牌。

🟡 🏥 实践应用 2026年5月21日 · 2 分钟阅读

Google DeepMind:WeatherNext提前5天预测梅利莎飓风达到5级

Editorial illustration: Google DeepMind WeatherNext首次提前5天预测梅利莎飓风达到5级

Google DeepMind于2026年5月19日公布,其WeatherNext模型以80%的置信度提前整整5天准确预测了梅利莎飓风将达到5级——这是现代气象学中的首例。该模型使用50个并行情景的集合预报,上一季度被美国国家飓风中心评为飓风预报最高排名系统。

🟢 🏥 实践应用 2026年5月19日 · 1 分钟阅读

CNCF: Kubernetes调试器删除访问痕迹——安全审计面临严重合规问题

Editorial illustration: CNCF警告kubectl debug在会话结束后不留任何记录,对PCI DSS和SOC 2合规构成威胁

CNCF警告:kubectl debug——用于诊断Kubernetes容器的工具——在会话结束后不会留下任何记录。因此,受监管行业无法回答关键问题:谁查看了哪个容器、持续了多长时间——这直接违反PCI DSS和SOC 2审计日志要求。

🟡 🏥 实践应用 2026年5月16日 · 2 分钟阅读

GitHub: Copilot Memory跨所有仓库记住提交风格、PR结构和用户通信偏好

编辑插图:Copilot界面带有连接各仓库的记忆图标。

GitHub Copilot Memory用户偏好是2026年5月15日发布的新个性化功能,使Copilot能够跨整个仓库生态系统记住用户偏好。Copilot Memory记录提交消息风格、PR结构和通信偏好(正式vs非正式语气、详细程度),并在用户使用的每个仓库中一致应用。该功能是更广泛Copilot个性化层的一部分,与Cursor和Codeium自适应功能展开竞争。

🟡 🏥 实践应用 2026年5月16日 · 2 分钟阅读

OpenAI: ChatGPT Personal Finance——美国Pro订阅者安全关联金融账户获取AI驱动洞察

Editorial illustration: 金融仪表盘显示AI对话及银行集成图标。

ChatGPT Personal Finance是OpenAI于2026年5月15日发布的新功能,允许美国Pro订阅者安全关联金融账户,基于用户具体财务状况、目标和优先事项获取AI驱动洞察。该功能将ChatGPT从通用聊天扩展至个性化金融助手层级,直接与Google Finance和Perplexity的finance_search工具(5月13日发布)竞争。

🟡 🏥 实践应用 2026年5月16日 · 2 分钟阅读

OpenAI + Databricks: GPT-5.5集成至企业智能体工作流,刷新OfficeQA Pro基准测试记录

Editorial illustration: Databricks和OpenAI标志与GPT-5.5图标及企业智能体工作流展示。

OpenAI与Databricks的集成是2026年5月15日宣布的新企业智能体合作关系,将GPT-5.5模型引入Databricks平台用于构建智能体工作流。此公告是GPT-5.5首次通过合作伙伴渠道明确部署——该模型在OfficeQA Pro基准测试中创下记录,现通过Databricks Mosaic AI运行时向企业客户提供。Anthropic Claude替代品、Google Gemini和Mistral竞争对手在Databricks生态系统中迎来真正的挑战者。

🟢 🏥 实践应用 2026年5月16日 · 2 分钟阅读

AWS: Amazon Quick — S3知识库的文档级访问控制,默认拒绝与ALLOW/DENY规则

编辑插图:带有ACL层和访问前用户身份验证的文档数据库。

Amazon Quick文档级访问控制是Josh DeMuth于2026年5月15日发布的新企业RAG安全机制。它通过两种配置方法为Amazon Quick中的S3知识库启用文档级ACL:全局ACL文件(稳定结构的集中JSON)和文档级元数据文件。系统使用deny-by-default,并在用户和群组级别支持ALLOW/DENY规则,其中DENY始终优先。

🟡 🏥 实践应用 2026年5月15日 · 2 分钟阅读

Amazon Lex: Assisted NLU LLM模式实现92%意图识别准确率和84%槽位解析率,无需额外费用

编辑插图:聊天机器人意图流程,附ML和LLM组件。

Amazon Lex Assisted NLU是于2026年5月14日发布的LLM驱动聊天机器人新模式,在传统Lex NLU基础上增加大型语言模型能力。平均实现92%意图分类准确率和84%槽位解析准确率,真实部署中意图分类提升11-15%,回退响应减少23.5%。提供两种模式——主要模式(每次输入)和回退模式(仅低置信度时)——包含在标准Lex价格中。

🟢 🏥 实践应用 2026年5月15日 · 2 分钟阅读

GitHub Copilot Cloud Agent: 自动模型选择功能以10%折扣降低令牌倍增系数

编辑插图:AI代理,附旋转模型图标和折扣百分比。

GitHub Copilot Cloud Agent自动模型选择是于2026年5月14日发布的新功能,根据系统健康状况和模型性能信号自动为任务选择最优模型。使用自动模式的用户可享受标准模型倍增系数10%折扣,且不受每周使用频率限制。该功能消除了手动选择模型的需要,解决了企业用户在一周结束前触及使用上限的常见痛点。

🟢 🏥 实践应用 2026年5月15日 · 2 分钟阅读

IBM Consulting: Forward Deployed Units——6人AI+人类团队完成30人团队工作量,服务利雅得航空、雀巢、喜力

编辑插图:6名成员咨询小组——人类和AI代理共同工作。

IBM Forward Deployed Units(FDUs)是由Mohamad Ali(IBM咨询高级副总裁)于2026年5月14日发布的新企业咨询模式。6人小组——高级顾问、工程师和AI代理——取代传统30人咨询团队。该模式引入持续参与替代一次性项目逻辑。已在利雅得航空、雀巢、喜力和培生进行实际部署。

🟢 🏥 实践应用 2026年5月15日 · 2 分钟阅读

OpenAI: Sea Limited(Garena、Shopee)通过亚洲工程团队部署 Codex——AI 原生开发案例研究

编辑插图:亚洲工程团队在多台显示器上展示 Codex CLI 界面。

OpenAI Sea Codex 案例研究是于 2026 年 5 月 14 日发布的企业部署文章,Sea Limited(Garena 和 Shopee 品牌母公司)首席产品官在文中阐述了在亚洲工程团队中推广 OpenAI Codex 编码智能体的战略。Sea 将 Codex 定位为 AI 原生软件开发工具——这是对工作流程的根本性变革,而非仅仅加速既有实践的开发辅助工具。

🟡 🏥 实践应用 2026年5月14日 · 2 分钟阅读

Perplexity: finance_search Agent API 工具一次调用返回 OHLCV、资产负债表、电话会议记录及分析师预测

编辑插图:带有 OHLCV 图表和 AI 智能体箭头的金融数据仪表盘。

Perplexity finance_search 是2026年5月推出的全新 Agent API 工具,可为上市公司返回结构化金融数据——近实时价格、OHLCV 范围、盘前盘后数据、损益表、资产负债表、现金流量、财报电话会议记录、SEC 文件、分析师预测及 ETF 成分股。模型根据提示自动决定获取哪些字段。

🟢 🏥 实践应用 2026年5月14日 · 2 分钟阅读

AWS:Pulse AI + Bedrock流水线对Nova Micro进行金融文档微调——3小时处理1000份文档

编辑插图:金融文档与自动提取流水线和结构化数据。

AWS Pulse AI + Amazon Bedrock金融文档处理是AWS于2026年5月13日发布的新企业流水线蓝图。将Pulse AI从复杂金融文档(SEC文件、资产负债表、审计材料)的数据提取与Amazon Nova Micro模型微调相结合。此前需要多天处理的1000份文档批次在不到3小时内完成,微调后的模型支票数据提取精度从50%基准提升至100%。

🟢 🏥 实践应用 2026年5月14日 · 2 分钟阅读

CNCF:KubeStellar AI 智能体通过 91% 测试覆盖率和 63 个 CI/CD 工作流实现 81% PR 合并率

编辑插图:带有 AI 智能体图标和 CI/CD 流水线箭头的 Kubernetes 集群。

KubeStellar AI Agents 是 CNCF 博客上由 KubeStellar Console 首席维护者 Andy Anderson 发布的全新案例研究,发布于2026年5月14日。这个多集群 Kubernetes 仪表盘通过两个并行 AI 编码智能体在82天内实现了 81% 的 PR 合并率。基础设施:63个 CI/CD 工作流、32个夜间测试套件、12个分片上 91% 覆盖率、Bug 到合并约30分钟。Anderson 定义了 AI 代码库成熟度的五个层级。

🟢 🏥 实践应用 2026年5月14日 · 2 分钟阅读

GitHub:Copilot Cloud Agent REST API开放用于大规模重构、仓库初始化和周度发版准备

编辑插图:带有自主智能体图标和REST API端点的GitHub Actions工作流。

GitHub Copilot Cloud Agent REST API是GitHub于2026年5月13日在公开预览中发布的新开发者端点,允许以编程方式启动自主Copilot任务。三个主要使用场景:跨多仓库的代码重构/迁移大规模分发、来自开发者门户的一键仓库初始化,以及含发版说明的自动周度发版准备。面向Copilot Business和Enterprise订阅者开放。

🟡 🏥 实践应用 2026年5月13日 · 2 分钟阅读

GitHub: Copilot Pro $10、Pro+ $39 与全新 Max $100 计划,引入弹性积分模型

编辑插图:开发者界面中展示基础积分和弹性积分图标的订阅结构。

GitHub Copilot Flex Allotments 与 Max 计划是 GitHub Copilot 于 2026 年 5 月 12 日发布的新定价结构,将于 2026 年 6 月 1 日起生效。Pro 套餐每月 $10,含 $15 使用积分;Pro+ 套餐 $39,含 $70 积分;全新 Max 计划 $100,含 $200 积分。代码补全和下一步编辑建议在所有付费套餐中均不设使用限制。

🟡 🏥 实践应用 2026年5月13日 · 1 分钟阅读

Perplexity: 四月更新日志为 Agent API 新增 Claude Opus 4.7、GPT-5.5 与 Grok 4.20 推理模型

编辑插图:开发者面板中展示 API 接口、模型图标与安全密钥的示意图。

Perplexity 四月 2026 更新日志是一套全新的 Perplexity Agent API 升级方案,新增了 Claude Opus 4.7、GPT-5.5 与 Grok 4.20 Reasoning 模型、原生 n8n 集成、AWS Marketplace SaaS 上架、一次性 API 密钥安全模型,以及兼容 OpenAI 格式的全新 /v1/models 接口。

🟡 🏥 实践应用 2026年5月12日 · 1 分钟阅读

Anthropic: Claude Code v2.1.139 — Agent View 统一显示所有会话 + /goal 命令实现自主任务完成

Editorial illustration: Claude Code v2.1.139 — Agent View 统一显示所有会话 + /goal 命令实现自主任务完成

Claude Code v2.1.139 是 Anthropic CLI 智能体的新版本,处于研究预览阶段推出 Agent View——一个显示所有会话(活跃、阻塞、已完成)的统一列表——以及 /goal 命令,该命令驱动 Claude 跨多个步骤工作直至满足指定条件,并提供显示耗时、步骤数和令牌消耗的面板。

🟡 🏥 实践应用 2026年5月12日 · 2 分钟阅读

IBM: Red Hat AI Inference和OpenShift Virtualization Service作为托管产品在IBM Cloud上发布

编辑插图:具有红蓝光晕的企业云基础设施,运行推理工作负载的抽象服务器,混合虚拟机和容器编排。

IBM今天宣布将Red Hat AI Inference Service和Red Hat OpenShift Virtualization Service作为托管企业产品在IBM Cloud上提供。前者为开源LLM(Granite、Llama、Mistral)提供优化的服务环境,具备自动扩展和SLA保障;后者允许在同一OpenShift控制平面中运行虚拟机和容器。目标:降低希望使用开源AI但不具备自有Kubernetes基础设施能力的企业团队的运营负担。

🟡 🏥 实践应用 2026年5月12日 · 2 分钟阅读

OpenAI: DeployCo——伴随2026年Q1业绩发布的全新独立企业AI部署组织

编辑插图:企业咨询握手与抽象AI基础设施管道,部署生命周期可视化。

OpenAI周二启动了DeployCo(The Deployment Company),这是一个帮助企业在生产中构建和扩展AI应用程序的独立组织。目标:将基础模型研发与企业部署咨询分开,后者此前与OpenAI团队同处一地,造成了运营摩擦。DeployCo提供托管部署、自定义评估、上线后监控和行业特定微调服务。

🟡 🏥 实践应用 2026年5月11日 · 2 分钟阅读

OpenAI:企业AI实施规模化指南——从实验到持续业务影响

Editorial illustration: OpenAI企业AI规模化指南——从实验到持续业务影响

OpenAI发布了企业指南《How enterprises are scaling AI》,描述从初步实验到持续业务影响的路径。指南聚焦四大基础支柱:组织信任、治理框架、工作流设计和规模化增长时的质量维护。

🟢 🏥 实践应用 2026年5月11日 · 1 分钟阅读

Google: AI驱动的Finance扩展至欧洲——股票摘要、投资组合分析、AI助手

Editorial illustration: Google AI驱动Finance扩展至欧洲——股票摘要、投资组合分析、AI助手

Google Finance AI驱动平台本周向欧洲市场扩展,提供完整的本地语言支持。新功能包括:AI股票和市场趋势研究、高级可视化、实时加密货币和商品覆盖、企业财报电话的实时转录,以及可全球使用的Deep Search,用于复杂财务问题的深度查询。

🟡 🏥 实践应用 2026年5月9日 · 1 分钟阅读

Anthropic: Claude Code v2.1.136 带来54项修复、MCP OAuth修复与hard-deny规则

编辑插图:带有MCP OAuth修复和hard-deny规则标注的Claude Code终端

Anthropic发布了Claude Code v2.1.136,此版本包含54项更改,引入了新的settings.autoMode.hard_deny规则以在自动模式中无条件阻止操作,修复了迫使用户每日重新登录的MCP OAuth竞态条件,并解决了扩展思维中的API 400错误。

🟢 🏥 实践应用 2026年5月9日 · 1 分钟阅读

AWS: Halliburton地震AI助手将工作流创建时间缩短超95%

编辑插图:通过Amazon Bedrock从自然语言生成的地震工作流

Halliburton与AWS联合构建了一款用于Seismic Engine的AI助手,通过Amazon Bedrock和Claude模型将自然语言转化为地震工作流。系统准确率达84-97%,将创建时间从2-20分钟缩短至5.9-16.6秒,加速超过95%。

🟡 🏥 实践应用 2026年5月8日 · 2 分钟阅读

GitHub: 审查AI拉取请求的五大风险与10分钟评审框架

编辑插图:审查AI拉取请求的五大风险与10分钟评审框架

GitHub发布了AI生成代码审查实用指南,定义了五大关键风险并提出了结构化的10分钟代码审查框架。平台上超过五分之一的拉取请求现已涉及AI代理。

🟡 🏥 实践应用 2026年5月7日 · 2 分钟阅读

Anthropic: Claude Code v2.1.132 带来25项以上修复及新钩子环境变量

编辑插图:Claude Code v2.1.132带来25项以上修复及新钩子环境变量

Anthropic发布了Claude Code v2.1.132,包含25项以上修复和两个新环境变量:用于钩子集成的CLAUDE_CODE_SESSION_ID和用于原生滚动缓冲区的CLAUDE_CODE_DISABLE_ALTERNATE_SCREEN。同时修复了MCP服务器导致内存占用超过10GB的严重漏洞。

🟡 🏥 实践应用 2026年5月7日 · 1 分钟阅读

Anthropic: Claude Code v2.1.133新增worktree.baseRef参数并修复竞态条件

Editorial illustration: Claude Code v2.1.133新增worktree.baseRef参数并修复竞态条件

Anthropic发布Claude Code v2.1.133,新增worktree.baseRef、sandbox.bwrapPath/socatPath参数以及Hook中的CLAUDE_EFFORT环境变量。此版本修复了并行会话中的竞态条件以及Windows驱动器根路径问题,是本周继v2.1.131和v2.1.132之后的第三次发布。

🟡 🏥 实践应用 2026年5月7日 · 2 分钟阅读

GitHub: 优化智能体工作流实现19%至62%的Token节省

Editorial illustration: 优化智能体工作流实现19%至62%的Token节省

GitHub对生产环境智能体工作流进行监测,发现三大Token浪费来源:不必要的MCP工具、可确定性获取的数据以及错误配置的Bash规则。经优化,各工作流实现了19%至62%的Token节省。

🟢 🏥 实践应用 2026年5月7日 · 1 分钟阅读

arXiv:2605.04012: SymptomAI在Fitbit应用中以约13,917名患者为样本,鉴别诊断准确性优于独立临床医生

Editorial illustration: korisnik razgovara sa SymptomAI agentom u Fitbit aplikaciji dok pozadinski panel prikazuje rangiranu listu dijagnoza

SymptomAI是集成于Fitbit应用的对话式AI智能体,在约13,917名参与者中进行测试;在临床评估子集中,其诊断建议相对于独立评估相同对话的临床医生实现了2.47的优势比(OR)。本研究为预印本。

🟡 🏥 实践应用 2026年5月6日 · 1 分钟阅读

IBM: Enterprise Advantage新增Context Studio——Providence Health将招聘管理时间缩短90%

编辑插图:IBM Enterprise Advantage Context Studio,基于组织数据构建AI代理

IBM扩展了Enterprise Advantage平台,推出Context Studio——一款基于组织自有数据构建AI代理并保护数字主权的工具。Providence Health将招聘管理时间缩短90%,IBM预计18个月内运营成本降低25%以上。

🟢 🏥 实践应用 2026年5月6日 · 1 分钟阅读

Anthropic: Claude Code v2.1.131 — Windows VS Code激活和Mantle x-api-key热修复

编辑插图:Claude Code v2.1.131热修复,针对Windows VS Code和Mantle认证

Anthropic发布了Claude Code v2.1.131热修复版本,解决了两个错误:Windows上因硬编码构建路径导致VS Code扩展激活失败,以及向Mantle推理端点缺少x-api-key请求头。所有主要平台均已发布二进制版本。

🟡 🏥 实践应用 2026年5月5日 · 2 分钟阅读

arXiv:2605.02740: ReClaim — 基于2亿患者记录训练的基础模型在1000+医疗任务上达到平均AUC 75.6%

编辑插图:开发者工作台,显示器上呈现代码、听诊器和医疗图表

新的arXiv预印本介绍了ReClaim——一个拥有17亿参数的基础模型,在来自2亿患者记录的438亿医疗事件上训练而成。在超过1000项诊断任务中,平均AUC达到75.6%,显著优于LightGBM(66.3%)和Delphi专业模型(69.4%)。这开创了基于行政健康数据训练的基础模型新类别。

🟡 🏥 实践应用 2026年5月5日 · 2 分钟阅读

Anthropic Claude Code v2.1.128:30余项修复、.zip插件支持及子代理缓存创建成本降低约3倍

概念插图:开发者工作区,显示器旁边放有.zip压缩包和插件安装进度条

Claude Code v2.1.128(2026年5月4日发布)带来30余项改进:/mcp面板显示工具数量并标记工具为0的服务器、--plugin-dir支持.zip插件压缩包、修复EnterWorktree丢失本地未推送提交的问题、子代理cache_creation成本降低约3倍,以及修复通过stdin管道传输超过10MB输入时的崩溃问题。

🟡 🏥 实践应用 2026年5月4日 · 2 分钟阅读

IBM研究:76%的组织有首席AI官,CEO预计到2030年48%的运营决策将由AI自主作出

Editorial illustration: IBM研究:76%的组织有首席AI官,CEO预计到2030年48%的运营决策将由AI自主作出

IBM商业价值研究院发布了对33个国家2000名CEO的研究,显示首席AI官职位在一年内从26%扩展到76%的组织。CEO预计到2030年,AI系统将无需人工干预地作出48%的运营决策,这重新定义了整个C级管理层的结构。

🔴 🏥 实践应用 2026年5月1日 · 2 分钟阅读

DeepMind AI协同临床医生:盲法评估98个初级保健查询,医生更偏好该系统,97/98例零严重错误

编辑插图:AI智能体在临床场景中协助医生为患者提供服务,配有医疗设备

Google DeepMind于2026年4月30日宣布AI协同临床医生研究计划——在医生临床监督下,AI智能体协助患者的三元护理模型。在98个真实初级保健查询的盲法头对头评估中,医生一致偏好协同临床医生的回答而非两款领先的证据综合工具,该系统在97/98例中记录零严重错误。

🟡 🏥 实践应用 2026年5月1日 · 2 分钟阅读

Amazon Nova 2 Lite借助强化微调达到4.33/5.0,在自动化法律合同审查中超越Claude Sonnet 4.5

编辑插图:AI评判者站在讲台上审查法律合同,机械手臂标记合同条款

强化微调(RFT)是一种训练方法,其中语言模型充当评判者(LLM-as-Judge),提供反馈以替代昂贵的人工标注。Amazon Nova 2 Lite由此在自动化法律合同审查中取得4.33/5.0的综合评分和完美的JSON验证分1.00,超越了Claude Sonnet 4.5和Claude Haiku 4.5。

🟢 🏥 实践应用 2026年5月1日 · 1 分钟阅读

IBM Research与Dallara:AI代理模型GIST将赛车气动评估从数小时CFD缩短至10秒

编辑插图:赛车与展示后扩散器周围快速流场仿真的箭头

GIST(规范不变谱变换器)是IBM Research与意大利赛车底盘制造商Dallara联合开发的基于图神经算子的AI代理模型。LMP2赛车后扩散器的气动评估时间由传统CFD仿真的数小时缩短至约10秒,相关研究在ICLR 2026的AI与PDE工作坊上发表。

🟡 🏥 实践应用 2026年4月30日 · 2 分钟阅读

Anthropic Claude for Creative Work:支持 Blender、50 余款 Adobe Creative Cloud 工具、Autodesk Fusion、Ableton、SketchUp 和 Splice

编辑插图:AI 助手连接 3D 建模、音频制作和平面设计

Anthropic 于 2026 年 4 月 28 日宣布与 Blender、Autodesk Fusion、Adobe(50 余款 Creative Cloud 工具)、Ableton、Splice、Affinity 和 Canva、Resolume Arena 及 SketchUp 合作,推出 Claude 专业创意软件连接器。Claude 可为 Blender 编写 Python 脚本、实时控制 Resolume 供 VJ 使用、在 Affinity 中自动化批量资产处理,以及搜索 Splice 样本目录。Anthropic 还作为赞助商加入了 Blender Development Fund,三所学术机构——RISD、Ringling College 和 Goldsmiths——将开设让学生学习与 Claude 协作的课程。

🟡 🏥 实践应用 2026年4月30日 · 2 分钟阅读

Google ERA:用于科学研究的AI系统在住院预测上达到CDC顶级水平,解决了悬而未决的宇宙学问题,并每10分钟监测一次CO2

编辑插图:科学工具与AI网络连接成星形多领域星座

Google Research于2026年4月29日发布了ERA(经验研究辅助系统)——一个将大语言模型与计算工具相结合以加速科学研究的内部AI系统。来自不同领域的四个具体成果:在COVID/流感/RSV住院预测CDC排行榜上位居榜首、六个宇宙弦引力辐射新解、每10分钟监测大气CO2的神经网络,以及斑马鱼可解释神经回路。

🟡 🏥 实践应用 2026年4月30日 · 2 分钟阅读

EvalEval联盟:AI评估成为新的计算瓶颈——GAIA单次运行$2,829,HAL排行榜$40,000,学术审计人员在遇到技术瓶颈前先碰壁于预算

编辑插图:天平向评估成本一侧倾斜,超过训练成本

EvalEval联盟(Avijit Ghosh、Yifan Mai、Georgia Channing、Leshem Choshen)于2026年4月29日在HuggingFace博客发布分析,显示AI模型评估成本已激增。单次GAIA运行$2,829,HAL排行榜$40,000(k=8可靠性$320,000),PaperBench每个智能体约$9,500。静态基准测试可压缩100-200倍,智能体基准测试仅2-3.5倍——独立审计人员面临问责障碍。

🟡 🏥 实践应用 2026年4月29日 · 1 分钟阅读

Anthropic Claude for Creative Work:60余款创意工具连接器、新产品 Claude Design,以及与 RISD、Ringling 和 Goldsmiths 的学术合作

编辑配图:Claude 连接器分支延伸至从设计到视频及3D制作的创意工具栈

Anthropic 发布了 Claude for Creative Work —— 一套将 Claude 与 Adobe Photoshop、Premiere、50余款 Creative Cloud 工具、Blender、Autodesk Fusion、Ableton Live 与 Push、Resolume 系列、SketchUp、Splice 及 Affinity by Canva 相连接的连接器套件。同步推出的新产品 Claude Design 来自 Anthropic Labs,可可视化软件界面创意并支持导出至 Canva。与此同时,与 RISD、Ringling College 和 Goldsmiths University of London 的学术合作将把 Claude 纳入创意计算课程体系。

🟡 🏥 实践应用 2026年4月29日 · 2 分钟阅读

IBM发布Bob:覆盖完整SDLC的AI开发伙伴,8万余名内部用户,平均生产力提升45%

编辑插图:软件开发生命周期齿轮中心带有助手徽标

IBM于2026年4月28日正式发布“Bob”——涵盖软件开发生命周期全流程的AI伙伴:规划、设计、编码、测试、部署、运维和现代化改造。Bob协调Anthropic Claude、Mistral和IBM Granite等模型,已有80,000余名IBM员工在内部使用,平均生产力提升45%,可通过bob.ibm.com免费试用30天。

🟡 🏥 实践应用 2026年4月29日 · 1 分钟阅读

OpenAI 登陆 AWS:GPT 模型、Codex 与 Managed Agents 现可在 AWS 环境中供企业用户使用

编辑配图:OpenAI 标志与 AWS 云图标融合,象征企业级分发扩展

OpenAI 于 2026 年 4 月 28 日宣布,GPT 模型、Codex 与 Managed Agents 现已在 AWS 上可用,使企业用户能够在自己的 AWS 环境中构建安全的 AI 系统。此次公告与 OpenAI × 微软修订版合作协议于同日发布,标志着 OpenAI 首次在 Microsoft Azure 生态系统之外进行分发。

查看完整档案 →