🏥 实践应用

100 条新闻

🟡 🏥 实践应用 2026年5月23日 · 2 分钟阅读

arXiv:2605.22681：CUSP基准测试显示前沿模型无法可靠预测科学突破

CUSP基准测试用4,700个事件的数据库测试AI模型预测科学突破的能力。前沿模型（GPT-5、Claude Opus 4.7、Gemini 3 Pro）能识别合理的研究方向，但系统性地以过高置信度猜测结果和时机。额外的截止前上下文并无帮助——限制是结构性的，而非信息性的。

🟡 🏥 实践应用 2026年5月23日 · 2 分钟阅读

GitHub：2026年Gartner魔力象限——GitHub Copilot连续第三年荣获企业AI编码代理领导者

Gartner在其2026年企业AI编码代理魔力象限报告中将GitHub定位为领导者——这是该类别存在以来连续第三年。GitHub Copilot目前被全球140,000个组织使用，评估强调了覆盖整个SDLC（从代码到审查、安全和治理）的智能体工作流，而不仅仅是代码生成。

🟢 🏥 实践应用 2026年5月23日 · 3 分钟阅读

arXiv:2605.22337：Meta-Soft通过可组合元令牌和可学习正交基引入KV缓存压缩

研究人员提出了Meta-Soft，一种用于LLM推理中动态KV缓存压缩的新方法。该方法使用可学习的正交基矩阵和选择器网络，合成软元令牌——长提示中关键信息的压缩表示。注意力流机制将已删除令牌的语义信息重新分配给保留的令牌，在大多数长上下文基准测试中优于现有的KV缓存驱逐方法。

🟢 🏥 实践应用 2026年5月23日 · 3 分钟阅读

arXiv:2605.22664：WorkstreamBench测试LLM智能体处理金融端到端电子表格任务，前沿模型表现不佳

WorkstreamBench是一项由Thomson Yen带领10位作者完成的新基准测试，在金融领域对LLM智能体进行真实Excel和电子表格任务的测试——包括发票、报告、费用分析。GPT-4o、Claude和Gemini在对比测试中均未能可靠地完成全部任务，这表明当前面向企业财务的智能体基础设施存在结构性不足。

🟢 🏥 实践应用 2026年5月23日 · 2 分钟阅读

Anthropic Claude Code v2.1.150 — 内部基础设施补丁，无用户可见更改

Anthropic于UTC时间周六04:03发布了Claude Code CLI版本v2.1.150，距v2.1.149仅一天。该版本仅包含内部基础设施改进，无任何面向用户的更改。适用于Darwin、Linux和Windows的ARM64和x64架构，以及Linux musl构建版本。

🟡 🏥 实践应用 2026年5月22日 · 2 分钟阅读

arXiv:2605.21427：PALS — MoE模型的功耗感知LLM服务实现+26.3%能效提升与4-7倍QoS违规减少

编辑插图：2605.21427：PALS — MoE模型功耗感知LLM服务实现+26.3%能效提升与4-7倍QoS违规减少

研究人员于2026年5月21日在arXiv预印本服务器上发布了PALS — 一个将GPU功耗控制直接集成到MoE模型LLM服务中的运行时系统。PALS利用轻量级离线功耗性能模型和反馈控制器，根据吞吐量目标动态优化配置。在功耗限制下实现了26.3%的能效提升和4-7倍QoS违规减少，无需修改API或重新训练模型即可集成到vLLM。该方案直接解决了数据中心日益突出的运营瓶颈 — GPU集群能耗已成为规模增长的主要限制。

🟢 🏥 实践应用 2026年5月22日 · 2 分钟阅读

CNCF：网易游戏通过Fluid预取层在Kubernetes上实现30秒LLM冷启动

编辑插图：网易游戏通过Fluid预取层在Kubernetes上实现30秒LLM冷启动

CNCF于2026年5月21日发布了网易游戏的案例研究（作者廖海峰和张翔），介绍了如何借助CNCF孵化项目Fluid将70B级LLM模型的加载时间从42分钟（直接访问S3）缩短至30秒以内。关键在于Fluid预取层在团队间共享模型而非多次缓存，以及消除冷启动的预热调度策略。这是在Kubernetes上为大型模型提供无服务器LLM推理的技术案例研究。

🟡 🏥 实践应用 2026年5月21日 · 2 分钟阅读

AWS：SageMaker AI新增OpenAI兼容API端点

Editorial illustration: AWS SageMaker AI提供OpenAI兼容API端点，可在自有GPU基础设施上直接替换

AWS于2026年5月20日宣布，Amazon SageMaker AI的实时推理端点现已提供OpenAI兼容API——可直接替换OpenAI SDK、LangChain和Strands Agents，只需更改URL即可。端点通过/openai/v1路径提供Chat Completions和流式传输支持，身份验证使用从AWS凭据生成的时效性Bearer令牌。

🟡 🏥 实践应用 2026年5月21日 · 2 分钟阅读

Google DeepMind：WeatherNext提前5天预测梅利莎飓风达到5级

Editorial illustration: Google DeepMind WeatherNext首次提前5天预测梅利莎飓风达到5级

Google DeepMind于2026年5月19日公布，其WeatherNext模型以80%的置信度提前整整5天准确预测了梅利莎飓风将达到5级——这是现代气象学中的首例。该模型使用50个并行情景的集合预报，上一季度被美国国家飓风中心评为飓风预报最高排名系统。

🟢 🏥 实践应用 2026年5月19日 · 1 分钟阅读

CNCF: Kubernetes调试器删除访问痕迹——安全审计面临严重合规问题

Editorial illustration: CNCF警告kubectl debug在会话结束后不留任何记录，对PCI DSS和SOC 2合规构成威胁

CNCF警告：kubectl debug——用于诊断Kubernetes容器的工具——在会话结束后不会留下任何记录。因此，受监管行业无法回答关键问题：谁查看了哪个容器、持续了多长时间——这直接违反PCI DSS和SOC 2审计日志要求。

🟡 🏥 实践应用 2026年5月16日 · 2 分钟阅读

GitHub: Copilot Memory跨所有仓库记住提交风格、PR结构和用户通信偏好

GitHub Copilot Memory用户偏好是2026年5月15日发布的新个性化功能，使Copilot能够跨整个仓库生态系统记住用户偏好。Copilot Memory记录提交消息风格、PR结构和通信偏好（正式vs非正式语气、详细程度），并在用户使用的每个仓库中一致应用。该功能是更广泛Copilot个性化层的一部分，与Cursor和Codeium自适应功能展开竞争。

🟡 🏥 实践应用 2026年5月16日 · 2 分钟阅读

OpenAI: ChatGPT Personal Finance——美国Pro订阅者安全关联金融账户获取AI驱动洞察

Editorial illustration: 金融仪表盘显示AI对话及银行集成图标。

ChatGPT Personal Finance是OpenAI于2026年5月15日发布的新功能，允许美国Pro订阅者安全关联金融账户，基于用户具体财务状况、目标和优先事项获取AI驱动洞察。该功能将ChatGPT从通用聊天扩展至个性化金融助手层级，直接与Google Finance和Perplexity的finance_search工具（5月13日发布）竞争。

🟡 🏥 实践应用 2026年5月16日 · 2 分钟阅读

OpenAI + Databricks: GPT-5.5集成至企业智能体工作流，刷新OfficeQA Pro基准测试记录

Editorial illustration: Databricks和OpenAI标志与GPT-5.5图标及企业智能体工作流展示。

OpenAI与Databricks的集成是2026年5月15日宣布的新企业智能体合作关系，将GPT-5.5模型引入Databricks平台用于构建智能体工作流。此公告是GPT-5.5首次通过合作伙伴渠道明确部署——该模型在OfficeQA Pro基准测试中创下记录，现通过Databricks Mosaic AI运行时向企业客户提供。Anthropic Claude替代品、Google Gemini和Mistral竞争对手在Databricks生态系统中迎来真正的挑战者。

🟢 🏥 实践应用 2026年5月16日 · 2 分钟阅读

AWS: Amazon Quick — S3知识库的文档级访问控制，默认拒绝与ALLOW/DENY规则

Amazon Quick文档级访问控制是Josh DeMuth于2026年5月15日发布的新企业RAG安全机制。它通过两种配置方法为Amazon Quick中的S3知识库启用文档级ACL：全局ACL文件（稳定结构的集中JSON）和文档级元数据文件。系统使用deny-by-default，并在用户和群组级别支持ALLOW/DENY规则，其中DENY始终优先。

🟡 🏥 实践应用 2026年5月15日 · 2 分钟阅读

Amazon Lex: Assisted NLU LLM模式实现92%意图识别准确率和84%槽位解析率，无需额外费用

Amazon Lex Assisted NLU是于2026年5月14日发布的LLM驱动聊天机器人新模式，在传统Lex NLU基础上增加大型语言模型能力。平均实现92%意图分类准确率和84%槽位解析准确率，真实部署中意图分类提升11-15%，回退响应减少23.5%。提供两种模式——主要模式（每次输入）和回退模式（仅低置信度时）——包含在标准Lex价格中。

🟢 🏥 实践应用 2026年5月15日 · 2 分钟阅读

GitHub Copilot Cloud Agent: 自动模型选择功能以10%折扣降低令牌倍增系数

GitHub Copilot Cloud Agent自动模型选择是于2026年5月14日发布的新功能，根据系统健康状况和模型性能信号自动为任务选择最优模型。使用自动模式的用户可享受标准模型倍增系数10%折扣，且不受每周使用频率限制。该功能消除了手动选择模型的需要，解决了企业用户在一周结束前触及使用上限的常见痛点。

🟢 🏥 实践应用 2026年5月15日 · 2 分钟阅读

IBM Consulting: Forward Deployed Units——6人AI+人类团队完成30人团队工作量，服务利雅得航空、雀巢、喜力

IBM Forward Deployed Units（FDUs）是由Mohamad Ali（IBM咨询高级副总裁）于2026年5月14日发布的新企业咨询模式。6人小组——高级顾问、工程师和AI代理——取代传统30人咨询团队。该模式引入持续参与替代一次性项目逻辑。已在利雅得航空、雀巢、喜力和培生进行实际部署。

🟢 🏥 实践应用 2026年5月15日 · 2 分钟阅读

OpenAI: Sea Limited（Garena、Shopee）通过亚洲工程团队部署 Codex——AI 原生开发案例研究

OpenAI Sea Codex 案例研究是于 2026 年 5 月 14 日发布的企业部署文章，Sea Limited（Garena 和 Shopee 品牌母公司）首席产品官在文中阐述了在亚洲工程团队中推广 OpenAI Codex 编码智能体的战略。Sea 将 Codex 定位为 AI 原生软件开发工具——这是对工作流程的根本性变革，而非仅仅加速既有实践的开发辅助工具。

🟡 🏥 实践应用 2026年5月14日 · 2 分钟阅读

Perplexity: finance_search Agent API 工具一次调用返回 OHLCV、资产负债表、电话会议记录及分析师预测

Perplexity finance_search 是2026年5月推出的全新 Agent API 工具，可为上市公司返回结构化金融数据——近实时价格、OHLCV 范围、盘前盘后数据、损益表、资产负债表、现金流量、财报电话会议记录、SEC 文件、分析师预测及 ETF 成分股。模型根据提示自动决定获取哪些字段。

🟢 🏥 实践应用 2026年5月14日 · 2 分钟阅读

AWS：Pulse AI + Bedrock流水线对Nova Micro进行金融文档微调——3小时处理1000份文档

AWS Pulse AI + Amazon Bedrock金融文档处理是AWS于2026年5月13日发布的新企业流水线蓝图。将Pulse AI从复杂金融文档（SEC文件、资产负债表、审计材料）的数据提取与Amazon Nova Micro模型微调相结合。此前需要多天处理的1000份文档批次在不到3小时内完成，微调后的模型支票数据提取精度从50%基准提升至100%。

🟢 🏥 实践应用 2026年5月14日 · 2 分钟阅读

CNCF：KubeStellar AI 智能体通过 91% 测试覆盖率和 63 个 CI/CD 工作流实现 81% PR 合并率

编辑插图：带有 AI 智能体图标和 CI/CD 流水线箭头的 Kubernetes 集群。

KubeStellar AI Agents 是 CNCF 博客上由 KubeStellar Console 首席维护者 Andy Anderson 发布的全新案例研究，发布于2026年5月14日。这个多集群 Kubernetes 仪表盘通过两个并行 AI 编码智能体在82天内实现了 81% 的 PR 合并率。基础设施：63个 CI/CD 工作流、32个夜间测试套件、12个分片上 91% 覆盖率、Bug 到合并约30分钟。Anderson 定义了 AI 代码库成熟度的五个层级。

🟢 🏥 实践应用 2026年5月14日 · 2 分钟阅读

GitHub：Copilot Cloud Agent REST API开放用于大规模重构、仓库初始化和周度发版准备

编辑插图：带有自主智能体图标和REST API端点的GitHub Actions工作流。

GitHub Copilot Cloud Agent REST API是GitHub于2026年5月13日在公开预览中发布的新开发者端点，允许以编程方式启动自主Copilot任务。三个主要使用场景：跨多仓库的代码重构/迁移大规模分发、来自开发者门户的一键仓库初始化，以及含发版说明的自动周度发版准备。面向Copilot Business和Enterprise订阅者开放。

🟡 🏥 实践应用 2026年5月13日 · 2 分钟阅读

GitHub: Copilot Pro $10、Pro+ $39 与全新 Max $100 计划，引入弹性积分模型

GitHub Copilot Flex Allotments 与 Max 计划是 GitHub Copilot 于 2026 年 5 月 12 日发布的新定价结构，将于 2026 年 6 月 1 日起生效。Pro 套餐每月 $10，含 $15 使用积分；Pro+ 套餐 $39，含 $70 积分；全新 Max 计划 $100，含 $200 积分。代码补全和下一步编辑建议在所有付费套餐中均不设使用限制。

🟡 🏥 实践应用 2026年5月13日 · 1 分钟阅读

Perplexity: 四月更新日志为 Agent API 新增 Claude Opus 4.7、GPT-5.5 与 Grok 4.20 推理模型

Perplexity 四月 2026 更新日志是一套全新的 Perplexity Agent API 升级方案，新增了 Claude Opus 4.7、GPT-5.5 与 Grok 4.20 Reasoning 模型、原生 n8n 集成、AWS Marketplace SaaS 上架、一次性 API 密钥安全模型，以及兼容 OpenAI 格式的全新 /v1/models 接口。

🟡 🏥 实践应用 2026年5月12日 · 1 分钟阅读

Anthropic: Claude Code v2.1.139 — Agent View 统一显示所有会话 + /goal 命令实现自主任务完成

Editorial illustration: Claude Code v2.1.139 — Agent View 统一显示所有会话 + /goal 命令实现自主任务完成

Claude Code v2.1.139 是 Anthropic CLI 智能体的新版本，处于研究预览阶段推出 Agent View——一个显示所有会话（活跃、阻塞、已完成）的统一列表——以及 /goal 命令，该命令驱动 Claude 跨多个步骤工作直至满足指定条件，并提供显示耗时、步骤数和令牌消耗的面板。

🟡 🏥 实践应用 2026年5月12日 · 2 分钟阅读

IBM: Red Hat AI Inference和OpenShift Virtualization Service作为托管产品在IBM Cloud上发布

编辑插图：具有红蓝光晕的企业云基础设施，运行推理工作负载的抽象服务器，混合虚拟机和容器编排。

IBM今天宣布将Red Hat AI Inference Service和Red Hat OpenShift Virtualization Service作为托管企业产品在IBM Cloud上提供。前者为开源LLM（Granite、Llama、Mistral）提供优化的服务环境，具备自动扩展和SLA保障；后者允许在同一OpenShift控制平面中运行虚拟机和容器。目标：降低希望使用开源AI但不具备自有Kubernetes基础设施能力的企业团队的运营负担。

🟡 🏥 实践应用 2026年5月12日 · 2 分钟阅读

OpenAI: DeployCo——伴随2026年Q1业绩发布的全新独立企业AI部署组织

OpenAI周二启动了DeployCo（The Deployment Company），这是一个帮助企业在生产中构建和扩展AI应用程序的独立组织。目标：将基础模型研发与企业部署咨询分开，后者此前与OpenAI团队同处一地，造成了运营摩擦。DeployCo提供托管部署、自定义评估、上线后监控和行业特定微调服务。

🟡 🏥 实践应用 2026年5月11日 · 2 分钟阅读

OpenAI：企业AI实施规模化指南——从实验到持续业务影响

Editorial illustration: OpenAI企业AI规模化指南——从实验到持续业务影响

OpenAI发布了企业指南《How enterprises are scaling AI》，描述从初步实验到持续业务影响的路径。指南聚焦四大基础支柱：组织信任、治理框架、工作流设计和规模化增长时的质量维护。

🟢 🏥 实践应用 2026年5月11日 · 1 分钟阅读

Google: AI驱动的Finance扩展至欧洲——股票摘要、投资组合分析、AI助手

Editorial illustration: Google AI驱动Finance扩展至欧洲——股票摘要、投资组合分析、AI助手

Google Finance AI驱动平台本周向欧洲市场扩展，提供完整的本地语言支持。新功能包括：AI股票和市场趋势研究、高级可视化、实时加密货币和商品覆盖、企业财报电话的实时转录，以及可全球使用的Deep Search，用于复杂财务问题的深度查询。

🟡 🏥 实践应用 2026年5月9日 · 1 分钟阅读

Anthropic: Claude Code v2.1.136 带来54项修复、MCP OAuth修复与hard-deny规则

编辑插图：带有MCP OAuth修复和hard-deny规则标注的Claude Code终端

Anthropic发布了Claude Code v2.1.136，此版本包含54项更改，引入了新的settings.autoMode.hard_deny规则以在自动模式中无条件阻止操作，修复了迫使用户每日重新登录的MCP OAuth竞态条件，并解决了扩展思维中的API 400错误。

🟢 🏥 实践应用 2026年5月9日 · 1 分钟阅读

AWS: Halliburton地震AI助手将工作流创建时间缩短超95%

Halliburton与AWS联合构建了一款用于Seismic Engine的AI助手，通过Amazon Bedrock和Claude模型将自然语言转化为地震工作流。系统准确率达84-97%，将创建时间从2-20分钟缩短至5.9-16.6秒，加速超过95%。

🟡 🏥 实践应用 2026年5月8日 · 2 分钟阅读

GitHub: 审查AI拉取请求的五大风险与10分钟评审框架

GitHub发布了AI生成代码审查实用指南，定义了五大关键风险并提出了结构化的10分钟代码审查框架。平台上超过五分之一的拉取请求现已涉及AI代理。

🟡 🏥 实践应用 2026年5月7日 · 2 分钟阅读

Anthropic: Claude Code v2.1.132 带来25项以上修复及新钩子环境变量

编辑插图：Claude Code v2.1.132带来25项以上修复及新钩子环境变量

Anthropic发布了Claude Code v2.1.132，包含25项以上修复和两个新环境变量：用于钩子集成的CLAUDE_CODE_SESSION_ID和用于原生滚动缓冲区的CLAUDE_CODE_DISABLE_ALTERNATE_SCREEN。同时修复了MCP服务器导致内存占用超过10GB的严重漏洞。

🟡 🏥 实践应用 2026年5月7日 · 1 分钟阅读

Anthropic: Claude Code v2.1.133新增worktree.baseRef参数并修复竞态条件

Editorial illustration: Claude Code v2.1.133新增worktree.baseRef参数并修复竞态条件

Anthropic发布Claude Code v2.1.133，新增worktree.baseRef、sandbox.bwrapPath/socatPath参数以及Hook中的CLAUDE_EFFORT环境变量。此版本修复了并行会话中的竞态条件以及Windows驱动器根路径问题，是本周继v2.1.131和v2.1.132之后的第三次发布。

🟡 🏥 实践应用 2026年5月7日 · 2 分钟阅读

GitHub: 优化智能体工作流实现19%至62%的Token节省

Editorial illustration: 优化智能体工作流实现19%至62%的Token节省

GitHub对生产环境智能体工作流进行监测，发现三大Token浪费来源：不必要的MCP工具、可确定性获取的数据以及错误配置的Bash规则。经优化，各工作流实现了19%至62%的Token节省。

🟢 🏥 实践应用 2026年5月7日 · 1 分钟阅读

arXiv:2605.04012: SymptomAI在Fitbit应用中以约13,917名患者为样本，鉴别诊断准确性优于独立临床医生

Editorial illustration: korisnik razgovara sa SymptomAI agentom u Fitbit aplikaciji dok pozadinski panel prikazuje rangiranu listu dijagnoza

SymptomAI是集成于Fitbit应用的对话式AI智能体，在约13,917名参与者中进行测试；在临床评估子集中，其诊断建议相对于独立评估相同对话的临床医生实现了2.47的优势比（OR）。本研究为预印本。

🟡 🏥 实践应用 2026年5月6日 · 1 分钟阅读

IBM: Enterprise Advantage新增Context Studio——Providence Health将招聘管理时间缩短90%

编辑插图：IBM Enterprise Advantage Context Studio，基于组织数据构建AI代理

IBM扩展了Enterprise Advantage平台，推出Context Studio——一款基于组织自有数据构建AI代理并保护数字主权的工具。Providence Health将招聘管理时间缩短90%，IBM预计18个月内运营成本降低25%以上。

🟢 🏥 实践应用 2026年5月6日 · 1 分钟阅读

Anthropic: Claude Code v2.1.131 — Windows VS Code激活和Mantle x-api-key热修复

编辑插图：Claude Code v2.1.131热修复，针对Windows VS Code和Mantle认证

Anthropic发布了Claude Code v2.1.131热修复版本，解决了两个错误：Windows上因硬编码构建路径导致VS Code扩展激活失败，以及向Mantle推理端点缺少x-api-key请求头。所有主要平台均已发布二进制版本。

🟡 🏥 实践应用 2026年5月5日 · 2 分钟阅读

arXiv:2605.02740: ReClaim — 基于2亿患者记录训练的基础模型在1000+医疗任务上达到平均AUC 75.6%

新的arXiv预印本介绍了ReClaim——一个拥有17亿参数的基础模型，在来自2亿患者记录的438亿医疗事件上训练而成。在超过1000项诊断任务中，平均AUC达到75.6%，显著优于LightGBM（66.3%）和Delphi专业模型（69.4%）。这开创了基于行政健康数据训练的基础模型新类别。

🟡 🏥 实践应用 2026年5月5日 · 2 分钟阅读

Anthropic Claude Code v2.1.128：30余项修复、.zip插件支持及子代理缓存创建成本降低约3倍

Claude Code v2.1.128（2026年5月4日发布）带来30余项改进：/mcp面板显示工具数量并标记工具为0的服务器、--plugin-dir支持.zip插件压缩包、修复EnterWorktree丢失本地未推送提交的问题、子代理cache_creation成本降低约3倍，以及修复通过stdin管道传输超过10MB输入时的崩溃问题。

🟡 🏥 实践应用 2026年5月4日 · 2 分钟阅读

IBM研究：76%的组织有首席AI官，CEO预计到2030年48%的运营决策将由AI自主作出

IBM商业价值研究院发布了对33个国家2000名CEO的研究，显示首席AI官职位在一年内从26%扩展到76%的组织。CEO预计到2030年，AI系统将无需人工干预地作出48%的运营决策，这重新定义了整个C级管理层的结构。

🔴 🏥 实践应用 2026年5月1日 · 2 分钟阅读

DeepMind AI协同临床医生：盲法评估98个初级保健查询，医生更偏好该系统，97/98例零严重错误

Google DeepMind于2026年4月30日宣布AI协同临床医生研究计划——在医生临床监督下，AI智能体协助患者的三元护理模型。在98个真实初级保健查询的盲法头对头评估中，医生一致偏好协同临床医生的回答而非两款领先的证据综合工具，该系统在97/98例中记录零严重错误。

🟡 🏥 实践应用 2026年5月1日 · 2 分钟阅读

Amazon Nova 2 Lite借助强化微调达到4.33/5.0，在自动化法律合同审查中超越Claude Sonnet 4.5

强化微调（RFT）是一种训练方法，其中语言模型充当评判者（LLM-as-Judge），提供反馈以替代昂贵的人工标注。Amazon Nova 2 Lite由此在自动化法律合同审查中取得4.33/5.0的综合评分和完美的JSON验证分1.00，超越了Claude Sonnet 4.5和Claude Haiku 4.5。

🟢 🏥 实践应用 2026年5月1日 · 1 分钟阅读

IBM Research与Dallara：AI代理模型GIST将赛车气动评估从数小时CFD缩短至10秒

GIST（规范不变谱变换器）是IBM Research与意大利赛车底盘制造商Dallara联合开发的基于图神经算子的AI代理模型。LMP2赛车后扩散器的气动评估时间由传统CFD仿真的数小时缩短至约10秒，相关研究在ICLR 2026的AI与PDE工作坊上发表。

🟡 🏥 实践应用 2026年4月30日 · 2 分钟阅读

Anthropic Claude for Creative Work：支持 Blender、50 余款 Adobe Creative Cloud 工具、Autodesk Fusion、Ableton、SketchUp 和 Splice

Anthropic 于 2026 年 4 月 28 日宣布与 Blender、Autodesk Fusion、Adobe（50 余款 Creative Cloud 工具）、Ableton、Splice、Affinity 和 Canva、Resolume Arena 及 SketchUp 合作，推出 Claude 专业创意软件连接器。Claude 可为 Blender 编写 Python 脚本、实时控制 Resolume 供 VJ 使用、在 Affinity 中自动化批量资产处理，以及搜索 Splice 样本目录。Anthropic 还作为赞助商加入了 Blender Development Fund，三所学术机构——RISD、Ringling College 和 Goldsmiths——将开设让学生学习与 Claude 协作的课程。

🟡 🏥 实践应用 2026年4月30日 · 2 分钟阅读

Google ERA：用于科学研究的AI系统在住院预测上达到CDC顶级水平，解决了悬而未决的宇宙学问题，并每10分钟监测一次CO2

Google Research于2026年4月29日发布了ERA（经验研究辅助系统）——一个将大语言模型与计算工具相结合以加速科学研究的内部AI系统。来自不同领域的四个具体成果：在COVID/流感/RSV住院预测CDC排行榜上位居榜首、六个宇宙弦引力辐射新解、每10分钟监测大气CO2的神经网络，以及斑马鱼可解释神经回路。

🟡 🏥 实践应用 2026年4月30日 · 2 分钟阅读

EvalEval联盟：AI评估成为新的计算瓶颈——GAIA单次运行$2,829，HAL排行榜$40,000，学术审计人员在遇到技术瓶颈前先碰壁于预算

EvalEval联盟（Avijit Ghosh、Yifan Mai、Georgia Channing、Leshem Choshen）于2026年4月29日在HuggingFace博客发布分析，显示AI模型评估成本已激增。单次GAIA运行$2,829，HAL排行榜$40,000（k=8可靠性$320,000），PaperBench每个智能体约$9,500。静态基准测试可压缩100-200倍，智能体基准测试仅2-3.5倍——独立审计人员面临问责障碍。

🟡 🏥 实践应用 2026年4月29日 · 1 分钟阅读

Anthropic Claude for Creative Work：60余款创意工具连接器、新产品 Claude Design，以及与 RISD、Ringling 和 Goldsmiths 的学术合作

Anthropic 发布了 Claude for Creative Work —— 一套将 Claude 与 Adobe Photoshop、Premiere、50余款 Creative Cloud 工具、Blender、Autodesk Fusion、Ableton Live 与 Push、Resolume 系列、SketchUp、Splice 及 Affinity by Canva 相连接的连接器套件。同步推出的新产品 Claude Design 来自 Anthropic Labs，可可视化软件界面创意并支持导出至 Canva。与此同时，与 RISD、Ringling College 和 Goldsmiths University of London 的学术合作将把 Claude 纳入创意计算课程体系。

🟡 🏥 实践应用 2026年4月29日 · 2 分钟阅读

IBM发布Bob：覆盖完整SDLC的AI开发伙伴，8万余名内部用户，平均生产力提升45%

IBM于2026年4月28日正式发布“Bob”——涵盖软件开发生命周期全流程的AI伙伴：规划、设计、编码、测试、部署、运维和现代化改造。Bob协调Anthropic Claude、Mistral和IBM Granite等模型，已有80,000余名IBM员工在内部使用，平均生产力提升45%，可通过bob.ibm.com免费试用30天。

🟡 🏥 实践应用 2026年4月29日 · 1 分钟阅读

OpenAI 登陆 AWS：GPT 模型、Codex 与 Managed Agents 现可在 AWS 环境中供企业用户使用

OpenAI 于 2026 年 4 月 28 日宣布，GPT 模型、Codex 与 Managed Agents 现已在 AWS 上可用，使企业用户能够在自己的 AWS 环境中构建安全的 AI 系统。此次公告与 OpenAI × 微软修订版合作协议于同日发布，标志着 OpenAI 首次在 Microsoft Azure 生态系统之外进行分发。

查看完整档案 →