2026年4月23日星期四

20 条新闻 — 🔴 2 重要 , 🟡 12 值得关注 , 🟢 6 有趣

← 前一天后一天 →

🤖 模型 (3)

🟡 🤖 模型 2026年4月23日 · 2 分钟阅读

Google发布gemini-embedding-2正式版：首个支持5种模态统一嵌入空间的多模态嵌入模型

Google宣布gemini-embedding-2模型正式发布（GA），该模型支持将文本、图像、视频、音频和PDF文件映射到统一的嵌入向量空间。该模型自2026年3月10日起以预览版提供，现已通过Gemini API向所有用户开放。

🟡 🤖 模型 2026年4月23日 · 2 分钟阅读

Microsoft AutoAdapt：30分钟4美元自动将LLM适配至专业领域

Microsoft Research推出了AutoAdapt框架，可自动将通用语言模型适配到医学、法律和事件响应等专业领域。该系统自主在RAG和微调之间做出选择，优化超参数，约30分钟内完成任务，额外成本约4美元。

🟢 🤖 模型 2026年4月23日 · 2 分钟阅读

苹果发布MANZANO——兼顾图像理解与生成的统一多模态模型

苹果研究团队在ICLR 2026大会上发布了MANZANO，这是一个统一的多模态框架，旨在解决图像理解能力与图像生成质量之间长期存在的权衡问题。该模型采用混合视觉分词器，为理解任务生成连续嵌入，为生成任务生成离散标记，并共享编码器与两个专用适配器，从而减少单一模型同时处理两项任务时通常产生的性能损失。

📦 开源 (2)

🟡 📦 开源 2026年4月23日 · 2 分钟阅读

Apple在ICLR 2026发布ParaRNN：并行训练非线性RNN实现665倍加速

Apple在本周于里约热内卢举办的ICLR 2026大会上发布了五篇机器学习研究论文，其中最受瞩目的是ParaRNN——一种支持非线性递归神经网络并行训练的方法，相比顺序方式实现了665倍加速，使RNN可扩展至数十亿参数，与Transformer形成竞争。

🟡 📦 开源 2026年4月23日 · 2 分钟阅读

Linux Foundation发布RGAF指南，涵盖35个负责任AI开源工具

Linux Foundation AI & Data发布了一份实践指南，通过九个负责任AI维度展示如何实施RGAF（负责任生成式AI框架），配备35个具体开源工具目录，并与NIST AI RMF、EU AI法案、ISO/IEC 42001和OECD原则保持一致。

🤝 智能体 (6)

🔴 🤝 智能体 2026年4月23日 · 2 分钟阅读

Google DeepMind与五大顶级咨询公司签署企业AI联盟

Google DeepMind与全球五大咨询公司——埃森哲、贝恩、BCG、德勤和麦肯锡——签署了合作协议，以加速企业AI转型，因为目前只有25%的组织能够将AI成功部署到生产环境。

🔴 🤝 智能体 2026年4月23日 · 2 分钟阅读

OpenAI在ChatGPT中推出Workspace Agents：面向企业团队的Codex驱动智能体

OpenAI发布了Workspace Agents，即直接集成在ChatGPT界面中的Codex驱动AI智能体。智能体在云端运行，自动化复杂工作流程，并帮助企业团队通过跨应用安全机制的连接工具扩展工作。

🟡 🤝 智能体 2026年4月23日 · 2 分钟阅读

AWS发布通过Bedrock、Neptune和Mem0实现企业级AI智能体记忆的架构

AWS发布了一套架构，将Amazon Bedrock、Neptune图数据库和Mem0框架相结合，为AI智能体提供企业级持久记忆，解决了会话之间和用户之间上下文丢失的问题。

🟡 🤝 智能体 2026年4月23日 · 2 分钟阅读

Amazon Bedrock AgentCore推出托管运行框架：仅需三个API调用即可部署可用智能体

Amazon宣布为Bedrock AgentCore推出托管智能体运行框架，仅需三个API调用即可部署完整可用的智能体，无需编写编排基础设施代码。该框架还附带用于完整开发周期的AgentCore CLI，以及面向编程助手的预构建技能，目前在四个AWS区域以预览版提供。

🟢 🤝 智能体 2026年4月23日 · 2 分钟阅读

ArXiv SWE-chat——开发者与生产环境AI编程智能体真实交互数据集

ArXiv上发布了SWE-chat，这是一个记录用户与AI编程智能体在生产环境中真实「野外」交互的数据集。与基于GitHub Issue的合成基准测试不同，该数据集记录了开发者在日常工作中实际使用自主系统的方式——他们请求什么、如何回应智能体的建议、以及智能体在哪里失败——为更精准的评估和有针对性的智能体设计改进开辟了道路。

🟢 🤝 智能体 2026年4月23日 · 2 分钟阅读

OSWorld研究：AI电脑操控智能体在重复任务时频繁失败

一项新研究表明，曾成功执行任务的AI电脑操控智能体在相同任务的重复尝试中可能失败，三个关键原因分别是执行随机性、任务规范模糊性和智能体自身行为的可变性。

🔧 硬件 (2)

🟡 🔧 硬件 2026年4月23日 · 2 分钟阅读

NVIDIA与Google Cloud宣布在共同基础设施上合作推进智能体AI和实体AI

NVIDIA和Google Cloud宣布合作，将NVIDIA GPU基础设施与Google Cloud平台相结合，加速机器人、自主系统和智能体领域的智能体AI和实体AI工作负载。

🟢 🔧 硬件 2026年4月23日 · 2 分钟阅读

Gemma 4在NVIDIA Jetson Orin Nano Super上本地运行视觉语言智能体

NVIDIA和HuggingFace演示了Gemma 4作为视觉语言智能体（VLA），在拥有8GB内存的NVIDIA Jetson Orin Nano Super上自主决定是否使用摄像头，并在本地完成包含语音识别和TTS在内的完整处理流水线，无需依赖云端。

🏥 实践应用 (5)

🟡 🏥 实践应用 2026年4月23日 · 2 分钟阅读

AWS与NVIDIA Parakeet-TDT以每分钟0.00005美元的价格实现25种语言转录

AWS机器学习博客介绍了如何在云端使用NVIDIA开源模型Parakeet-TDT-0.6B-v3进行低成本多语言音频转录。该模型支持25种欧洲语言并自动检测语言，结合AWS Batch，在Spot实例上处理一分钟音频的费用仅为0.00005美元，在按需g6.xlarge GPU实例上为0.00011美元，支持缩减至零策略，并可通过缓冲流式传输处理超过十小时的音频录音。

🟡 🏥 实践应用 2026年4月23日 · 2 分钟阅读

AWS SageMaker自动为生成式AI模型进行基准测试并提供最优推理配置

Amazon SageMaker AI现在通过NVIDIA AIPerf工具自动对生成式AI模型进行跨GPU配置的基准测试，消除了数周的手动测试，并提供按成本、延迟或吞吐量排序的推荐配置。

🟡 🏥 实践应用 2026年4月23日 · 2 分钟阅读

GitHub Copilot在VS Code中支持BYOK：用户现可连接Anthropic、Gemini和OpenAI自有密钥

GitHub已允许Copilot Business和Enterprise用户在VS Code中带入主要AI提供商（包括Anthropic、Google、OpenAI、OpenRouter和Azure）的自有API密钥。BYOK模型在Copilot Chat和自定义智能体中工作，费用直接向所选提供商收取，不消耗Copilot配额。

🟡 🏥 实践应用 2026年4月23日 · 2 分钟阅读

GitHub Copilot for Jira引入自定义智能体、自定义分支规则和代码审查通知

GitHub在最新的Atlassian Jira Copilot云智能体升级中推出了一系列功能，大幅深化了AI与项目管理的集成。使用Jira作为任务跟踪系统的团队现在可以定义自定义智能体、在规则中使用Atlassian自定义字段、按工作区设置自定义分支规则，并直接在Jira中接收代码审查请求通知，从而将GitHub和项目管理工具之间的开发流程连接起来。

🟢 🏥 实践应用 2026年4月23日 · 2 分钟阅读

OpenAI为美国认证临床医生提供免费ChatGPT访问

OpenAI已为美国认证的医生、护士和药剂师开放了免费ChatGPT访问权限。该计划重点关注临床文档、患者护理工作流程和医学研究，通过与美国医疗实体的合作关系进行验证。

🛡️ 安全 (1)

🟡 🛡️ 安全 2026年4月23日 · 2 分钟阅读

OpenAI发布Privacy Filter：用于检测和编辑个人数据的开放权重模型

OpenAI发布了一个开放权重模型，用于检测和编辑文本中的个人身份信息（PII），精度达到最先进水平。该模型是罕见的OpenAI开放权重发布，组织可以在本地运行，无需将敏感数据发送到云端。

✨ 趣闻 (1)

🟢 ✨ 趣闻 2026年4月23日 · 2 分钟阅读

Google Photos自动框架利用3D模型和扩散技术扩展画面

Google Photos新增了自动框架功能，该功能将2D照片解读为3D场景，评估几何结构和相机参数，然后使用潜在扩散模型生成原始画面之外的内容，从而实现替代构图。

← 前一天后一天 →