Google发布gemini-embedding-2正式版:首个支持5种模态统一嵌入空间的多模态嵌入模型
Google宣布gemini-embedding-2模型正式发布(GA),该模型支持将文本、图像、视频、音频和PDF文件映射到统一的嵌入向量空间。该模型自2026年3月10日起以预览版提供,现已通过Gemini API向所有用户开放。
20 条新闻 — 🔴 2 重要 , 🟡 12 值得关注 , 🟢 6 有趣
Google宣布gemini-embedding-2模型正式发布(GA),该模型支持将文本、图像、视频、音频和PDF文件映射到统一的嵌入向量空间。该模型自2026年3月10日起以预览版提供,现已通过Gemini API向所有用户开放。
Microsoft Research推出了AutoAdapt框架,可自动将通用语言模型适配到医学、法律和事件响应等专业领域。该系统自主在RAG和微调之间做出选择,优化超参数,约30分钟内完成任务,额外成本约4美元。
苹果研究团队在ICLR 2026大会上发布了MANZANO,这是一个统一的多模态框架,旨在解决图像理解能力与图像生成质量之间长期存在的权衡问题。该模型采用混合视觉分词器,为理解任务生成连续嵌入,为生成任务生成离散标记,并共享编码器与两个专用适配器,从而减少单一模型同时处理两项任务时通常产生的性能损失。
Apple在本周于里约热内卢举办的ICLR 2026大会上发布了五篇机器学习研究论文,其中最受瞩目的是ParaRNN——一种支持非线性递归神经网络并行训练的方法,相比顺序方式实现了665倍加速,使RNN可扩展至数十亿参数,与Transformer形成竞争。
Linux Foundation AI & Data发布了一份实践指南,通过九个负责任AI维度展示如何实施RGAF(负责任生成式AI框架),配备35个具体开源工具目录,并与NIST AI RMF、EU AI法案、ISO/IEC 42001和OECD原则保持一致。
Google DeepMind与全球五大咨询公司——埃森哲、贝恩、BCG、德勤和麦肯锡——签署了合作协议,以加速企业AI转型,因为目前只有25%的组织能够将AI成功部署到生产环境。
OpenAI发布了Workspace Agents,即直接集成在ChatGPT界面中的Codex驱动AI智能体。智能体在云端运行,自动化复杂工作流程,并帮助企业团队通过跨应用安全机制的连接工具扩展工作。
AWS发布了一套架构,将Amazon Bedrock、Neptune图数据库和Mem0框架相结合,为AI智能体提供企业级持久记忆,解决了会话之间和用户之间上下文丢失的问题。
Amazon宣布为Bedrock AgentCore推出托管智能体运行框架,仅需三个API调用即可部署完整可用的智能体,无需编写编排基础设施代码。该框架还附带用于完整开发周期的AgentCore CLI,以及面向编程助手的预构建技能,目前在四个AWS区域以预览版提供。
ArXiv上发布了SWE-chat,这是一个记录用户与AI编程智能体在生产环境中真实「野外」交互的数据集。与基于GitHub Issue的合成基准测试不同,该数据集记录了开发者在日常工作中实际使用自主系统的方式——他们请求什么、如何回应智能体的建议、以及智能体在哪里失败——为更精准的评估和有针对性的智能体设计改进开辟了道路。
一项新研究表明,曾成功执行任务的AI电脑操控智能体在相同任务的重复尝试中可能失败,三个关键原因分别是执行随机性、任务规范模糊性和智能体自身行为的可变性。
NVIDIA和Google Cloud宣布合作,将NVIDIA GPU基础设施与Google Cloud平台相结合,加速机器人、自主系统和智能体领域的智能体AI和实体AI工作负载。
NVIDIA和HuggingFace演示了Gemma 4作为视觉语言智能体(VLA),在拥有8GB内存的NVIDIA Jetson Orin Nano Super上自主决定是否使用摄像头,并在本地完成包含语音识别和TTS在内的完整处理流水线,无需依赖云端。
AWS机器学习博客介绍了如何在云端使用NVIDIA开源模型Parakeet-TDT-0.6B-v3进行低成本多语言音频转录。该模型支持25种欧洲语言并自动检测语言,结合AWS Batch,在Spot实例上处理一分钟音频的费用仅为0.00005美元,在按需g6.xlarge GPU实例上为0.00011美元,支持缩减至零策略,并可通过缓冲流式传输处理超过十小时的音频录音。
Amazon SageMaker AI现在通过NVIDIA AIPerf工具自动对生成式AI模型进行跨GPU配置的基准测试,消除了数周的手动测试,并提供按成本、延迟或吞吐量排序的推荐配置。
GitHub已允许Copilot Business和Enterprise用户在VS Code中带入主要AI提供商(包括Anthropic、Google、OpenAI、OpenRouter和Azure)的自有API密钥。BYOK模型在Copilot Chat和自定义智能体中工作,费用直接向所选提供商收取,不消耗Copilot配额。
GitHub在最新的Atlassian Jira Copilot云智能体升级中推出了一系列功能,大幅深化了AI与项目管理的集成。使用Jira作为任务跟踪系统的团队现在可以定义自定义智能体、在规则中使用Atlassian自定义字段、按工作区设置自定义分支规则,并直接在Jira中接收代码审查请求通知,从而将GitHub和项目管理工具之间的开发流程连接起来。
OpenAI已为美国认证的医生、护士和药剂师开放了免费ChatGPT访问权限。该计划重点关注临床文档、患者护理工作流程和医学研究,通过与美国医疗实体的合作关系进行验证。