OpenAI: API中推出三款全新实时语音模型,支持推理与翻译
OpenAI于2026年5月7日在API中发布了三款全新实时语音模型:GPT-Realtime-2具备GPT-5级推理能力和128,000词元的上下文窗口;GPT-Realtime-Translate支持将70余种输入语言翻译为13种输出语言;GPT-Realtime-Whisper提供实时语音转录功能。
10 条新闻 — 🔴 5 重要 , 🟡 5 值得关注
OpenAI于2026年5月7日在API中发布了三款全新实时语音模型:GPT-Realtime-2具备GPT-5级推理能力和128,000词元的上下文窗口;GPT-Realtime-Translate支持将70余种输入语言翻译为13种输出语言;GPT-Realtime-Whisper提供实时语音转录功能。
Gemini 3.1 Flash-Lite自2026年5月7日起通过Gemini API正式进入全面可用(GA)阶段,作为稳定的生产端点。该模型针对速度、规模和成本效率进行了优化,预览版将于2026年5月25日停止服务。
Google DeepMind于2026年5月发布了AlphaEvolve代理的首份产业影响报告,并通过Google Cloud开放了商业访问权限。Klarna将Transformer模型训练速度提升了一倍,FM Logistic实现了10.4%的路由效率提升,Schrödinger的分子模拟速度提升了4倍。
AWS以预览版发布了Amazon Bedrock AgentCore Payments——首个面向自主AI代理支付的托管基础设施。该服务采用开放的x402 HTTP协议和稳定币,通过与Coinbase和Stripe(经由Privy)的合作实现,支持预算限额设置和通过AgentCore控制台进行完整的交易审计。
研究人员提出了LongSeeker——一种基于Context-ReAct框架的长时域搜索代理,具备五种动态上下文管理操作。该模型在BrowseComp基准测试上达到61.5%,领先Tongyi DeepResearch达18个百分点。
CNCF基准测试对比了RAG、混合和纯本地检索三种策略,用于AI智能体修复真实Kubernetes Bug。RAG速度最快(1分16秒),但关键瓶颈既非速度也非成本——而是「范围发现」,即智能体识别多个文件中所有受影响代码的能力。
OpenAI将Trusted Access for Cyber(TAC)计划扩展至数千名经过验证的防御型安全研究人员和数百个保护关键软件基础设施的团队。计划引入了限制较少的GPT-5.5,以及专门用于逆向工程和恶意软件分析的GPT-5.5-Cyber。
该论文被ICML 2026接收,提出了SQSD方法——用于量化单个样本对模型安全性损害程度的贡献。研究人员证明,即使是看似无害的微调样本,也会累积地将参数推向「危险对齐」方向。