Google:Gemini 3.1 Flash TTS为70多种语言带来富有表现力的AI语音
Google推出了Gemini 3.1 Flash TTS,这是一款支持70多种语言的新型文本转语音模型,在Artificial Analysis排行榜上获得1,211的Elo评分。核心创新是音频标签——将自然语言命令直接嵌入文本,以精确控制声音、语调和情感。该模型可在Google AI Studio、Vertex AI和Google Vids上使用,并配备SynthID水印用于检测AI生成的音频。
17 条新闻 — 🔴 2 重要 , 🟡 10 值得关注 , 🟢 5 有趣
Google推出了Gemini 3.1 Flash TTS,这是一款支持70多种语言的新型文本转语音模型,在Artificial Analysis排行榜上获得1,211的Elo评分。核心创新是音频标签——将自然语言命令直接嵌入文本,以精确控制声音、语调和情感。该模型可在Google AI Studio、Vertex AI和Google Vids上使用,并配备SynthID水印用于检测AI生成的音频。
一项新研究严格分析了浮点算术中的舍入误差如何通过Transformer架构的各层传播混乱。该研究确定了三种行为模式——稳定、混乱和信号主导——并证明数值不稳定性不是一个缺陷,而是LLM的基本属性,会威胁生产系统中的可重现性。
OpenAI发布了Agents SDK的重大升级,引入原生沙箱执行(native sandbox execution)和模型原生框架(model-native harness),用于构建更可靠的长期运行AI智能体。新版本专注于代码执行安全性和智能体自主性,使开发团队能够构建可在无人监督的情况下运行数小时且保持可靠性的智能体。
TREX是一个新的多智能体系统,可自动化大型语言模型微调的完整流程——从需求分析和文献检索到数据准备和结果评估。该系统将实验过程建模为搜索树,在包含10个真实任务的FT-Bench基准测试上始终能优化模型性能。
IBM Research发布了VAKRA——一个用于在企业环境中评估AI代理的新基准,包含超过8,000个本地API、62个领域和4,187个测试实例。关键发现是模型在简单任务上表现出表面能力,但在组合推理上失败,多跳推理随深度降级,遵守外部约束导致性能显著下降。
亚马逊云服务(AWS)发布了在AWS Trainium芯片上结合vLLM框架实现推测解码的详细方案,对于解码密集型工作负载实现了高达3倍的令牌生成速度提升。该技术使用较小的草稿模型预测下N个令牌,而较大的目标模型在单次前向传播中一次性验证所有令牌,消除了顺序生成的瓶颈。
NVIDIA发布了一项分析,论证每令牌成本是AI基础设施唯一相关的指标。Blackwell与Hopper世代的比较显示,Blackwell每GPU小时成本高出两倍,但每秒生成令牌数多65倍,导致每百万令牌成本低35倍——0.12美元对比Hopper的4.20美元。
GitHub允许企业管理员通过自定义属性选择性地激活对Copilot云代理的访问,取代了以往的全有或全无方式。新功能在各个组织层面提供对AI代理能力的更精细控制,并配备新的API端点,可通过GitHub Enterprise设置中的AI Controls界面进行管理。
微软发布了「前沿转型」概念,描述了各行业从AI实验转向将其整合到核心业务运营的过程。案例研究包括:UBS用于法律研究,宝马用于多智能体车辆分析,Cooper Health Care用于减少临床医生职业倦怠,以及Venchi用于个性化零售。
MemJack是一种针对视觉语言模型(VLM)的新型越狱攻击框架,采用多智能体协同协作,而非传统的像素扰动方法。在未经修改的COCO图像上测试,对Qwen3-VL-Plus的攻击成功率达71.48%,扩大计算预算后可提升至90%。研究人员宣布将公开发布超过113,000条交互式攻击轨迹,供防御性研究使用。
OpenAI启动了「Trusted Access for Cyber」计划,将顶级安全组织和企业用户聚集在专用模型GPT-5.4-Cyber周围。该计划包含1000万美元的API资助,专门用于加强全球网络防御,OpenAI由此将自身定位为安全生态系统中的积极参与者。
EleutherAI发布了关于「推理插值」方法的研究,该方法可检测强化学习系统中奖励黑客行为的早期迹象。该技术利用重要性采样和微调的捐赠模型来预测未来的利用模式,AUC达到1.00,而标准方法对利用率的低估幅度高达2至5个数量级。
MCPThreatHive是一个新的开源平台,可自动化Model Context Protocol生态系统威胁情报的完整生命周期。该平台将MCP-38分类法(含38种特定威胁模式)付诸实践,将其映射到STRIDE和OWASP框架,并包含定量风险评分系统。该平台在DEFCON SG 2026上发布。
RePAIR是一种新型交互式机器遗忘(machine unlearning)框架,允许用户通过自然语言提示实时指示大语言模型遗忘特定信息。核心创新STAMP方法通过闭合公式将MLP激活重定向至拒绝子空间,无需重新训练模型,在保留模型实用性的同时实现接近零的遗忘分数。