Google:Gemini Omni Flash带来多模态输入的原生视频生成
Google在I/O 2026发布Gemini Omni Flash——新款多模态模型,可从图像、音频、视频和文本的组合中生成和编辑视频。即日起在YouTube Shorts可用,每个生成片段均附带SynthID数字水印。
本文由人工智能基于一手来源生成。
Google在I/O 2026大会上正式发布了Gemini Omni Flash,这是全新Omni系列的首款模型,可从混合输入中原生生成和编辑视频内容。这是一项重大突破:该模型不仅接收文本指令,还可同时处理图像、录音、视频片段和文本的组合,从而创建新视频素材或修改现有内容。
「原生视频生成」意味着什么?
迄今为止的生成模型通常只处理单一类型的输入——文本转视频或图像转视频流水线。Gemini Omni Flash引入了真正的多模态方法:用户可以同时附上参考图像、音频片段和简短视频,并用自然语言描述所需结果。模型在内部整合所有这些信号,生成遵循每个来源的风格、动作和上下文的输出视频。
这种能力在迭代编辑中尤为突出——用户可以通过多个步骤在对话中微调结果,无需从头描述场景。模型在多次修改中记住上下文,并始终如一地应用物理法则,如重力、动能和流体动力学。
SynthID:每个生成视频都带有数字水印
Omni Flash的关键安全组件是Google SynthID——嵌入每个生成片段中的不可感知数字水印。水印肉眼不可见,也无声音,但可通过Gemini应用、Chrome浏览器和Google搜索进行验证。
这一机制直接回应了AI生成内容标记方面日益增长的监管要求——这与2026年8月起要求透明标记合成媒体的EU AI Act尤为相关。
可用性:YouTube Shorts首日起可用
Google立即将Omni Flash集成至YouTube Shorts和YouTube Create应用,无需额外费用,这意味着数亿用户从今天起就可以在平台内直接使用原生AI视频生成功能。这是Google任何生成模型最广泛的初始部署。
对于高级用户,该模型还可通过Google Flow以及Google AI Plus、Pro和Ultra订阅的Gemini应用访问。开发者和企业API将于未来几周公布,这将开放对自有应用和生产流水线的集成。
Omni系列的下一步
Google宣布Omni Flash目前支持音频参考作为主要声音输入,而其他类型的音频输出被标记为「即将推出」。从长远来看,Omni系列将扩展对直接音频和图像输出的支持——这将使该模型成为Google生态系统中通用的多模态创意工具。
特别值得关注的是,该模型支持创建数字头像以及从附加材料中引用风格、动作和效果——这为大规模个性化视频制作开辟了可能性,而这在此前对于普通用户来说是无法实现的。对于YouTube和短视频平台的内容创作者来说,Omni Flash本周就可能成为日常工作流程中的基础工具。
常见问题
- 什么是Gemini Omni Flash,与之前的模型有何不同?
- Gemini Omni Flash是Google首款将Gemini推理能力与原生视频生成相结合的Omni系列模型。与之前的解决方案不同,它可以同时接收图像、音频、视频和文本作为输入提示,并从这种混合输入中直接创建或编辑视频内容。
- Gemini Omni Flash是否免费?
- 部分免费——通过Google Flow和YouTube Shorts平台及YouTube Create应用可免费访问。Google AI Plus、Pro和Ultra订阅用户可通过Gemini应用访问,开发者和企业API将于未来几周公布。
- 什么是SynthID水印,为何重要?
- SynthID是Google的无声无形数字水印,嵌入Omni Flash生成的每个视频中。可通过Gemini应用、Chrome浏览器和Google搜索验证AI内容来源,是防范虚假信息的关键保护措施。