Google Gemini Omni Flash：原生视频生成

Google在I/O 2026发布Gemini Omni Flash——新款多模态模型，可从图像、音频、视频和文本的组合中生成和编辑视频。即日起在YouTube Shorts可用，每个生成片段均附带SynthID数字水印。

Google在I/O 2026大会上正式发布了Gemini Omni Flash，这是全新Omni系列的首款模型，可从混合输入中原生生成和编辑视频内容。这是一项重大突破：该模型不仅接收文本指令，还可同时处理图像、录音、视频片段和文本的组合，从而创建新视频素材或修改现有内容。

「原生视频生成」意味着什么？

迄今为止的生成模型通常只处理单一类型的输入——文本转视频或图像转视频流水线。Gemini Omni Flash引入了真正的多模态方法：用户可以同时附上参考图像、音频片段和简短视频，并用自然语言描述所需结果。模型在内部整合所有这些信号，生成遵循每个来源的风格、动作和上下文的输出视频。

这种能力在迭代编辑中尤为突出——用户可以通过多个步骤在对话中微调结果，无需从头描述场景。模型在多次修改中记住上下文，并始终如一地应用物理法则，如重力、动能和流体动力学。

Omni Flash的关键安全组件是Google SynthID——嵌入每个生成片段中的不可感知数字水印。水印肉眼不可见，也无声音，但可通过Gemini应用、Chrome浏览器和Google搜索进行验证。

这一机制直接回应了AI生成内容标记方面日益增长的监管要求——这与2026年8月起要求透明标记合成媒体的EU AI Act尤为相关。

Google立即将Omni Flash集成至YouTube Shorts和YouTube Create应用，无需额外费用，这意味着数亿用户从今天起就可以在平台内直接使用原生AI视频生成功能。这是Google任何生成模型最广泛的初始部署。

对于高级用户，该模型还可通过Google Flow以及Google AI Plus、Pro和Ultra订阅的Gemini应用访问。开发者和企业API将于未来几周公布，这将开放对自有应用和生产流水线的集成。

Google宣布Omni Flash目前支持音频参考作为主要声音输入，而其他类型的音频输出被标记为「即将推出」。从长远来看，Omni系列将扩展对直接音频和图像输出的支持——这将使该模型成为Google生态系统中通用的多模态创意工具。

特别值得关注的是，该模型支持创建数字头像以及从附加材料中引用风格、动作和效果——这为大规模个性化视频制作开辟了可能性，而这在此前对于普通用户来说是无法实现的。对于YouTube和短视频平台的内容创作者来说，Omni Flash本周就可能成为日常工作流程中的基础工具。

常见问题

什么是Gemini Omni Flash，与之前的模型有何不同？

Gemini Omni Flash是Google首款将Gemini推理能力与原生视频生成相结合的Omni系列模型。与之前的解决方案不同，它可以同时接收图像、音频、视频和文本作为输入提示，并从这种混合输入中直接创建或编辑视频内容。

Gemini Omni Flash是否免费？

部分免费——通过Google Flow和YouTube Shorts平台及YouTube Create应用可免费访问。Google AI Plus、Pro和Ultra订阅用户可通过Gemini应用访问，开发者和企业API将于未来几周公布。

什么是SynthID水印，为何重要？

SynthID是Google的无声无形数字水印，嵌入Omni Flash生成的每个视频中。可通过Gemini应用、Chrome浏览器和Google搜索验证AI内容来源，是防范虚假信息的关键保护措施。