Google DeepMind

Gemini Omni

Google 的多模态创作模型 — Gemini 的推理能力与生成式媒体系统的结合。通过自然语言从文本、图片、视频或音频生成和编辑视频，每次编辑都基于上一次的结果。使用 Nano Banana Pro 免费体验。

Loading generator...

About

关于 Gemini Omni

Gemini Omni 是 Google DeepMind 在 2025 年 Google I/O 大会上发布的多模态创作模型。它将 Gemini 的推理能力与生成式媒体系统相结合，实现了超越简单提示词生成视频的能力。该模型理解场景、动作、环境、物理行为和真实世界上下文 — 生成的结果具有明确意图而非随机输出。Gemini Omni Flash 是 Omni 系列的首个模型，专为实用的视频创作和编辑工作流而设计，用户可以转换素材、使用参考引导结果，并通过自然语言对话逐步优化场景。

核心能力

多模态输入、对话式编辑、风格转换、真实世界知识 — 集于一体

核心功能概览

多轮对话式编辑

Gemini Omni 引入了一种全新的视频编辑方式。你不需要每次都从头开始生成，而是可以通过一系列自然语言指令逐步优化视频。改变背景、调整动作、替换物体、转换摄像机角度或添加视觉效果 — 同时保持视频其余部分的稳定。这种对话式工作流意味着你可以一步步迭代接近你的愿景，就像编辑文档一样。

提示词

输出示例 (Output)

多轮编辑保持一致性 — 改变摄像机角度同时维持场景连贯

多轮编辑在连续修改中保持场景连贯性

先建立一个人在房间里的场景，然后改变光照为黄金时刻，再添加窗户上的雨滴 — 每次编辑基于上一次

连续环境变化展示对话式逐步优化

实时风格转换

Gemini Omni 可以转换任何输入视频的视觉风格，同时保留底层的运动、结构和场景构图。描述目标美学 — 金属表面、手绘素描、毛毡布偶、全息投影、体素艺术 — 模型会在每一帧上连贯地应用转换。原始的摄像机运动、角色动作和空间关系保持不变，创造出远超简单滤镜的无缝风格转换。

提示词

输出示例 (Output)

当人触碰镜子时，让镜子像液体一样美丽地荡漾，人的手臂变成反射镜面材质

风格转换在完全改变视觉美学为金属质感的同时保留运动

当人触碰镜子时，整个环境变成3D体素艺术，呈现方块几何形状

完整环境转换为体素艺术，同时保留空间结构

真正的多模态输入

与只接受文本或单张图片的模型不同，Gemini Omni 可以同时处理多种输入类型。提供文本作为方向指引、图片作为视觉参考、视频作为运动引导、音频作为语音或声音同步。模型将所有输入综合为单一连贯的视频输出。这使其适用于灵感来自多个来源的真实创作工作流 — 分镜草图、参考片段、语音录制和文字描述都可以为最终结果做出贡献。

提示词

输出示例 (Output)

添加与我触碰每片蕨叶同步的竖琴声。将叶片结构改为生物发光植物，周围有萤火虫飞舞

结合视频输入、文本指令和音频参考实现同步输出

使用真实世界科学知识可视化蛋白质折叠过程，以黏土动画风格呈现准确的分子行为

将真实世界知识应用于科学可视化，结合创意风格

常见问题

Gemini Omni FAQ

01Gemini Omni是什么？和其他AI视频生成器有什么区别？

Gemini Omni是Google DeepMind在2026年Google I/O大会上发布的多模态视频创作模型。与普通的文生视频工具不同，它支持多轮对话式编辑（每次编辑基于上一次结果）、多模态输入（文本+图片+视频+音频同时输入）以及真实世界知识驱动的内容生成。你可以在 Nano Banana Pro 上免费体验。

02如何免费在线使用Gemini Omni？

Nano Banana Pro 提供Gemini Omni的免费在线使用。访问平台后选择Gemini Omni模型，即可通过文本提示词、图片或现有视频片段开始生成视频。新用户注册即获免费积分，无需安装软件，无需付费即可立即开始创作。

03Gemini Omni支持哪些输入类型？

Gemini Omni接受文本提示词、最多7张参考图片、1个视频片段（最大100MB，30秒以内）和音频输入。你可以在单次生成中组合多种输入类型——例如提供参考图片加文本指令来同时控制视频的风格和动作。

04多轮对话式编辑是怎么工作的？

对话式编辑让你通过自然语言指令逐步优化视频。从初始生成开始，然后逐步调整摄像机角度、改变光照、替换物体、添加效果或转换风格——每次编辑都保留你未提及的元素，同时应用新的指令。在 Nano Banana Pro 上就像一步步导演场景一样简单。

05Gemini Omni支持什么视频时长和画面比例？

Gemini Omni支持生成4、6、8或10秒时长的视频。画面比例支持16:9（横屏）、9:16（竖屏）和1:1（方形）。还提供种子值控制功能，确保跨代生成结果的可复现性。

06Gemini Omni生成的视频可以商用吗？

可以。通过 Nano Banana Pro 使用Gemini Omni生成的视频包含商业使用权。适用于营销推广、社交媒体内容、产品演示、教育材料和专业视频制作等商业用途。

07Gemini Omni和Veo、Sora等其他AI视频模型相比有什么优势？

Gemini Omni的核心优势在于：多轮对话式编辑（其他模型通常每次修改都需要重新生成）、真正的多模态输入（文本+图片+视频+音频一次性输入）、以及真实世界知识驱动的物理准确和语境合理的输出。它基于Google DeepMind的Gemini推理架构，比纯扩散模型具有更深层的场景理解能力。

创作者对Gemini Omni的评价

“Nano Banana Pro 上的多轮编辑彻底改变了我的视频制作方式。我可以像导演一样逐步调整场景，每一轮修改都不会丢失之前的连贯性——这是我用过最接近AI摄影师的工具。”

林

林志远

独立导演

“我们用Gemini Omni的风格转换功能，把一次拍摄素材变成几十种风格变体——金属、素描、全息——同时保留原始运动。内容产出效率提升了三倍，完全不需要额外拍摄。”

王

王思琪

品牌营销总监

“最让我惊艳的是真实世界知识能力。当我要求生成蛋白质折叠的可视化时，分子行为在科学上是准确的——不只是看起来像科学，而是真的对。这在AI视频工具里是第一次。”

陈

陈浩然

动态设计师

探索更多AI视频模型

Veo 3.1 免费AI视频生成器

新

Veo 3.1是Google DeepMind最先进的免费AI视频生成器，具备革命性的原生音频生成能力。在线免费生成1080p高清视频，同步创建音效、对话和环境音频，无水印无限制。每段视频最长8秒，可扩展至60秒以上，支持24帧率输出。

立即体验

Wan 2.6

新

Wan 2.6 是阿里巴巴的视频生成模型，能够从文本提示词和参考图像生成高质量视频，支持多样化风格、流畅运动和电影级输出效果。

立即体验

Sora 2

Sora 2 是 OpenAI 的旗舰视频生成模型，能够从文本描述和图像输入生成高质量视频。它理解复杂的场景构图、角色互动、镜头运动和真实世界物理规律，呈现电影级效果。Sora 2 代表了AI视频生成的重大飞跃，具备更好的时间一致性、更长的时长支持和更忠实的提示词解读。

立即体验

Kling 2.6

Kling 2.6 是快手最新的AI视频生成模型，以卓越的运动质量和电影级输出著称。基于先进的时空建模技术，Kling 2.6 能生成角色动作流畅、镜头转场动感、视觉细节丰富的视频。支持文生视频和图生视频两种模式，是追求专业品质AI视频内容的创作者的多功能工具。

立即体验

Seedance 2.0

新

Seedance 2.0 是字节跳动最先进的AI视频生成模型，于2026年2月发布。它采用统一的多模态音视频联合生成架构，同时支持4种输入模态——文字、最多9张图片、最多3段视频片段和最多3条音轨。开创性的 @-reference 系统让您可以在提示词中标记特定元素，并将其绑定到上传的参考素材，实现对镜头运动、角色外观、音频节奏和视觉风格的精细控制。输出最高可达2K分辨率，并配备原生同步音频，包括多语言口型同步、音效和背景音乐。

立即体验

Grok Video

新

Grok Video（由 Grok Imagine Video 驱动）是 xAI 的视频生成模型，直接内置于 Grok 生态系统之中。由专有的 Aurora 引擎驱动，将文本提示词或静态图像转换为带同步音频的短视频片段。Grok Video 的独特之处在于其速度——视频片段在数秒而非数分钟内生成——同时结合实时网络数据访问，提供最新、最相关的视觉参考。该模型注重提示词遵循度和自然运动连贯性，非常适合快速社交媒体内容制作、快速原型设计和迭代式创意工作流。

立即体验

开始使用 Gemini Omni 创作

体验 Gemini Omni 的强大能力 — 免费在线使用

立即体验 — 免费