Google 的多模态创作模型 — Gemini 的推理能力与生成式媒体系统的结合。通过自然语言从文本、图片、视频或音频生成和编辑视频,每次编辑都基于上一次的结果。使用 Nano Banana Pro 免费体验。
多模态输入、对话式编辑、风格转换、真实世界知识 — 集于一体
Gemini Omni 引入了一种全新的视频编辑方式。你不需要每次都从头开始生成,而是可以通过一系列自然语言指令逐步优化视频。改变背景、调整动作、替换物体、转换摄像机角度或添加视觉效果 — 同时保持视频其余部分的稳定。这种对话式工作流意味着你可以一步步迭代接近你的愿景,就像编辑文档一样。
多轮编辑保持一致性 — 改变摄像机角度同时维持场景连贯
多轮编辑在连续修改中保持场景连贯性
先建立一个人在房间里的场景,然后改变光照为黄金时刻,再添加窗户上的雨滴 — 每次编辑基于上一次
连续环境变化展示对话式逐步优化
Gemini Omni 可以转换任何输入视频的视觉风格,同时保留底层的运动、结构和场景构图。描述目标美学 — 金属表面、手绘素描、毛毡布偶、全息投影、体素艺术 — 模型会在每一帧上连贯地应用转换。原始的摄像机运动、角色动作和空间关系保持不变,创造出远超简单滤镜的无缝风格转换。
当人触碰镜子时,让镜子像液体一样美丽地荡漾,人的手臂变成反射镜面材质
风格转换在完全改变视觉美学为金属质感的同时保留运动
当人触碰镜子时,整个环境变成3D体素艺术,呈现方块几何形状
完整环境转换为体素艺术,同时保留空间结构
与只接受文本或单张图片的模型不同,Gemini Omni 可以同时处理多种输入类型。提供文本作为方向指引、图片作为视觉参考、视频作为运动引导、音频作为语音或声音同步。模型将所有输入综合为单一连贯的视频输出。这使其适用于灵感来自多个来源的真实创作工作流 — 分镜草图、参考片段、语音录制和文字描述都可以为最终结果做出贡献。
添加与我触碰每片蕨叶同步的竖琴声。将叶片结构改为生物发光植物,周围有萤火虫飞舞
结合视频输入、文本指令和音频参考实现同步输出
使用真实世界科学知识可视化蛋白质折叠过程,以黏土动画风格呈现准确的分子行为
将真实世界知识应用于科学可视化,结合创意风格
Gemini Omni FAQ
Gemini Omni是Google DeepMind在2026年Google I/O大会上发布的多模态视频创作模型。与普通的文生视频工具不同,它支持多轮对话式编辑(每次编辑基于上一次结果)、多模态输入(文本+图片+视频+音频同时输入)以及真实世界知识驱动的内容生成。你可以在 Nano Banana Pro 上免费体验。
“Nano Banana Pro 上的多轮编辑彻底改变了我的视频制作方式。我可以像导演一样逐步调整场景,每一轮修改都不会丢失之前的连贯性——这是我用过最接近AI摄影师的工具。”
独立导演
“Nano Banana Pro 上的多轮编辑彻底改变了我的视频制作方式。我可以像导演一样逐步调整场景,每一轮修改都不会丢失之前的连贯性——这是我用过最接近AI摄影师的工具。”
独立导演