Google DeepMind

Gemini Omni

Google 的多模態創作模型 — Gemini 的推理能力與生成式媒體系統的結合。透過自然語言從文字、圖片、影片或音訊生成和編輯影片，每次編輯都基於上一次的結果。使用 Nano Banana Pro 免費體驗。

Loading generator...

About

關於 Gemini Omni

Gemini Omni 是 Google DeepMind 在 2025 年 Google I/O 大會上發佈的多模態創作模型。它將 Gemini 的推理能力與生成式媒體系統相結合，實現了超越簡單提示詞生成影片的能力。該模型理解場景、動作、環境、物理行為和真實世界上下文 — 生成的結果具有明確意圖而非隨機輸出。Gemini Omni Flash 是 Omni 系列的首個模型，專為實用的影片創作和編輯工作流而設計，用戶可以轉換素材、使用參考引導結果，並透過自然語言對話逐步優化場景。

核心能力

多模態輸入、對話式編輯、風格轉換、真實世界知識 — 集於一體

核心功能概覽

多輪對話式編輯

Gemini Omni 引入了一種全新的影片編輯方式。你不需要每次都從頭開始生成，而是可以透過一系列自然語言指令逐步優化影片。改變背景、調整動作、替換物體、轉換攝影機角度或添加視覺效果 — 同時保持影片其餘部分的穩定。這種對話式工作流意味着你可以一步步迭代接近你的願景，就像編輯文件一樣。

提示詞

輸出範例 (Output)

多輪編輯：先建立場景，然後改變攝影機角度，再添加氛圍效果 — 全程保持一致性

多輪編輯在連續修改中保持場景連貫性

先建立一個人在房間裡的場景，然後改變光照為黃金時刻，再添加窗戶上的雨滴 — 每次編輯基於上一次

連續環境變化展示對話式逐步優化

即時風格轉換

Gemini Omni 可以轉換任何輸入影片的視覺風格，同時保留底層的運動、結構和場景構圖。描述目標美學 — 金屬表面、手繪素描、毛氈布偶、全息投影、體素藝術 — 模型會在每一幀上連貫地應用轉換。原始的攝影機運動、角色動作和空間關係保持不變，創造出遠超簡單濾鏡的無縫風格轉換。

提示詞

輸出範例 (Output)

當人觸碰鏡子時，讓鏡子像液體一樣美麗地蕩漾，人的手臂變成反射鏡面材質

風格轉換在完全改變視覺美學的同時保留運動

當人觸碰鏡子時，整個環境變成3D體素藝術，呈現方塊幾何形狀

完整環境轉換為體素藝術，同時保留空間結構

真正的多模態輸入

與只接受文字或單張圖片的模型不同，Gemini Omni 可以同時處理多種輸入類型。提供文字作為方向指引、圖片作為視覺參考、影片作為運動引導、音訊作為語音或聲音同步。模型將所有輸入綜合為單一連貫的影片輸出。這使其適用於靈感來自多個來源的真實創作工作流 — 分鏡草圖、參考片段、語音錄製和文字描述都可以為最終結果做出貢獻。

提示詞

輸出範例 (Output)

添加與我觸碰每片蕨葉同步的豎琴聲。將葉片結構改為生物發光植物，周圍有螢火蟲飛舞

結合影片輸入、文字指令和音訊參考實現同步輸出

使用真實世界科學知識視覺化蛋白質摺疊過程，以黏土動畫風格呈現準確的分子行為

將真實世界知識應用於科學視覺化，結合創意風格

常見問題

Gemini Omni FAQ

01Gemini Omni是甚麼？和其他AI影片生成器有甚麼分別？

Gemini Omni是Google DeepMind在2026年Google I/O大會上發佈的多模態影片創作模型。與普通的文字生成影片工具不同，它支援多輪對話式編輯（每次編輯基於上一次結果）、多模態輸入（文字+圖片+影片+音訊同時輸入）以及真實世界知識驅動的內容生成。你可以在 Nano Banana Pro 上免費體驗。

02如何免費線上使用Gemini Omni？

Nano Banana Pro 提供Gemini Omni的免費線上使用。訪問平台後選擇Gemini Omni模型，即可透過文字提示詞、圖片或現有影片片段開始生成影片。新用戶註冊即獲免費積分，無需安裝軟件，無需付費即可立即開始創作。

03Gemini Omni支援哪些輸入類型？

Gemini Omni接受文字提示詞、最多7張參考圖片、1個影片片段（最大100MB，30秒以內）和音訊輸入。你可以在單次生成中組合多種輸入類型——例如提供參考圖片加文字指令來同時控制影片的風格和動作。

04多輪對話式編輯是怎麼運作的？

對話式編輯讓你透過自然語言指令逐步優化影片。從初始生成開始，然後逐步調整攝影機角度、改變光照、替換物體、添加效果或轉換風格——每次編輯都保留你未提及的元素，同時應用新的指令。在 Nano Banana Pro 上就像一步步導演場景一樣簡單。

05Gemini Omni支援甚麼影片時長和畫面比例？

Gemini Omni支援生成4、6、8或10秒時長的影片。畫面比例支援16:9（橫屏）、9:16（直屏）和1:1（方形）。還提供種子值控制功能，確保跨代生成結果的可複現性。

06Gemini Omni生成的影片可以商用嗎？

可以。透過 Nano Banana Pro 使用Gemini Omni生成的影片包含商業使用權。適用於市場推廣、社交媒體內容、產品演示、教育材料和專業影片製作等商業用途。

07Gemini Omni和Veo、Sora等其他AI影片模型相比有甚麼優勢？

Gemini Omni的核心優勢在於：多輪對話式編輯（其他模型通常每次修改都需要重新生成）、真正的多模態輸入（文字+圖片+影片+音訊一次性輸入）、以及真實世界知識驅動的物理準確和語境合理的輸出。它基於Google DeepMind的Gemini推理架構，比純擴散模型具有更深層的場景理解能力。

創作者對Gemini Omni的評價

“Nano Banana Pro 上的多輪編輯徹底改變了我的影片製作方式。我可以像導演一樣逐步調整場景，每一輪修改都不會丟失之前的連貫性——這是我用過最接近AI攝影師的工具。”

張

張家豪

獨立導演

“我們用Gemini Omni的風格轉換功能，把一次拍攝素材變成幾十種風格變體——金屬、素描、全息——同時保留原始運動。內容產出效率提升了三倍，完全不需要額外拍攝。”

李

李雅琳

品牌營銷總監

“最讓我驚艷的是真實世界知識能力。當我要求生成蛋白質摺疊的視覺化時，分子行為在科學上是準確的——不只是看起來像科學，而是真的對。這在AI影片工具裡是第一次。”

黃

黃俊傑

動態設計師

探索更多AI影片模型

Veo 3.1 免費AI影片生成器

新

Veo 3.1是Google DeepMind最先進的免費AI影片生成器，具備革命性的原生音訊生成能力。線上免費生成1080p高清影片，同步創建音效、對話和環境音訊，無浮水印無限制。每段影片最長8秒，可擴展至60秒以上，支援24幀率輸出。

立即體驗

Wan 2.6

新

Wan 2.6 是阿里巴巴的影片生成模型，能夠從文字提示詞和參考圖像生成高品質影片，支援多樣化風格、流暢運動和電影級輸出效果。

立即體驗

Sora 2

Sora 2 是 OpenAI 的旗艦影片生成模型，能夠從文字描述和圖像輸入生成高品質影片。它理解複雜的場景構圖、角色互動、鏡頭運動和真實世界物理規律，呈現電影級效果。Sora 2 代表了AI影片生成的重大飛躍，具備更好的時間一致性、更長的時長支援和更忠實的提示詞解讀。

立即體驗

Kling 2.6

Kling 2.6 是快手最新的AI影片生成模型，以卓越的運動品質和電影級輸出著稱。基於先進的時空建模技術，Kling 2.6 能生成角色動作流暢、鏡頭轉場動感、視覺細節豐富的影片。支援文生影片和圖生影片兩種模式，是追求專業品質AI影片內容的創作者的多功能工具。

立即體驗

Seedance 2.0

新

Seedance 2.0 係 ByteDance 最先進嘅 AI 影片生成模型，喺 2026 年 2 月正式發佈。佢採用統一嘅多模態音訊影片聯合生成架構，同時支援 4 種輸入模式 — 文字、最多 9 張圖片、最多 3 段影片剪輯同最多 3 條音軌。革命性 @-reference 系統令你可以喺提示中標記特定元素，並將佢哋連結到已上載嘅參考素材，從而精確控制鏡頭移動、角色外觀、音訊節奏同視覺風格。輸出最高可達 2K 解像度，配備原生同步音訊，包括多語言口型同步、音效同背景音樂。

立即體驗

Grok Video

新

Grok Video（由 Grok Imagine Video 驅動）係 xAI 嘅影片生成模型，直接內置喺 Grok 生態系統入面。由專有 Aurora 引擎驅動，將文字提示或靜態圖像轉換成短片剪輯，同步音訊。Grok Video 嘅與別不同之處在於速度——剪輯喺幾秒內生成，唔係幾分鐘——同時結合即時網絡數據存取，提供最新、最相關嘅視覺參考。模型注重提示跟從度同自然動作連貫性，非常適合快速社交媒體內容、快速原型製作同迭代創意工作流程。

立即體驗

開始使用 Gemini Omni 創作

體驗 Gemini Omni 的強大能力 — 免費線上使用

立即體驗 — 免費