Googleのマルチモーダル創作モデル — Geminiの推論能力と生成メディアシステムの融合。テキスト、画像、動画、音声から自然言語で動画を生成・編集し、各編集は前回の結果に基づいて構築されます。Nano Banana Proで無料体験。
マルチモーダル入力、会話型編集、スタイル変換、実世界の知識 — すべてを一つのモデルで
Gemini Omniは動画編集に根本的に異なるアプローチを導入します。毎回ゼロから生成する代わりに、一連の自然言語指示で動画を洗練できます。背景の変更、アクションの調整、オブジェクトの置換、カメラアングルの変更、視覚効果の追加 — すべて動画の残りの部分を安定させたまま。
マルチターン編集:まずシーンを確立し、次にカメラアングルを変更し、雰囲気効果を追加 — 全体を通して一貫性を維持
マルチターン編集は連続的な修正全体でシーンの一貫性を保持
まず部屋にいる人物のシーンを確立し、次に照明をゴールデンアワーに変更し、窓に雨を追加する — 各編集は前回に基づく
連続的な環境変更が会話型の段階的改善を実証
Gemini Omniは入力動画の視覚スタイルを変換しながら、基礎となる動き、構造、シーン構成を保持できます。ターゲットの美学を記述すれば、モデルが各フレームに一貫して変換を適用します。
人が鏡に触れると、鏡が液体のように美しく波打ち、人の腕が反射するミラー素材に変わる
スタイル変換は視覚的美学を完全に変えながら動きを保持
人が鏡に触れると、環境全体がブロック状の幾何学的形状を持つ3Dボクセルアートに変換される
空間構造を保持しながらボクセルアートへの完全な環境変換
テキストや単一画像のみを受け入れるモデルとは異なり、Gemini Omniは複数の入力タイプを同時に処理できます。テキストで方向性、画像で視覚参照、動画でモーションガイダンス、音声で音声同期を提供。モデルがすべての入力を一つの統一された動画出力に統合します。
シダの葉に触れるたびにハープの音を追加。葉の構造を生物発光植物に変え、蛍が飛び回る
動画入力、テキスト指示、音声参照を組み合わせて同期出力を実現
実世界の科学知識を使用してタンパク質折りたたみプロセスを可視化し、正確な分子挙動をクレイアニメーションスタイルでレンダリング
実世界の知識を科学的可視化に適用し、クリエイティブなスタイルと組み合わせ
Gemini Omni FAQ
Gemini OmniはGoogle DeepMindが2026年のGoogle I/Oで発表したマルチモーダル動画生成モデルです。一般的なテキストから動画ツールと異なり、多段階会話型編集(各編集が前回の結果に基づく)、マルチモーダル入力(テキスト+画像+動画+音声の同時入力)、実世界の知識に基づく正確な映像生成に対応しています。Nano Banana Pro で無料体験できます。
“Nano Banana Pro の多段階編集で映像制作のアプローチが変わりました。シーンを何度も調整しても連続性が失われない——AI撮影監督がいるような感覚で、これまでにない体験です。”
映像ディレクター
“Nano Banana Pro の多段階編集で映像制作のアプローチが変わりました。シーンを何度も調整しても連続性が失われない——AI撮影監督がいるような感覚で、これまでにない体験です。”
映像ディレクター