Google DeepMind

Gemini Omni

Google의 멀티모달 창작 모델 — Gemini의 추론 능력과 생성 미디어 시스템의 결합. 텍스트, 이미지, 동영상, 오디오에서 자연어로 동영상을 생성하고 편집하며, 각 편집은 이전 결과를 기반으로 합니다. Nano Banana Pro에서 무료 체험.

Loading generator...

About

Gemini Omni 소개

Gemini Omni는 Google DeepMind가 2025년 Google I/O에서 발표한 멀티모달 창작 모델입니다. Gemini의 추론 능력과 생성 미디어 시스템을 결합하여 단순한 프롬프트-투-비디오를 넘어서는 동영상 생성 및 편집을 가능하게 합니다. 장면, 동작, 환경, 물리적 행동, 실세계 맥락을 이해하여 무작위가 아닌 의도적인 결과를 생성합니다. Gemini Omni Flash는 실용적인 동영상 제작 및 편집 워크플로우를 위해 구축되었습니다.

핵심 기능

멀티모달 입력, 대화형 편집, 스타일 변환, 실세계 지식 — 하나의 모델에서 모두

주요 기능

멀티턴 대화형 편집

Gemini Omni는 동영상 편집에 근본적으로 다른 접근 방식을 도입합니다. 매번 처음부터 생성하는 대신, 일련의 자연어 지시로 동영상을 다듬을 수 있습니다. 배경 변경, 동작 조정, 객체 교체, 카메라 앵글 변경, 시각 효과 추가 — 모두 동영상의 나머지 부분을 안정적으로 유지하면서.

프롬프트

Output (Example)

멀티턴 편집: 먼저 장면을 설정하고, 카메라 앵글을 변경하고, 분위기 효과를 추가 — 전체적으로 일관성 유지

멀티턴 편집은 연속적인 수정 전체에서 장면 일관성을 유지

먼저 방에 있는 사람의 장면을 설정하고, 조명을 골든아워로 변경하고, 창문에 비를 추가 — 각 편집은 이전 것을 기반으로 함

순차적 환경 변경이 대화형 개선을 보여줌

실시간 스타일 변환

Gemini Omni는 기본 움직임, 구조, 장면 구성을 유지하면서 입력 동영상의 시각적 스타일을 변환할 수 있습니다. 대상 미학을 설명하면 모델이 각 프레임에 일관되게 변환을 적용합니다.

프롬프트

Output (Example)

사람이 거울을 만지면 거울이 액체처럼 아름답게 물결치고, 사람의 팔이 반사 거울 소재로 변합니다

스타일 변환은 시각적 미학을 완전히 바꾸면서 움직임을 보존

사람이 거울을 만지면 전체 환경이 블록 형태의 기하학적 모양을 가진 3D 복셀 아트로 변환됨

공간 구조를 유지하면서 복셀 아트로의 완전한 환경 변환

진정한 멀티모달 입력

텍스트나 단일 이미지만 받는 모델과 달리, Gemini Omni는 여러 입력 유형을 동시에 처리할 수 있습니다. 텍스트로 방향, 이미지로 시각 참조, 동영상으로 모션 가이드, 오디오로 음성 동기화를 제공하면 모델이 모든 입력을 하나의 통일된 동영상 출력으로 합성합니다.

프롬프트

Output (Example)

고사리 잎을 만질 때마다 하프 소리를 추가. 잎 구조를 생물발광 식물로 바꾸고 반딧불이가 날아다니게

동영상 입력, 텍스트 지시, 오디오 참조를 결합하여 동기화된 출력 실현

실제 과학 지식을 사용하여 단백질 접힘 과정을 시각화하고, 정확한 분자 행동을 클레이메이션 스타일로 렌더링

실제 세계 지식을 과학적 시각화에 적용하고 창의적 스타일과 결합

자주 묻는 질문

Gemini Omni FAQ

01Gemini Omni란 무엇이며 다른 AI 동영상 생성기와 어떻게 다른가요?

Gemini Omni는 Google DeepMind가 2026년 Google I/O에서 발표한 멀티모달 동영상 생성 모델입니다. 일반적인 텍스트-투-비디오 도구와 달리, 멀티턴 대화형 편집(각 편집이 이전 결과를 기반으로 함), 멀티모달 입력(텍스트+이미지+동영상+오디오 동시 입력), 실세계 지식 기반의 정확한 콘텐츠 생성을 지원합니다. Nano Banana Pro 에서 무료로 체험할 수 있습니다.

02Gemini Omni를 무료로 온라인에서 사용하려면 어떻게 하나요?

Nano Banana Pro 에서 Gemini Omni를 무료로 온라인 사용할 수 있습니다. 플랫폼에 접속하여 Gemini Omni 모델을 선택하고, 텍스트 프롬프트, 이미지 또는 기존 동영상 클립으로 동영상 생성을 시작하세요. 신규 사용자는 무료 크레딧을 받아 소프트웨어 설치 없이 즉시 창작을 시작할 수 있습니다.

03Gemini Omni는 어떤 입력 유형을 지원하나요?

Gemini Omni는 텍스트 프롬프트, 최대 7장의 참조 이미지, 1개의 동영상 클립(최대 100MB, 30초 이내), 오디오 입력을 받습니다. 한 번의 생성에서 여러 입력 유형을 조합할 수 있습니다. 예를 들어 참조 이미지와 텍스트 지시를 함께 제공하여 동영상의 스타일과 동작을 동시에 제어할 수 있습니다.

04멀티턴 대화형 편집은 어떻게 작동하나요?

대화형 편집은 자연어 지시를 통해 동영상을 단계적으로 개선할 수 있게 해줍니다. 초기 생성에서 시작하여 카메라 앵글 조정, 조명 변경, 객체 교체, 효과 추가, 스타일 변환을 순차적으로 진행합니다. 각 편집은 언급하지 않은 요소를 유지하면서 새로운 지시를 적용합니다. Nano Banana Pro 에서 장면을 한 단계씩 연출하는 것과 같습니다.

05Gemini Omni의 동영상 길이와 화면 비율은?

Gemini Omni는 4, 6, 8, 10초 길이의 동영상을 생성할 수 있습니다. 화면 비율은 16:9(가로), 9:16(세로), 1:1(정사각형)을 지원합니다. 시드 값 제어로 생성 간 재현 가능한 결과를 얻을 수도 있습니다.

06Gemini Omni로 생성한 동영상을 상업적으로 사용할 수 있나요?

네. Nano Banana Pro 에서 Gemini Omni로 생성한 동영상에는 상업적 사용권이 포함됩니다. 마케팅 캠페인, 소셜 미디어 콘텐츠, 제품 데모, 교육 자료, 전문 동영상 제작 등 다양한 상업 용도에 활용할 수 있습니다.

07Gemini Omni는 Veo나 Sora 같은 다른 AI 동영상 모델과 비교하면 어떤가요?

Gemini Omni의 핵심 차별점은 멀티턴 대화형 편집(다른 모델은 변경할 때마다 처음부터 다시 시작해야 함), 진정한 멀티모달 입력(텍스트+이미지+동영상+오디오를 한 번에 입력), 물리적으로 정확하고 맥락적으로 의미 있는 결과를 만드는 실세계 지식입니다. Google DeepMind의 Gemini 추론 아키텍처를 기반으로 하여 순수 확산 모델보다 깊은 장면 이해력을 갖추고 있습니다.

크리에이터들의 Gemini Omni 평가

“Nano Banana Pro 의 멀티턴 편집이 영상 제작 방식을 완전히 바꿨습니다. 여러 차례 수정을 거쳐도 연속성이 유지되면서 장면을 연출할 수 있어요. AI 촬영감독이 있는 것 같은 경험입니다.”

김

김준혁

독립 영화감독

“Gemini Omni의 스타일 변환으로 한 번의 촬영 소스를 수십 가지 변형으로 만들 수 있습니다 — 메탈, 스케치, 홀로그램 — 원래 움직임은 그대로 유지하면서요. 추가 촬영 없이 콘텐츠 생산량이 3배가 됐습니다.”

박

박서연

브랜드 마케팅 이사

“실세계 지식이 Gemini Omni를 차별화합니다. 단백질 접힘 시각화를 요청했을 때 분자 행동이 과학적으로 정확했습니다 — 그냥 과학적으로 보이는 게 아니라 실제로 맞는 거예요. AI 동영상 도구에서는 처음입니다.”

이

이동현

모션 그래픽 디자이너

더 많은 AI 비디오 모델 탐색

Veo 3.1 무료 AI 동영상 생성기

신규

Veo 3.1은 Google DeepMind의 최첨단 무료 AI 동영상 생성기로, 혁신적인 네이티브 오디오 생성 기능을 탑재했습니다. 온라인에서 1080p HD 영상을 무료 생성하고, 효과음·대화·환경 오디오를 동기화 생성합니다. 워터마크 없음, 무제한. 클립당 최대 8초, 60초 이상 확장 가능, 24FPS 출력.

지금 시도

Wan 2.6

신규

Wan 2.6은 알리바바의 동영상 생성 모델로, 텍스트 프롬프트와 참조 이미지에서 다양한 스타일, 부드러운 모션, 영화급 출력으로 고품질 동영상을 생성합니다.

지금 시도

Sora 2

Sora 2는 OpenAI의 플래그십 동영상 생성 모델로, 텍스트 설명과 이미지 입력 모두에서 고품질 동영상을 생성할 수 있습니다. 복잡한 장면 구성, 캐릭터 상호작용, 카메라 움직임, 현실 세계의 물리 법칙을 이해하여 영화급 결과물을 제공합니다. Sora 2는 향상된 시간적 일관성, 더 긴 길이 지원, 더 충실한 프롬프트 해석으로 AI 동영상 생성의 큰 도약을 나타냅니다.

지금 시도

Kling 2.6

Kling 2.6은 쾌수(Kuaishou)의 최신 AI 동영상 생성 모델로, 뛰어난 모션 품질과 영화급 출력으로 인정받고 있습니다. 고급 시공간 모델링 기술을 기반으로 유려한 캐릭터 움직임, 역동적인 카메라 전환, 풍부한 시각적 디테일을 갖춘 동영상을 생성합니다. 텍스트-투-비디오와 이미지-투-비디오를 모두 지원하여 전문 품질의 AI 동영상 콘텐츠를 원하는 크리에이터에게 다용도 도구입니다.

지금 시도

Seedance 2.0

신규

Seedance 2.0은 2026년 2월에 공개된 ByteDance의 최첨단 AI 영상 생성 모델입니다. 통합 멀티모달 오디오-비디오 공동 생성 아키텍처를 채택하여 텍스트, 최대 9개의 이미지, 최대 3개의 영상 클립, 최대 3개의 오디오 트랙 등 4가지 입력 모달리티를 동시에 지원합니다. 획기적인 @-reference 시스템을 사용하면 프롬프트의 특정 요소에 태그를 지정하고 업로드된 참조 파일에 바인딩하여 카메라 움직임, 캐릭터 외형, 오디오 리듬 및 시각적 스타일을 세밀하게 제어할 수 있습니다. 출력은 최대 2K 해상도에 도달하며, 다국어 립싱크, 음향 효과 및 배경 음악을 포함한 네이티브 동기화 오디오를 제공합니다.

지금 시도

Grok Video

신규

Grok Video(Grok Imagine Video 기반)는 Grok 생태계에 직접 구축된 xAI의 비디오 생성 모델입니다. 독자적인 Aurora 엔진으로 구동되어 텍스트 프롬프트나 정적 이미지를 동기화된 오디오가 포함된 짧은 비디오 클립으로 변환합니다. Grok Video의 차별점은 속도 — 클립을 몇 분이 아닌 몇 초 만에 생성 — 와 함께 실시간 웹 데이터 액세스를 통한 최신의 관련성 높은 시각적 참조에 있습니다. 이 모델은 프롬프트 준수도와 자연스러운 움직임 일관성을 우선시하여 빠른 소셜 미디어 콘텐츠, 신속한 프로토타이핑 및 반복적인 창작 워크플로우에 이상적입니다.

지금 시도

Gemini Omni로 창작 시작하기

Gemini Omni의 강력한 기능을 체험하세요 — 무료 온라인

지금 시작 — 무료