Google의 멀티모달 창작 모델 — Gemini의 추론 능력과 생성 미디어 시스템의 결합. 텍스트, 이미지, 동영상, 오디오에서 자연어로 동영상을 생성하고 편집하며, 각 편집은 이전 결과를 기반으로 합니다. Nano Banana Pro에서 무료 체험.
멀티모달 입력, 대화형 편집, 스타일 변환, 실세계 지식 — 하나의 모델에서 모두
Gemini Omni는 동영상 편집에 근본적으로 다른 접근 방식을 도입합니다. 매번 처음부터 생성하는 대신, 일련의 자연어 지시로 동영상을 다듬을 수 있습니다. 배경 변경, 동작 조정, 객체 교체, 카메라 앵글 변경, 시각 효과 추가 — 모두 동영상의 나머지 부분을 안정적으로 유지하면서.
멀티턴 편집: 먼저 장면을 설정하고, 카메라 앵글을 변경하고, 분위기 효과를 추가 — 전체적으로 일관성 유지
멀티턴 편집은 연속적인 수정 전체에서 장면 일관성을 유지
먼저 방에 있는 사람의 장면을 설정하고, 조명을 골든아워로 변경하고, 창문에 비를 추가 — 각 편집은 이전 것을 기반으로 함
순차적 환경 변경이 대화형 개선을 보여줌
Gemini Omni는 기본 움직임, 구조, 장면 구성을 유지하면서 입력 동영상의 시각적 스타일을 변환할 수 있습니다. 대상 미학을 설명하면 모델이 각 프레임에 일관되게 변환을 적용합니다.
사람이 거울을 만지면 거울이 액체처럼 아름답게 물결치고, 사람의 팔이 반사 거울 소재로 변합니다
스타일 변환은 시각적 미학을 완전히 바꾸면서 움직임을 보존
사람이 거울을 만지면 전체 환경이 블록 형태의 기하학적 모양을 가진 3D 복셀 아트로 변환됨
공간 구조를 유지하면서 복셀 아트로의 완전한 환경 변환
텍스트나 단일 이미지만 받는 모델과 달리, Gemini Omni는 여러 입력 유형을 동시에 처리할 수 있습니다. 텍스트로 방향, 이미지로 시각 참조, 동영상으로 모션 가이드, 오디오로 음성 동기화를 제공하면 모델이 모든 입력을 하나의 통일된 동영상 출력으로 합성합니다.
고사리 잎을 만질 때마다 하프 소리를 추가. 잎 구조를 생물발광 식물로 바꾸고 반딧불이가 날아다니게
동영상 입력, 텍스트 지시, 오디오 참조를 결합하여 동기화된 출력 실현
실제 과학 지식을 사용하여 단백질 접힘 과정을 시각화하고, 정확한 분자 행동을 클레이메이션 스타일로 렌더링
실제 세계 지식을 과학적 시각화에 적용하고 창의적 스타일과 결합
Gemini Omni FAQ
Gemini Omni는 Google DeepMind가 2026년 Google I/O에서 발표한 멀티모달 동영상 생성 모델입니다. 일반적인 텍스트-투-비디오 도구와 달리, 멀티턴 대화형 편집(각 편집이 이전 결과를 기반으로 함), 멀티모달 입력(텍스트+이미지+동영상+오디오 동시 입력), 실세계 지식 기반의 정확한 콘텐츠 생성을 지원합니다. Nano Banana Pro 에서 무료로 체험할 수 있습니다.
“Nano Banana Pro 의 멀티턴 편집이 영상 제작 방식을 완전히 바꿨습니다. 여러 차례 수정을 거쳐도 연속성이 유지되면서 장면을 연출할 수 있어요. AI 촬영감독이 있는 것 같은 경험입니다.”
독립 영화감독
“Nano Banana Pro 의 멀티턴 편집이 영상 제작 방식을 완전히 바꿨습니다. 여러 차례 수정을 거쳐도 연속성이 유지되면서 장면을 연출할 수 있어요. AI 촬영감독이 있는 것 같은 경험입니다.”
독립 영화감독