アリババの次世代マルチモーダル動画モデル。ネイティブな音声・映像の共同生成を備え、1つの統一モデルで4つの本番シーン(テキスト、画像、マルチ画像参照、インプレイス編集)をカバー。FireRed Image Edit で無料体験できます。
HappyHorse はアリババの次世代AI動画モデルで、ネイティブなマルチモーダルアーキテクチャに基づいて構築されています。単一の統一モデルで4つの本番シーン(テキスト→動画、画像→動画、マルチ画像参照→動画、インプレイス動画編集)に対応し、ネイティブな音声・映像の共同合成、720p/1080p 出力を備え、広告、EC、ショートドラマ、SNS クリエイティブ制作に深く最適化されています。

音声と映像の共同生成を根本から設計。ポストプロダクション不要で、1回の生成で同期した動きと音を出力します。
テキスト→動画、画像→動画、マルチ画像参照→動画、インプレイス動画編集を、単一の統一モデルで一貫したプロンプトで扱えます。
最大5枚の参照画像を指定してキャラクター・シーン・小物を誘導。複数参照を組み合わせて強一貫性のショットを構築できます。
オリジナルのカメラモーション・照明・構図を保ったまま、被写体や衣装、さらには全体のビジュアルスタイルを置換。ローカライズやクリエイティブリミックスに最適。
素早いイテレーションには 720p、最終納品には 1080p。クリアなディテールと整ったコンプレッションで、短編ドラマや広告向けの公開品質を提供。
広告、EC、ショートドラマ、SNS クリエイティブ——仕上がりと制作速度を両立すべきコンテンツに最適化されています。
See HappyHorse in action across all four scenes: text, image, multi-image reference, and video editing.
Generate video from pure text prompts with native audio
“A Pixar-style short about a nervous little traffic cone who dreams of being a finish line pylon at a major race. Other cones mock its ambitions. A construction worker accidentally places it at a marathon finish line. The cone's painted face shifts from terror to joy as runners pass. Confetti falls on its cone head. Other cones watch on TV, inspired. Audio: Traffic sounds becoming crowd cheers, inspirational swelling music.”
Duration: 5s
“8mm vintage film style, grainy texture, slight light leaks. A group of friends laughing and running on a beach in the 1970s. Sun-drenched colors, nostalgic atmosphere, handheld camera shaking slightly. Authentic retro look.”
Duration: 5s
“First-person POV (GoPro style), a high-speed mountain bike descent through a narrow, rocky forest trail. The camera vibrates with the bumps, trees rushing past in a blur. Intense sunlight filtering through the canopy. Adrenaline-pumping action, immersive sound of tires on gravel.”
Duration: 5s
Animate still images into motion with synchronized sound
“Tracking shot as the girl walks gracefully through the meadow. Her dress and hair flutter in the wind, and clouds drift slowly. Cinematic audio of soft footsteps on grass, rustling summer wind, and melodic bird calls.”
Duration: 5s
“First-person POV. The camera glides smoothly and continuously forward deep into the sci-fi corridor. Glowing neon lights pass by rapidly on both sides. Tiny glowing dust particles float in the illuminated air. Steady tracking shot, immersive atmosphere.”
Duration: 5s
“Time-lapse effect. The thick morning mist rolls and flows fluidly through the pine trees like a slow-moving river. The bright volumetric light rays shift their angle dynamically as the sun rises. Cinematic slow zoom in.”
Duration: 5s
Combine up to 5 reference images into a coherent scene
“The girl from Image 1 is jogging lightly through a sunlit forest. The glowing forest spirit from Image 2 playfully flies closely behind her like a small comet, leaving a faint luminous trail in the air. Golden light filters through the dense trees. Cinematic audio of soft, quick footsteps on grass, a gentle magical whoosh, and distant bird calls.”
Duration: 5s
“Place the cotton doll from Image 1 into the vintage room from Image 2. The doll sits on the wooden workbench, gently swinging its legs, looking around curiously. Keep the lighting of Image 2 and the plush texture of Image 1 strictly consistent.”
Duration: 5s
“The idol from Image 1 stands on the water stage from Image 2, directly in front of the giant glowing moon. The idol steps forward slowly, creating gentle ripples in the water, and raises the microphone to sing. The soft blue light from the moon reflects perfectly on the idol's outfit.”
Duration: 5s
Replace subjects, styles, or elements while keeping camera motion
“Replace the teenage boy in the video with SpongeBob SquarePants. He should retain his classic iconic look: a yellow rectangular sea sponge with large blue eyes, wearing a white collared shirt, red tie, and brown square pants. SpongeBob should be riding the skateboard naturally and performing the kickflip. Render him in a high-quality 3D realistic style to match the lighting and shadows of the real-world park background. Keep the original camera tracking and motion exactly the same.”
“Replace the grey hoodie and pants with the floral silk skirt from the reference image. The skirt should flow and sway naturally with the woman's walking and spinning motion. Keep her face, hair, and the living room background exactly the same.”
“Transform the entire video into a vibrant Lego world. The person, the desk, and every object in the room should be constructed from high-quality plastic Lego bricks. Keep the original waving motion and spatial layout perfectly. The lighting should be bright and clean, like a professional Lego toy commercial.”
HappyHorse FAQ
HappyHorse はアリババの次世代マルチモーダル動画モデルで、ネイティブな音声・映像の共同生成に対応し、単一の統一モデル内でテキスト→動画、画像→動画、マルチ画像参照、インプレイス動画編集という 4 つの本番シーンを提供します。広告、EC、ショートドラマ、SNS クリエイティブに深く適応しています。
"HappyHorse なら1つのブリーフから4種類のスタイルのプロダクト動画が作れます。マルチ画像参照は時間の大幅な節約です。"
EC クリエイティブディレクター
"テキスト、画像、参照、編集を1つのモデルでカバーできるので、チームのワークフローが非常に引き締まります。HappyHorse は私たちのパイプラインに常駐しました。"
広告代理店ディレクター
"HappyHorse なら1つのブリーフから4種類のスタイルのプロダクト動画が作れます。マルチ画像参照は時間の大幅な節約です。"
EC クリエイティブディレクター
"テキスト、画像、参照、編集を1つのモデルでカバーできるので、チームのワークフローが非常に引き締まります。HappyHorse は私たちのパイプラインに常駐しました。"
広告代理店ディレクター