AI動画生成モデルの勢力図が一夜で塗り替わりました。2026年4月7日、正体不明のモデルがArtificial Analysisのビデオアリーナに突然現れ、テキストから動画・画像から動画の両部門で首位を奪取。3日後、その正体がAlibabaであると判明し、業界に衝撃が走りました。

この記事でわかること

  • Happy Horse 1.0の開発背景と匿名デビューの経緯
  • 映像と音声を同時生成する技術の仕組み
  • fal.ai APIでの利用方法と料金
  • Seedance 2.0やKling 3.0との違い

Happy Horse 1.0とは

Happy Horse 1.0(快乐小马)は、Alibaba Token Hub(ATH)傘下のFuture Life Labが開発したAI動画生成モデルです。開発を率いるのはZhang Di氏。Kuaishouの元副社長で、動画生成AI「Kling」の技術責任者だった人物です。2025年末にAlibabaへ復帰し、数か月でHappy Horse 1.0を完成させました。

注目すべきは、そのデビュー方法です。4月7日、開発元を一切明かさずArtificial Analysisのリーダーボードに登場。ブラインドテストで人間の評価者が2つの動画を見比べ、どちらが良いかを投票する仕組みで、初登場からわずか数日でText-to-VideoとImage-to-Videoの両部門で1位を獲得しました。この匿名の急上昇は「TencentかAlibabaか」とネット上で憶測を呼び、4月10日にAlibaba自身がCNBCの取材で正式に認めています。

映像と音声を1パスで同時生成する仕組み

従来の動画生成AIでは、映像を生成した後に音声を別途合成するのが一般的でした。Happy Horse 1.0はこの工程を根本から変えています。

モデルの核となるのは、150億パラメータの統合型Transformerアーキテクチャです。40層の自己注意機構で構成され、テキスト・画像・映像・音声のトークンを1つのシーケンスとして同時に処理します。最初と最後の各4層がモダリティ固有の処理を担当し、中間の32層がすべてのトークンを横断的に扱います。クロスアテンションモジュールは使っていません。

この設計により、映像フレームと音声トラック(セリフ・環境音・フォーリー効果音)を1回のフォワードパスで生成します。音声の後付け処理が不要なため、リップシンクのずれや環境音の不一致といった問題が構造的に起きにくくなっています。

主な機能と対応言語

Happy Horse 1.0が提供する機能は4つあります。

テキストから動画生成(Text-to-Video) — テキストプロンプトから1080p動画と同期音声を生成します。アスペクト比は16:9、9:16、1:1、4:3、3:4に対応し、長さは3〜15秒です。

画像から動画生成(Image-to-Video) — 静止画を入力として、動きと音声を付加した動画を出力します。

動画編集(Video-to-Video) — 自然言語の指示で既存の動画を編集できます。最大5枚のリファレンス画像を使い、ローカルまたはグローバルな編集が可能です。

リファレンスから動画生成(Reference-to-Video) — テキストプロンプトとリファレンス画像を組み合わせて動画を生成します。スタイル変換やキャラクター維持に使えます。

リップシンクは7言語に対応しています。日本語、英語、中国語(普通話・広東語)、韓国語、ドイツ語、フランス語で、音素レベルの同期を実現します。

生成速度と技術仕様

推論には8ステップのデノイジングを使用し、CFG(Classifier-Free Guidance)は不要です。NVIDIA H100 GPU 1台で1080pの動画を約38秒で生成できます。256p解像度であれば5秒のクリップを約2秒で処理します。

同クラスのモデルと比べると、この速度は大きなアドバンテージです。プロトタイプの反復やリアルタイムに近いワークフローでの活用が視野に入ります。

ランキングと評価

Artificial Analysisのビデオアリーナでは、人間のブラインド投票に基づくEloレーティングで評価されます。2026年4月時点のHappy Horse 1.0の成績は以下の通りです。

  • Text-to-Video(音声なし): Elo約1,333〜1,357 — 1位
  • Image-to-Video(音声なし): Elo約1,391〜1,413 — 1位
  • Text-to-Video(音声あり): 2位
  • Image-to-Video(音声あり): 2位

音声なしの両部門で同時に1位を獲得しているのは、現時点でHappy Horse 1.0だけです。Text-to-Video部門では2位のSeedance 2.0に約60〜115 Eloポイントの差をつけており、ブラインドテストで体感できるレベルの品質差があるとされています。

料金

fal.aiのAPI経由で利用でき、秒単位の従量課金です。

  • 720p: 約$0.14〜0.18/秒
  • 1080p: 約$0.28〜0.32/秒

サブスクリプションや最低利用料金はありません。fal.aiのPlaygroundからはAPIキーなしで試すこともできます。

Seedance 2.0・Kling 3.0との違い

AI動画生成の主要モデルとHappy Horse 1.0を比較すると、立ち位置がはっきり見えてきます。

Seedance 2.0(ByteDance)はランキング2位で、リファレンス画像を活用した編集ワークフローに強みがあります。音声ありカテゴリではHappy Horseをわずかに上回っています。ただし、ハリウッドの映画スタジオとの著作権紛争により、2026年4月時点でロールアウトが一時停止しています。

Kling 3.0(Kuaishou)はランキング4位ですが、$0.075/秒という料金はHappy Horseの約半額です。コスト重視の用途では有力な選択肢になります。なお、Happy Horseの開発責任者Zhang Di氏はKlingの元技術責任者であり、両モデルの設計思想には共通点があると考えられます。

Sora 2(OpenAI)は2026年4月26日にサービスを終了しました。コーディングツールや法人向けサービスへの戦略転換が理由とされています。Soraの撤退により、AI動画生成の市場は中国勢が主導する構図が鮮明になりました。

利用を始めるには

fal.aiのアカウントを作成し、ダッシュボードからAPIキーを取得すれば、PythonまたはJavaScriptのSDKからすぐに利用を開始できます。

pip install fal-client

環境変数にAPIキーを設定し、fal.subscribe("alibaba/happy-horse/text-to-video", ...) を呼び出すだけです。Playgroundであれば設定不要で、プロンプトを入力するだけで動画生成を試せます。

今後の注目点

Happy Horse 1.0は、映像と音声の同時生成という技術的な優位性でランキング首位を獲得しました。Alibabaが自社のeコマース・広告・エンターテインメント事業にこのモデルをどう統合するかが、次の焦点になります。Soraが撤退し、Seedanceが著作権問題で足踏みする中、AI動画生成市場の主導権争いは新たな局面に入っています。