目標を1行書くだけで、音声・音楽・映像をまとめて仕上げる動画ができる——Codexの「/goalモード」を使ったデモが、2026年6月14日に話題になりました。

この記事では、話題のデモ内容と、/goalモードが何を変えるのか、そしてGemini Live・Google Lyria・Remotionがそれぞれ担う役割を整理します。

この記事でわかること

  • /goalモードの基本動作と、通常プロンプトとの違い
  • デモで使われた3つの技術(音声・音楽・動画)の役割分担
  • 動画生成に/goalを使うときの前提と注意点

1行の目標から動画ができるデモとは

2026年6月14日、Codex 研究所(@codex_lab_)がXで速報を投稿しました。内容は、Codexの新機能「/goalモード」に目標を1行投げるだけで、裏側で3つのツールを同時に制御し、プロ品質の動画を自動生成するデモです。

投稿で挙げられている3つは次のとおりです。

  • Gemini Live — 音声まわりのリアルタイム処理
  • Google Lyria — 音楽の生成
  • Remotion — 動画のレンダリング

この投稿はOpenAIの公式発表ではなく、/goalモードの実用例を示したデモ紹介です。ただし、各ツールはいずれも公式ドキュメントで提供されている技術であり、Codexが外部APIやプラグインを呼び出して組み合わせる流れは、/goalモードの設計思想と一致します。

/goalモードは何が変わったのか

/goalは、Codexに「1回の指示で終わる」作業ではなく、完了条件を満たすまで自律的に続ける目標を与える機能です。OpenAIの公式ドキュメントでは、通常のプロンプトが「次の1手を頼む」方式であるのに対し、/goalは「成果が証明されるまで続ける」方式と説明されています。

主な特徴は次のとおりです。

  • 永続的な目標管理 — スレッドに紐づいた状態として目標が保持され、途中経過を踏まえて作業を継続する
  • 証拠ベースの完了判定 — テスト通過、ビルド成功、生成物の存在など、具体的な根拠がそろったときだけ完了とみなす
  • ライフサイクル操作/goal/goal pause/goal resume/goal clear で開始・一時停止・再開・解除ができる
  • 長時間の自律実行 — 公式ユースケースでは、数時間にわたりユーザーの介入なしで作業を続けられると記載されている

Codex 0.128.0以降で利用可能になり、2026年5月21日の0.133.0リリースでCLI・アプリ・IDE拡張に広く展開されました。機能を使うには config.tomlfeatures.goals = true を有効にするか、CLIで codex features enable goals を実行します。

動画生成デモでは、この「目標を投げて自律実行する」仕組みが、音声・音楽・映像の3工程を順にこなすオーケストレーターとして機能していると考えられます。

3つの技術が担う役割

Gemini Live — リアルタイム音声の入出力

Gemini Live APIは、WebSocketで双方向の音声・映像・テキストを低遅延でやり取りする仕組みです。マイク入力を16kHzのPCM音声として送り、24kHzの音声で応答を返します。Function Calling(ツール呼び出し)にも対応しており、会話の流れの中で外部処理を起動できます。

動画制作の文脈では、ナレーション原稿の読み上げや、制作指示の音声入力といった「音声レイヤー」を担う部品です。プレビュー段階の段階ですが、Googleはリアルタイムの音声エージェント構築に向けた基盤として位置づけています。

Google Lyria — テキストから音楽を生成

https://ai.google.dev/gemini-api/docs/interactions/music-generation

Lyria 3はGoogleの音楽生成モデル群で、Gemini APIから利用できます。モデルは2種類あります。

  • Lyria 3 Cliplyria-3-clip-preview)— 30秒のクリップ向け
  • Lyria 3 Prolyria-3-pro-preview)— 数分のフル尺楽曲向け

いずれも44.1kHzのステレオ音声を出力し、ジャンル・楽器・BPM・キーなどをプロンプトで指定できます。動画のBGMやジングルを、テキスト指示だけで用意する用途に向いています。生成音声にはSynthIDの透かしが埋め込まれます。

Remotion — Reactで動画をコード生成

Remotionは、Reactコンポーネントを書いて動画をプログラム的に生成するフレームワークです。CSSやSVG、アニメーションをコードで定義し、npx remotion render でMP4などに書き出します。2026年初頭には remotion-dev/codex-plugin が公開され、CodexからRemotionプロジェクトの作成・編集・レンダリングを自然言語で指示できるようになりました。

CodexはRemotionのコードを書き、プレビューを確認しながら修正を重ね、最終的な動画ファイルを出力する——この流れが、デモで「動画レイヤー」に相当します。

デモが示すワークフローの全体像

話題のデモは、従来なら別々のツールと作業者が必要だった工程を、/goalモード1本に集約しています。

  1. ユーザーが動画のゴールを1行で指定する
  2. Codexが/goalモードで自律ループに入る
  3. Gemini Liveで音声素材(ナレーション等)を用意する
  4. LyriaでBGMや効果音に近い音楽素材を生成する
  5. Remotionで映像コンポジションを組み、素材を合成してレンダリングする
  6. 生成物が完了条件を満たせば/goalが完了する

従来の動画制作では、脚本・ナレーション収録・BGM選定・モーショングラフィックス・書き出しを人手でつなぐ必要がありました。/goalモードは各ステップの「次に何をするか」をCodexが判断し、検証しながら進める点が異なります。

/goalを動画制作に使うときのポイント

OpenAIの公式ガイドが推奨するのは、完了条件を数値やコマンドで定義できる目標です。動画制作であれば、「30秒のMP4が output/final.mp4 に存在し、音声トラックとBGMトラックが含まれること」のように、検証可能な条件を書くのが有効です。

注意点も押さえておきます。

  • トークン予算 — 長時間の自律実行はコストが積み上がる。初回は短い動画で試す
  • 外部APIの準備 — Gemini Live、Lyria、RemotionはそれぞれAPIキーや環境構築が必要
  • 品質のばらつき — AI生成の音声・音楽・映像は試行ごとに結果が変わる。Lyria公式もClipモデルでの試行錯誤を推奨している
  • ライセンス — Remotionは商用利用に会社ライセンスが必要な場合がある

/goalモードはバグ修正やマイグレーション向けに設計された機能ですが、今回のデモは「完了条件付きの自律実行」がクリエイティブ領域にも広がりうることを示しています。

通常のCodex利用との使い分け

用途 向いている方式
1シーンの微修正 通常プロンプト
複数工程をまたぐ動画制作 /goalモード
探索的な試作 通常プロンプト
検証条件が明確な量産 /goalモード

動画のたたき台を素早く見たいだけなら、Remotionプラグインへの単発指示で十分な場面も多いです。一方、音声・音楽・映像を統合し、条件を満たすまで自律的に仕上げたい場合は/goalモードの出番になります。

Codexの/goalモードは、コーディングエージェントの枠を超えて「成果物の自動制作」に踏み込む事例として注目に値します。Gemini Live、Lyria、Remotionという3つの異なるAPIを1つの目標で束ねるデモは、その可能性を具体的に示したものです。