画像生成をエージェントの外に置いたままだと、毎回プロンプトをコピペして、別ツールで作って、結果をまた戻す手間が残ります。OpenClawのimage_generateは、その往復を1本にまとめます。

https://docs.openclaw.ai/ja-JP/tools/image-generation

この記事では、OpenClawで画像生成をどう組み込むか、OpenAIのgpt-image-2を使うと何が変わるかを整理します。単なる「画像が作れる」ではなく、実務の流れにどう載せるかを中心に見ます。

  • image_generate の役割
  • gpt-image-2 を選ぶ意味
  • 参照画像つき編集の使いどころ
  • 失敗しやすい設定の考え方
  • 既存の画像生成運用との違い

エージェント内で画像を作る意味

OpenClawの画像生成は、エージェントが使う標準ツールとして用意されています。画像を生成すると、結果は返信に添付されます。つまり、画像生成を別工程にせず、そのまま会話の文脈に入れられます。

この構造の利点は明確です。たとえば、記事サムネイルのたたき台、SNS投稿用のビジュアル案、UIモックの初稿、説明用の図解を、同じ流れで作れます。人が都度手で受け渡ししなくてよいので、試行回数を増やしやすくなります。

さらに、image_generate は単なる生成だけでなく編集にも使えます。既存画像に対して、背景だけ変える、色味だけ揃える、構図の方向性を保ったまま差分を作る、といった作業ができます。ここが、単発の画像生成ツールと大きく違う点です。

gpt-image-2 を選ぶ理由

OpenClawのドキュメントでは、OpenAIの画像生成は openai/gpt-image-2 が基本の選択肢になっています。古い gpt-image-1 も明示的には使えますが、新しい生成や編集は gpt-image-2 を前提にしたほうがよいです。

理由は、生成と編集を同じ流れで扱えるからです。OpenClawは promptcountsize、参照画像をOpenAI側に渡します。利用者は「生成」と「編集」を別物として考えなくて済みます。プロンプトの設計だけに集中できます。

実務で重要なのは、モデルそのものの性能だけではありません。運用時に迷わないことも同じくらい重要です。gpt-image-2 を基準にすると、設定の分岐が減ります。どのモデルを使うかで止まる場面を減らせます。

まず押さえる設定

OpenClawで画像生成を使うには、少なくとも1つの画像生成プロバイダーを有効にします。OpenAIなら OPENAI_API_KEY を用意し、必要なら agents.defaults.imageGenerationModel を設定します。

典型的には次の考え方で十分です。

  • まず主力モデルを openai/gpt-image-2 にする
  • フォールバック先を別プロバイダーに置く
  • 画像サイズは用途に合わせて指定する
  • 参照画像を使う場合は編集前提で考える

ここで大事なのは、完璧な初期設定を狙わないことです。OpenClawはプロバイダーの自動選択も持っています。明示設定と自動選択を組み合わせると、APIキーやレート制限の問題が起きても止まりにくくなります。

参照画像つき編集が強い

OpenClawの画像生成は、1枚の参照画像だけでなく複数枚の参照画像にも対応します。OpenAIとGoogleは最大5枚の参照画像を扱えます。これは実務で効きます。

たとえば、次のような使い方ができます。

  • 既存の製品写真をベースに別背景の案を作る
  • 1枚目で構図、2枚目で色調、3枚目で文字組みの方向性を渡す
  • ブランドの雰囲気を壊さずにバリエーションを増やす

この方法の利点は、ゼロから作るより修正の意図を伝えやすいことです。人間のデザイナーに伝えるのと同じで、参照を見せたほうが精度は上がります。画像生成でも、コンテキストを渡したほうが再現性は上がります。

よくあるつまずき

注意点もあります。まず、OpenAI側に aspectRatioresolution がそのまま渡らない場面があります。OpenClawは可能なら近い size に変換しますが、完全一致ではありません。狙った見た目が必要なら、最終的に送られるサイズを確認する必要があります。

次に、ツールが見えない場合があります。これは image_generate が無効なのではなく、画像生成プロバイダーが設定されていないだけのことが多いです。agents.defaults.imageGenerationModel か APIキーを確認します。

最後に、モデルを増やしすぎると運用がぶれます。最初は主力を1つに固定し、失敗時の退避先だけ足すのが堅実です。選択肢が多いほど便利に見えますが、現場では判断コストになります。

既存の画像生成運用との違い

従来の画像生成は、別サイトで作って保存して、また別の場所へ戻す流れになりがちです。OpenClawはこの分断を減らします。会話の中で生成し、そのまま次の指示に進めます。

この差は小さく見えて、実際は大きいです。画像生成の利用回数が増えるほど、受け渡しの手間が効いてきます。特に、同じテーマで何度も案を出す仕事では、ツールの切り替えコストがそのまま生産性を削ります。

OpenClawを使う価値は、画像生成そのものではなく、画像生成をエージェントの作業手順に入れられる点にあります。生成、編集、差し替え、再提案を一つの会話に閉じ込められるので、制作の試行速度が上がります。

まとめ

OpenClawのimage_generateは、画像生成を独立した作業ではなく、エージェントの作業の一部に変えます。gpt-image-2 を基準にすると、生成と編集を同じ流れで扱えるため、運用が単純になります。

まずは主力モデルを決めて、参照画像を使った編集を試してください。そこまで入ると、画像生成は「たまに使う機能」ではなく、実務の中で回る道具になります。