ローカルLLMで本当に動くゲームを1行の指示から作れるのか——その問いに実際に答えた検証がある。
MacBook Pro上でGemma 4 31BとQwen3.6-27Bの両モデルに「パックマンを1ショットで実装せよ」という指示を与え、速度と品質を比べた結果が公開された。Gemma 4 31Bが速度・論理構成の両面で上回った。
この記事でわかること
- Gemma 4 31BとQwen3.6-27Bの仕様の違い
- 1ショット検証で出た速度の差(約5倍)と質の評価
- ローカルで動かすのに必要なメモリ量
- コーディング用途でどちらを選ぶべきか
Gemma 4 31BとQwen3.6-27Bとは
Gemma 4は、Google DeepMindが2026年4月2日に公開したオープンソースのAIモデルファミリーです。31Bモデルは密結合(Dense)アーキテクチャで、コンテキストウィンドウは256Kトークン。Gemini 3の研究基盤をベースに設計されており、Apache 2.0ライセンスで商用利用が可能です。オープンモデルのリーダーボードであるArena AIでは全体3位に位置します。
Qwen3.6-27Bは、Alibaba(アリババ)のQwenチームが2026年4月22日にリリースした密結合の27Bモデルです。前世代のQwen3.5-397B-A17B(総パラメータ397B)を主要なコーディングベンチマークで上回るとされており、コンテキストウィンドウは262,144トークン(最大約100万トークンまで拡張可能)。こちらもApache 2.0で商用利用に制限がありません。
検証の設定
検証はX(旧Twitter)ユーザーのハカセ アイ氏が自身のMacBook Pro上で実施しました。両モデルに同じプロンプトを一度だけ与えて「パックマン」を実装させ、生成時間と品質を記録したものです。
1ショット生成は、コード全体の構造を最初から最後まで矛盾なく設計できるかを問います。衝突判定・スコア管理・描画ループを1回の出力で完結させる必要があるため、修正が介在しないぶんモデルの素の構成力が出やすい条件です。
速度の差
Gemma 4 31Bの生成時間は3分51秒でした。Qwen3.6-27Bはその約5倍の時間を要しています。単純計算で約19分です。
同じハードウェア・同じタスクでここまで差が開いた要因の一つは、推論アーキテクチャの違いです。Gemma 4 31Bはローカルウィンドウアテンションとグローバルアテンションを交互に使うハイブリッド設計で、長い出力でもトークン生成の速度低下を抑えるよう作られています。
論理構成力の評価
速度だけでなく、Gemma 4 31Bは「圧倒的な論理構成力」と評価されました。パックマンのような古典的なアーケードゲームでも、正確に機能するロジックを一発で書くのは容易ではありません。ゲームループ・入力処理・エンティティ管理を整合させる必要があります。
ベンチマーク上でも、Gemma 4 31BはLiveCodeBench v6で80.0%を記録しています。前世代Gemma 3の29.1%から大幅に上昇しており、AIME 2026(数学的推論)では89.2%と、400B規模の競合モデルを上回る水準に達しています。
コーディング性能の比較
Qwen3.6-27Bもコーディング性能は高く、SWE-bench Verifiedで77.2%を記録しています。このスコアは397Bのパラメータを持つ前世代MoEモデルを上回っており、密結合27Bという小型サイズで達成している点が特徴です(参考)。
また「Thinking Preservation」という機能があり、エージェントが複数ターンにわたって対話するときに推論コンテキストを引き継げます。CIパイプラインの自動修正やPR対応といった段階的な作業では、この機能が効果を発揮します。
動かすのに必要なメモリ
Gemma 4 31BをQ4量子化で動かすには約17.4GBが必要です。16GB搭載のMacではスワップが生じて速度が落ちるため、32GB以上のユニファイドメモリを持つMacBook Proが現実的な動作環境になります。
Qwen3.6-27BはQ4_K_M量子化で約16.8GB。RTX 4090(VRAM 24GB)1枚で快適に動作するとされており、Apple Siliconなら36GB以上の構成が目安です。両モデルのメモリ要件はほぼ同水準で、ハードウェア選びに大きな差はありません。
どちらを選ぶか
1ショットでコードを生成する場面や、論理的な整合性が求められるタスクが多ければGemma 4 31Bが向いています。速度が速く、256Kという広いコンテキストも扱いやすいです。
対して、リポジトリ全体を対象にした変更・修正タスクや、エージェントが複数ステップで作業するパイプラインにはQwen3.6-27BのSWE-benchスコアとThinking Preservationが活きます。メモリ要件がほぼ同じなので、ワークフローの性質で選ぶのが合理的です。
まとめ
1ショット生成という条件で速度も品質もGemma 4 31Bが上だったことは、ローカルLLMの用途選びに一つの指針を与えます。速く整合性の高いコードを出せるモデルを探しているなら、Gemma 4 31Bは現状でも有力な選択肢です。Qwen3.6-27Bはエージェント型の連続タスクに強みを持ち、段階的な修正作業では設計上の優位が発揮されやすいモデルです。両モデルともApache 2.0でダウンロードして試せるため、自分の開発環境で実際に動かすのが判断の出発点になります。