GitHub Copilot CLIに、AIが生成したコードを別のAIモデルにレビューさせる実験的機能「Rubber Duck」が登場しました。

「AIのコード生成は便利だけど、見落としやハルシネーションが怖い」。こうした課題に対し、異なるモデルファミリーによるクロスレビューという新しいアプローチで応えます。

この記事でわかること

  • Rubber Duckの仕組みと使い方
  • ベンチマークで示された具体的な性能向上
  • 料金プランと利用条件

Rubber Duckとは何か

Rubber Duckは、Copilot CLIのメインモデルとは別のAIファミリーのモデルをレビュアーとして使う機能です。名前の由来は「ラバーダックデバッグ」。プログラマーがゴム製のアヒルにコードを説明することで問題を発見するデバッグ手法から取られています。

具体的には、メインモデルにClaudeを選択するとGPT-5.4がレビュアーになります。同じファミリー内のモデルでは似た傾向の見落としが起きやすいため、意図的に異なるファミリーを組み合わせている点がポイントです。

どんな課題を解決するのか

AIコーディングエージェントの弱点は、自分の出力を客観的に検証できないことです。単一モデルで生成とレビューの両方を行うと、同じバイアスが再現されやすくなります。

Rubber Duckはこの問題に対し、異なるモデルファミリーの視点を導入します。GitHubの検証では、以下のようなバグを実際に検出しています。

  • 非同期スケジューラのアーキテクチャ欠陥
  • ループ内での辞書キー上書きバグ
  • 複数ファイル間のRedis読み書き不整合

いずれも単一モデルでは見逃しやすい、ファイル横断的な問題です。

レビューが発動する3つのタイミング

Rubber Duckは以下の3つのチェックポイントで自動的に起動します。

  1. 計画作成後 — 初期段階の方針ミスが後続の実装エラーに波及するのを防ぐ。最も効果が高いポイント
  2. 複雑な実装後 — エッジケースの見落としを検出する
  3. テスト作成後・実行前 — テストカバレッジの不備を事前に指摘する

自動チェックポイントに加え、ユーザーが「作業を批評して」と指示すれば、任意のタイミングでも呼び出せます。Copilotがフィードバックを取り込み、何が変わったかを表示してくれます。

ベンチマーク結果:Sonnet + Rubber DuckでOpusに迫る

GitHubはSWE-Bench Pro(実世界のOSSリポジトリから抽出した大規模コーディング問題集)で評価を行いました。

構成 性能
Claude Sonnet 4.6 単体 ベースライン
Claude Sonnet 4.6 + Rubber Duck(GPT-5.4) Sonnet→Opus間の性能差の74.7%を解消
Claude Opus 4.6 単体 最高性能

難易度が高い問題ほど効果は顕著です。3ファイル以上・70ステップ以上を要する問題では、Sonnet単体比で3.8%解決率が向上。最難関の問題群では4.8%の向上を記録しています。

つまり、Sonnetの料金でOpusに近い精度を得られる可能性があるということです。

使い方

有効化の手順はシンプルです。

  1. GitHub Copilot CLIをインストールする
  2. CLIで /experimental スラッシュコマンドを実行する
  3. モデルピッカーからClaudeモデルを選択する
  4. GPT-5.4へのアクセス権限があることを確認する

/experimental on を実行すると RUBBER_DUCK_AGENT を含む実験的フラグがすべて有効になります。

料金:追加費用なしで使える?

Rubber Duck自体に個別の料金設定はありません。Copilot CLIの利用はプレミアムリクエストとしてカウントされます。各プランのプレミアムリクエスト枠は以下の通りです。

プラン 月額 プレミアムリクエスト
Free $0 50回/月
Pro $10 300回/月
Pro+ $39 1,500回/月
Business $19/ユーザー 300回/ユーザー/月
Enterprise $39/ユーザー 1,000回/ユーザー/月

枠を超えた場合は1リクエストあたり$0.04が課金されます。Rubber Duckは内部的に2つのモデルを使うため、通常のCLI利用よりリクエスト消費が多くなる点は留意が必要です。

Claude Code など他ツールとの違い

Copilot CLIのRubber Duckは、エージェント内蔵のクロスモデルレビュー機能です。Claude CodeやCursorなど他のAIコーディングツールには、現時点で同等の仕組みはありません。

ただし、概念としては新しくありません。ユーザーが手動で「Claude Codeの出力をChatGPTにレビューさせる」といった運用は以前から行われていました。Rubber Duckはこのワークフローを自動化し、最適なタイミングで発動させる点に価値があります。

まとめ

Rubber Duckは「異なるAIモデルによるセカンドオピニオン」という明快なコンセプトの機能です。単一モデルの盲点を補い、特に複雑なマルチファイルタスクで高い効果を発揮します。

現在は実験的機能のため、今後モデルの組み合わせが増える可能性もあります。Copilot CLIユーザーは /experimental で試してみる価値があるでしょう。