Copilot CLIのRubber Duck｜異なるAIモデルでコードレビューする新機能

GitHub Copilot CLIに、AIが生成したコードを別のAIモデルにレビューさせる実験的機能「Rubber Duck」が登場しました。

「AIのコード生成は便利だけど、見落としやハルシネーションが怖い」。こうした課題に対し、異なるモデルファミリーによるクロスレビューという新しいアプローチで応えます。

この記事でわかること

Rubber Duckとは何か

Rubber Duckは、Copilot CLIのメインモデルとは別のAIファミリーのモデルをレビュアーとして使う機能です。名前の由来は「ラバーダックデバッグ」。プログラマーがゴム製のアヒルにコードを説明することで問題を発見するデバッグ手法から取られています。

具体的には、メインモデルにClaudeを選択するとGPT-5.4がレビュアーになります。同じファミリー内のモデルでは似た傾向の見落としが起きやすいため、意図的に異なるファミリーを組み合わせている点がポイントです。

AIコーディングエージェントの弱点は、自分の出力を客観的に検証できないことです。単一モデルで生成とレビューの両方を行うと、同じバイアスが再現されやすくなります。

Rubber Duckはこの問題に対し、異なるモデルファミリーの視点を導入します。GitHubの検証では、以下のようなバグを実際に検出しています。

いずれも単一モデルでは見逃しやすい、ファイル横断的な問題です。

Rubber Duckは以下の3つのチェックポイントで自動的に起動します。

自動チェックポイントに加え、ユーザーが「作業を批評して」と指示すれば、任意のタイミングでも呼び出せます。Copilotがフィードバックを取り込み、何が変わったかを表示してくれます。

GitHubはSWE-Bench Pro（実世界のOSSリポジトリから抽出した大規模コーディング問題集）で評価を行いました。

構成	性能
Claude Sonnet 4.6 単体	ベースライン
Claude Sonnet 4.6 + Rubber Duck（GPT-5.4）	Sonnet→Opus間の性能差の74.7%を解消
Claude Opus 4.6 単体	最高性能

難易度が高い問題ほど効果は顕著です。3ファイル以上・70ステップ以上を要する問題では、Sonnet単体比で3.8%解決率が向上。最難関の問題群では4.8%の向上を記録しています。

つまり、Sonnetの料金でOpusに近い精度を得られる可能性があるということです。

有効化の手順はシンプルです。

/experimental on を実行すると RUBBER_DUCK_AGENT を含む実験的フラグがすべて有効になります。

Rubber Duck自体に個別の料金設定はありません。Copilot CLIの利用はプレミアムリクエストとしてカウントされます。各プランのプレミアムリクエスト枠は以下の通りです。

枠を超えた場合は1リクエストあたり$0.04が課金されます。Rubber Duckは内部的に2つのモデルを使うため、通常のCLI利用よりリクエスト消費が多くなる点は留意が必要です。

Copilot CLIのRubber Duckは、エージェント内蔵のクロスモデルレビュー機能です。Claude CodeやCursorなど他のAIコーディングツールには、現時点で同等の仕組みはありません。

ただし、概念としては新しくありません。ユーザーが手動で「Claude Codeの出力をChatGPTにレビューさせる」といった運用は以前から行われていました。Rubber Duckはこのワークフローを自動化し、最適なタイミングで発動させる点に価値があります。

Rubber Duckは「異なるAIモデルによるセカンドオピニオン」という明快なコンセプトの機能です。単一モデルの盲点を補い、特に複雑なマルチファイルタスクで高い効果を発揮します。

現在は実験的機能のため、今後モデルの組み合わせが増える可能性もあります。Copilot CLIユーザーは /experimental で試してみる価値があるでしょう。