PRごとにAIが実機テスト Builder.io新QAツールの実力

AIコーディングツールの普及で、チームのコード出力量は増え続けています。しかし、コードレビューツールがdiffを読むだけで、実際にブラウザを開いてボタンを押すことはありません。「動かして確認する」工程は、依然として人手に頼っています。

Builder.ioが2026年4月30日にリリースしたQuality Review Agentは、PRが開かれるたびにAIエージェントが実際のブラウザでプロダクトを操作し、動作を検証するツールです。コードレビューだけでは見つからないUIのバグを、マージ前に自動で洗い出します。

この記事でわかること

Quality Review AgentがPRごとに何をテストするか
バグ発見からワンクリック修正までの流れ
リプレイ機能によるデバッグの仕組み
QA Wolf・QA.techなど競合ツールとの違い

コードレビューだけでは見つからないバグ

Announcing Quality Review Agent: Agentic QA on Every PR

Quality Review Agent opens your product in a real browser on every PR and uses it like a customer would. Pairs with code…

Builder.io

既存のコードレビューツール（CodeRabbitやQodoなど）はdiffを静的に分析します。変数名の誤りやロジックの矛盾には強い一方、「ボタンを押したら画面が崩れる」「フォーム送信後にエラーが出る」といったUIの不具合は検出できません。

Quality Review Agentは、この隙間を埋めるツールです。PRのタイトル・説明文・diffを読み取り、変更内容に関連するフローを特定した上で、ブラウザ上でクリック・入力・画面遷移を自動実行します。

3層構造のテストカバレッジ

テストはクリティカルフロー、エッジケース、リグレッションの3層で構成されています。

クリティカルフローは、変更したコードが意図通り動くかを確認するハッピーパスのテストです。エッジケースでは、空の入力・不正な値・レート制限・エラーパスなど、通常のテストで見落としやすい境界条件をカバーします。リグレッションでは、変更が周辺の既存機能を壊していないかを検証します。たとえばダッシュボードのフィルターを修正した場合、そのフィルターに依存するグラフ表示まで再テストが走ります。

エージェントがテスト対象を決める根拠は、PRのdiffです。変更されたコードの影響範囲を自動で判定し、人間が「ここもテストして」と指示する必要はありません。

バグ発見からワンクリック修正まで

テスト完了後、発見した問題の一覧がPRにコメントとして投稿されます。各バグには「Fix in Builder」ボタンが付いており、クリックすると自然言語で修正内容を指示できます。エージェントに修正を任せることも可能です。修正コードは同じPRにプッシュされ、再テストが自動で走ります。

重要度による制御も組み込まれています。高重要度の問題はマージをブロックし、中程度の問題はレビュアーの承認を要求します。人間がレビューする前に、機械的に潰せるバグはすべてエージェントが処理する設計です。

リプレイ機能で原因を特定

バグが見つかったテストには、エージェントの操作を録画したリプレイが付きます。再生画面にはエージェントの推論ログ、ネットワークコール、コンソール出力の3パネルがタイムラインに同期して表示されます。

推論ログには各ステップで何をしたか、なぜそうしたかが記録されています。ネットワークパネルではエージェントがトリガーしたHTTPリクエストを確認でき、コンソールパネルにはページ上のログやエラーが時系列で並びます。

フレーム単位のスクラブに対応しており、バグが発生した瞬間にジャンプすれば、そのフレームでのネットワークリクエストとコンソールエラーを同時に確認できます。全体を俯瞰したいときは8倍速再生が使えます。

対応プラットフォームと今後の展開

現時点ではGitHub PRのみに対応しています。GitLab、Bitbucket、Azure DevOpsへの対応は開発中です。

今後のアップデートとして、PRを開く前のローカルブランチでテストを実行する機能が予告されています。Claude Code、Codex、Cursorなど主要なAIコーディングツールからテストを起動し、バグレポートと修正コマンドを受け取れるようになる予定です。実現すれば、PRを出す前にバグを潰せるワークフローが整います。

競合ツールとの違い

AIを使ったQAツールは増えていますが、アプローチが異なります。

QA Wolfは自然言語からPlaywrightやAppiumのテストコードを生成し、CI/CDで実行する方式です。テストの資産としてコードが残る利点がありますが、PRの変更内容を読み取ってテスト範囲を自動決定する機能はありません。

QA.techはエージェントがDOM構造ではなく画面を視覚的に認識してテストを行います。UIの変更にテストが壊れにくい強みがある一方、PR単位の統合はCodeRabbitなど外部ツールとの組み合わせが前提です。

Quality Review Agentの特徴は、PRのdiffを読む→テスト対象を自動決定→ブラウザで実行→結果をPRに投稿→ワンクリック修正という一連の流れが1つのツールで完結する点です。テストコードの管理が不要で、PRを開くだけでQAが回り始めます。

コードの出力速度にQAを追いつかせる

2026年に入り、AIが生成するコードの割合は40%を超えたとする調査もあります。コードを書く速度が上がるほど、テスト工程がボトルネックになります。Quality Review AgentはGitHub PRから無料で導入でき、セットアップ後すぐにテストが回り始めます。テストの属人化やリリース前の手動確認に課題を感じているチームにとって、試す価値のあるツールです。