ブラウザ操作を自動化するAIは大型モデルが前提、というのが長らくの常識だった。MicrosoftはFara-7Bでその前提を崩した。
MicrosoftのAI研究部門「AI Frontiers」が公開したFara-7Bは、7Bパラメータ規模でありながら、ブラウザを視覚的に認識してクリックや入力を自律的に行うコンピューター操作AIだ。MIT LicenseでGitHubに公開されており、手元のGPUやAzure Foundryで動かせる。
この記事でわかること
- Fara-7Bが解決する「コンピューター操作AIの重さ問題」
- 145,000件の合成トレーニングデータを生成したFaraGenの仕組み
- WebVoyager、WebTailBenchでの実際の性能数値
- ローカルでの動かし方(vLLM / LM Studio / Azure Foundry)
https://github.com/microsoft/fara
大型モデルに頼らずブラウザを操作する
従来のコンピューター操作AI(CUA)はGPT-4oなど大規模モデルを使うことが多く、クラウドAPIへの依存と推論コストが課題だった。ブラウザ上の操作1回ごとにAPIリクエストが発生し、1タスクあたり平均41ステップを要するモデルもある。
Fara-7BはQwen2.5-VL-7Bをベースに、ブラウザ操作に特化したファインチューニングを施したモデルだ。スクリーンショットを直接見て、クリック座標を予測してアクションを実行する。アクセシビリティツリーのような補助構造を必要とせず、平均16ステップでタスクを完了する。7Bという小さいサイズのため、ローカルGPUへのデプロイも現実的な選択肢になった。
合成データ145,000件で訓練したFaraGen
性能の鍵はトレーニングデータの質にある。MicrosoftはFaraGenと呼ぶ合成データ生成パイプラインを独自に開発し、145,000件のウェブ操作トラジェクトリを生成した。
パイプラインはMagentic-Oneというマルチエージェントフレームワークで動作する。ショッピングサイト、旅行予約、求人ボード、チケット販売など多様なウェブサイトを対象に、タスクを自動生成して実行を試み、成功したトラジェクトリのみを学習データとして選別する。コストのかかるデータ生成は訓練時のみで、完成したFara-7Bは単一モデルとして動作する。
Microsoftはこれと同時に、WebTailBenchというベンチマークも公開した。ショッピング・フライト・ホテル・レストラン・チケット・不動産・求人など11カテゴリ、計609タスクで構成され、既存のベンチマークでカバーされていなかった現実的なタスクを評価できる。
他のコンピューター操作AIとの比較
WebVoyagerとWebTailBenchの結果で、Fara-7Bは同規模モデルのなかで最高スコアを記録している。
| モデル | パラメータ | WebVoyager | WebTailBench |
|---|---|---|---|
| SoM Agent (GPT-4o-0513) | — | 90.6% | 60.4% |
| SoM Agent (o3-mini) | — | 79.3% | 52.7% |
| Fara-7B | 7B | 73.5% | 38.4% |
| OpenAI computer-use-preview | — | 70.9% | 25.7% |
| UI-TARS-1.5-7B | 7B | 66.4% | 19.5% |
GPT-4oを使うSoM AgentはFara-7Bより上だが、APIコストと推論速度の差が大きい。同じ7Bクラスで比べるとWebTailBenchでUI-TARS-1.5-7Bと約2倍の差があり、ローカル実行できることを踏まえるとコストパフォーマンス面で実用的な選択肢になる。
ローカルで動かす手順
GitHubリポジトリからクローンし、Playwrightをセットアップする。
git clone https://github.com/microsoft/fara.git
cd fara
python3 -m venv .venv
source .venv/bin/activate
pip install -e .
playwright install
モデルはvLLMでサーブする。24GB以上のVRAMを持つGPUが必要だ。
vllm serve "microsoft/Fara-7B" --port 5000 --dtype auto
その後、CLIからタスクを指定するだけで動作する。
fara-cli --task "what's the weather in new york now"
GPUがない場合はAzure Foundryにデプロイするか、LM StudioやOllamaでGGUF版を使う選択肢もある。Windowsでの実行はWSL2が推奨されている。Magentic-UIというMicrosoftのリサーチ用UIからも利用でき、ブラウザベースの画面でFara-7Bの動作を確認できる。
注意事項
公式READMEでは「サンドボックス環境で実行し、実行内容を監視すること」「機密データや高リスクなドメインでの使用は避けること」と明記されている。Experimentalリリースのため、プロダクション用途には慎重な評価が必要だ。
WebTailBenchのタスクの一部(航空会社、小売、チケット販売など)はボット検知が機能するため、素のPlaywrightでは弾かれることがある。Microsoftは評価時にBrowserBaseを使ってこの問題に対処している。
まとめ
Fara-7Bは7Bという小型モデルでブラウザ操作の高い精度を実現し、MIT LicenseでGitHubに公開されている点が最大の特徴だ。ローカルGPUまたはAzure Foundry上で動かせるため、APIコストを気にせずコンピューター操作AIを試したい開発者に向く。WebTailBenchの公開により、自前のエージェントを評価する共通基盤としても活用できる。