AIにブラウザを操作させたいとき、最大の障壁はセレクタの管理です。XPathやCSSセレクタをひとつずつ書き、サイトのレイアウトが変わるたびにスクリプトを修正する。この繰り返しに時間を取られている開発者は少なくありません。

Skyvernは、LLM(大規模言語モデル)とコンピュータビジョンを組み合わせて、Webページを「見て」理解し、自然言語の指示だけでブラウザを操作するオープンソースツールです。GitHubスターは21,000を超え、2026年5月1日にはv1.0.32がリリースされています。

この記事でわかること:

  • Skyvernが従来のブラウザ自動化の何を解決するか
  • SDK・ワークフロービルダーの主要機能
  • インストール方法と基本的な使い方
  • 料金プランと無料枠の内容
  • 他のブラウザ自動化ツールとの設計上の違い

セレクタ依存から脱却する仕組み

従来のブラウザ自動化では、DOM解析とXPathベースの操作が基本でした。この方式はサイトのHTML構造に強く依存するため、レイアウト変更のたびにスクリプトが壊れます。

Skyvernはこの問題を根本から解決します。Vision LLMがページのスクリーンショットを解析し、視覚的な要素とアクションを対応づけます。セレクタを一切書かずに、初めて訪れるサイトでもフォーム入力やボタンクリックを実行できます。

内部ではエージェント群(swarm of agents)がWebサイトの構造を理解し、アクションの計画と実行を分担します。BabyAGIやAutoGPTのタスク駆動型設計に着想を得つつ、Playwrightのブラウザ自動化機能を組み合わせた構成です。

PlaywrightにAIを載せるSDK

SkyvernはPlaywrightの拡張として設計されています。既存のPlaywrightコードをそのまま活かしながら、AI機能を追加できる点が特徴です。

SDKはページオブジェクトに4つのAIコマンドを追加します。page.act(prompt) は自然言語でクリックやフォーム入力などの操作を指示します。page.extract(prompt, schema) はページからJSON形式で構造化データを抽出します。page.validate(prompt) はページの状態を真偽値で判定します。page.prompt(prompt) はLLMに対して任意の質問を投げます。

操作方法は3段階で使い分けられます。従来どおりのCSSセレクタ指定、AIによる自然言語指定、そしてセレクタを先に試してAIにフォールバックするハイブリッド方式です。

# セレクタ指定(従来のPlaywright)
await page.click("#submit-button")

# AI指定(自然言語)
await page.click(prompt="緑色の送信ボタンをクリック")

# ハイブリッド(セレクタ優先、失敗時にAI)
await page.click("#submit-btn", prompt="送信ボタンをクリック")

Python SDKに加え、TypeScript SDKも @skyvern/client として提供されています。

ノーコードのワークフロービルダー

コードを書かずに使いたいケースにも対応しています。SkyvernにはGUIベースのワークフロービルダーが搭載されており、ブラウザタスク・データ抽出・バリデーション・ループ・ファイル解析・メール送信・HTTPリクエストなどのブロックを組み合わせて自動化フローを構築できます。

たとえば、請求書サイトにログインし、特定期間の請求書を一覧取得して、1件ずつダウンロードする——といった一連の流れをワークフローとして保存・再実行できます。

ブラウザ操作中のビューポートをリアルタイム配信するライブストリーミング機能もあり、Skyvernが何をしているかを目視で確認しながらデバッグできます。

セットアップ手順

ローカル環境へのインストールは2ステップで完了します。Python 3.11以上とNode.jsが必要です。

pip install skyvern
skyvern quickstart

skyvern quickstart を実行すると、ローカルサーバーとUIが起動します。v1.0.31以降はSQLiteがデフォルトのデータベースになったため、PostgreSQLの事前セットアップは不要です。ブラウザで http://localhost:8080 を開けば、すぐにタスクを実行できます。

Docker Composeによるコンテナ構成も選べます。PostgreSQL・API・UIをまとめて起動でき、Python/Node.jsのローカルインストールが不要になります。

対応LLMとMCP連携

SkyvernはOpenAI(GPT-5.5、GPT-4.1など)、Anthropic(Claude 4.7 Opus、Claude 4.6など)、Google Gemini、Azure OpenAI、AWS Bedrock、Ollamaによるローカルモデルに対応しています。OpenAI互換のカスタムAPIエンドポイントも利用可能です。

MCP(Model Context Protocol)にも対応しており、MCPをサポートするLLMクライアントからSkyvernの機能を呼び出せます。Zapier・Make.com・n8nとの連携も公式にサポートされており、既存の自動化パイプラインに組み込みやすい設計です。

料金プラン

Skyvern Cloudはクレジット制で、4つのプランがあります。Freeプランは1,000クレジット付きで、クレジットカード不要で始められます。Hobbyプランは月額29ドルで30,000クレジット、Proプランは月額149ドルで150,000クレジットです。Enterpriseプランはカスタム価格で、セルフホスト・HIPAA対応・SOC2 Type II認証が含まれます。

オープンソース版はAGPL-3.0ライセンスで公開されており、セルフホストすればクラウド料金なしで利用できます。ただし、アンチボット対策やCAPTCHAソルバー、プロキシネットワークはクラウド版限定の機能です。

WebBenchでのベンチマーク結果

Skyvernは、ブラウザエージェントの性能を比較するWebBenchベンチマークで64.4%の精度を記録し、現時点でのトップスコアを達成しています。フォーム入力・ログイン・ファイルダウンロードなどのWRITEタスクでは特に高い成績を出しており、RPA(ロボティック・プロセス・オートメーション)用途との相性の良さがわかります。

他のブラウザ自動化ツールとの違い

Playwright MCPやBrowser Harnessなど、AIとブラウザを組み合わせるツールは増えています。Skyvernが異なるのは、Playwrightの拡張として設計されている点です。既存のPlaywrightコードとAI操作を同じスクリプト内で混在させられるため、移行コストが低く抑えられます。

セレクタベースの確実な操作とAIによる柔軟な操作を場面ごとに切り替えられるハイブリッド設計は、完全にAI任せにするリスクを避けたい場面で有効です。ノーコードのワークフロービルダーを備えている点も、開発者以外のチームメンバーとの協業を想定した設計といえます。

導入時の注意点

Skyvernの精度はLLMの性能に依存します。Vision LLMが正しくページを解釈できないケースでは、操作が失敗する可能性があります。複雑なSPAや動的にDOMが変化するサイトでは、セレクタ指定とのハイブリッド運用が現実的です。

LLMのAPI呼び出しコストも考慮が必要です。1回の操作ごとにLLM推論が走るため、大量のページを高速に処理するスクレイピング用途では、従来のセレクタベースの方がコスト効率に優れる場合があります。用途に応じた使い分けが重要です。