Seleniumのセレクターが壊れるたびにスクリプトを修正する手間、もう終わりにできる。
ByteDance(TikTok親会社)と清華大学が共同開発したOSS「UI-TARS Desktop」は、HTMLを一切解析せず、画面のスクリーンショットだけを見て自然言語の指示を実行するGUIエージェントだ。APIを持たない古い業務ソフトでも、コネクタ設定なしに操作できる。GitHubのスター数は2026年5月時点で3万を超え、GUI自動化ベンチマークではClaude Computer Useの2倍以上の性能を記録している。
この記事でわかること:
– UI-TARSが「APIなしで動く」仕組み
– Agent TARSとUI-TARS Desktopの違い
– OSWorldでClaude比2倍以上を出したモデルの実力
– npxコマンド1行での起動手順
– ローカル動作に必要なVRAMの目安
https://github.com/bytedance/UI-TARS-desktop
従来の自動化ツールとの決定的な違い
SeleniumやPlaywrightのような既存のブラウザ自動化ツールは、HTMLのDOMを解析して要素を特定する。UIのデザインが変わるとセレクターが壊れ、その都度スクリプトの修正が必要になる。APIを持たないレガシーなデスクトップアプリは原則として対応できない。
UI-TARSのアプローチはまったく異なる。スクリーンショットだけを入力として受け取り、Vision-Language Model(VLM)で画面を「見て」マウスとキーボードの操作を生成する。HTMLの解析も要素IDの指定も不要だ。この仕組みにより、以下すべてに同じ手順で対応できる。
- レガシーなデスクトップアプリ(ExcelマクロやSAPなど)
- Webブラウザ
- モバイルアプリ(Android/iOS)
- ゲーム
n8nやZapierのようなノーコードツールでは対応できないアプリも、UI-TARSなら画面を見て操作するため制約がない。
2つのコンポーネントを理解する
UI-TARS Desktop リポジトリは実際には2つの独立したプロダクトを含んでいる。
Agent TARSは、CLIとWeb UIで使えるマルチモーダルエージェントスタックだ。ターミナル、ブラウザ、外部MCPサーバーを組み合わせたタスク実行を担う。MCP統合がコアに組み込まれており、GitHubやSlackなど既存のMCPツールをそのまま接続できる。
UI-TARS Desktopは、ローカルPCを直接操作するデスクトップネイティブアプリだ。Vision-Language Model(UI-TARSモデルまたはSeed-1.5-VLシリーズ)を使い、マウスとキーボードを自然言語で動かす。ローカルPCだけでなくリモートPCおよびリモートブラウザの操作にも対応している。
モデルの性能
現時点での最新モデルはUI-TARS 2(2025年9月)で、532Mの視覚エンコーダーと23Bのアクティブパラメータを持つMoE構造(総量230B)だ。
GUIエージェントの標準ベンチマーク「OSWorld」でのスコアを比較すると、UI-TARS 2は47.5%を記録した。Claude Computer Useの22.0%、OpenAI Operatorの38.1%をいずれも上回る。モバイル自動化を測るAndroidWorldでは73.3%、座標予測の精度を測るScreenSpot-V2では94.2%に達している。
料金・ライセンス
Apache License 2.0のもとで公開されており、商用利用を含めて無料で使える。
クラウドのLLMプロバイダー(Anthropic、OpenAIなど)のAPIキーを使う場合は、そのAPI料金だけがかかる。ローカルのUI-TARSモデルを使えばランニングコストはゼロだ。
使い方
Agent TARSをすぐ試す
Node.js 22以上があれば、インストールなしで起動できる。
npx @agent-tars/cli@latest
AnthropicなどのAPIキーで使う場合はプロバイダーと鍵を指定する。
agent-tars --provider anthropic --model claude-3-7-sonnet-latest --apiKey YOUR_KEY
ローカルモデルで使う
VRAMがあれば完全オフラインで動かせる。vLLMでUI-TARSモデルのサーバーを立て、Agent TARSからローカルエンドポイントに接続する。
# vLLMでモデルを起動
python -m vllm.entrypoints.openai.api_server \
--model ByteDance-Seed/UI-TARS-1.5-7B \
--trust-remote-code \
--port 8000
# Agent TARSをローカルエンドポイントに接続
agent-tars --provider local --model UI-TARS-1.5-7B --endpoint http://localhost:8000
VRAMの目安(UI-TARS-1.5-7B):FP16で約14GB、INT4量子化で約4GBが必要だ。RTX 4060(8GB)なら量子化モデルで動作し、RTX 4090(24GB)ならフル精度で動かせる。
UI-TARS Desktopアプリ
GitHubリリースページからインストーラーをダウンロードしてインストールする。起動後にAIモデルを設定するだけで、デスクトップ上に自然言語でタスクを入力できる。v0.2.0以降はリモートPCとリモートブラウザの操作も無料で使えるようになった。
類似ツールとの違い
| UI-TARS | Claude Computer Use | OpenAI Operator | |
|---|---|---|---|
| オープンソース | Apache 2.0 | × | × |
| ローカル実行 | ○ | × | × |
| デスクトップ操作 | フル対応 | 対応 | 限定的 |
| モバイル操作 | ○ | 限定的 | × |
| オフライン動作 | ○ | × | × |
| 料金 | 無料(自己ホスト) | API従量課金 | Pro: $200/月〜 |
クラウドのコンピューター操作エージェントはスクリーンショットが外部サーバーに送信される。UI-TARSをローカルモデルで使えば、画面の内容がネットワーク外に出ない。社内ソフトや機密データを扱う業務の自動化に向いている。
利用上の注意
UI-TARSはマウスとキーボードへのフルアクセスを持つ。タスクの実行中に意図しない操作が発生するリスクがある。センシティブな操作を自動化する場合は仮想マシン内で動かすか、操作を行う前に確認ステップを挟む設計が推奨されている。
まとめ
UI-TARSはHTMLの解析に頼らず、視覚認識だけでGUI操作を実現する。APIを持たないレガシーソフトの自動化、完全オフライン処理、コスト不要の自動化といった用途で既存ツールにない選択肢を提供する。npx @agent-tars/cli@latest で即座に試せるので、まず動かしてみるのが一番の近道だ。