UI-TARS：APIなしで任意アプリを操作するGUI自動化OSSの始め方

Seleniumのセレクターが壊れるたびにスクリプトを修正する手間、もう終わりにできる。

ByteDance（TikTok親会社）と清華大学が共同開発したOSS「UI-TARS Desktop」は、HTMLを一切解析せず、画面のスクリーンショットだけを見て自然言語の指示を実行するGUIエージェントだ。APIを持たない古い業務ソフトでも、コネクタ設定なしに操作できる。GitHubのスター数は2026年5月時点で3万を超え、GUI自動化ベンチマークではClaude Computer Useの2倍以上の性能を記録している。

この記事でわかること：
– UI-TARSが「APIなしで動く」仕組み
– Agent TARSとUI-TARS Desktopの違い
– OSWorldでClaude比2倍以上を出したモデルの実力
– npxコマンド1行での起動手順
– ローカル動作に必要なVRAMの目安

https://github.com/bytedance/UI-TARS-desktop

従来の自動化ツールとの決定的な違い

SeleniumやPlaywrightのような既存のブラウザ自動化ツールは、HTMLのDOMを解析して要素を特定する。UIのデザインが変わるとセレクターが壊れ、その都度スクリプトの修正が必要になる。APIを持たないレガシーなデスクトップアプリは原則として対応できない。

UI-TARSのアプローチはまったく異なる。スクリーンショットだけを入力として受け取り、Vision-Language Model（VLM）で画面を「見て」マウスとキーボードの操作を生成する。HTMLの解析も要素IDの指定も不要だ。この仕組みにより、以下すべてに同じ手順で対応できる。

レガシーなデスクトップアプリ（ExcelマクロやSAPなど）
Webブラウザ
モバイルアプリ（Android/iOS）
ゲーム

n8nやZapierのようなノーコードツールでは対応できないアプリも、UI-TARSなら画面を見て操作するため制約がない。

2つのコンポーネントを理解する

UI-TARS Desktop リポジトリは実際には2つの独立したプロダクトを含んでいる。

Agent TARSは、CLIとWeb UIで使えるマルチモーダルエージェントスタックだ。ターミナル、ブラウザ、外部MCPサーバーを組み合わせたタスク実行を担う。MCP統合がコアに組み込まれており、GitHubやSlackなど既存のMCPツールをそのまま接続できる。

UI-TARS Desktopは、ローカルPCを直接操作するデスクトップネイティブアプリだ。Vision-Language Model（UI-TARSモデルまたはSeed-1.5-VLシリーズ）を使い、マウスとキーボードを自然言語で動かす。ローカルPCだけでなくリモートPCおよびリモートブラウザの操作にも対応している。

モデルの性能

現時点での最新モデルはUI-TARS 2（2025年9月）で、532Mの視覚エンコーダーと23Bのアクティブパラメータを持つMoE構造（総量230B）だ。

GUIエージェントの標準ベンチマーク「OSWorld」でのスコアを比較すると、UI-TARS 2は47.5%を記録した。Claude Computer Useの22.0%、OpenAI Operatorの38.1%をいずれも上回る。モバイル自動化を測るAndroidWorldでは73.3%、座標予測の精度を測るScreenSpot-V2では94.2%に達している。

料金・ライセンス

Apache License 2.0のもとで公開されており、商用利用を含めて無料で使える。

クラウドのLLMプロバイダー（Anthropic、OpenAIなど）のAPIキーを使う場合は、そのAPI料金だけがかかる。ローカルのUI-TARSモデルを使えばランニングコストはゼロだ。

使い方

Agent TARSをすぐ試す

Node.js 22以上があれば、インストールなしで起動できる。

npx @agent-tars/cli@latest

AnthropicなどのAPIキーで使う場合はプロバイダーと鍵を指定する。

agent-tars --provider anthropic --model claude-3-7-sonnet-latest --apiKey YOUR_KEY

ローカルモデルで使う

VRAMがあれば完全オフラインで動かせる。vLLMでUI-TARSモデルのサーバーを立て、Agent TARSからローカルエンドポイントに接続する。

# vLLMでモデルを起動
python -m vllm.entrypoints.openai.api_server \
    --model ByteDance-Seed/UI-TARS-1.5-7B \
    --trust-remote-code \
    --port 8000

# Agent TARSをローカルエンドポイントに接続
agent-tars --provider local --model UI-TARS-1.5-7B --endpoint http://localhost:8000

VRAMの目安（UI-TARS-1.5-7B）：FP16で約14GB、INT4量子化で約4GBが必要だ。RTX 4060（8GB）なら量子化モデルで動作し、RTX 4090（24GB）ならフル精度で動かせる。

UI-TARS Desktopアプリ

GitHubリリースページからインストーラーをダウンロードしてインストールする。起動後にAIモデルを設定するだけで、デスクトップ上に自然言語でタスクを入力できる。v0.2.0以降はリモートPCとリモートブラウザの操作も無料で使えるようになった。

類似ツールとの違い

	UI-TARS	Claude Computer Use	OpenAI Operator
オープンソース	Apache 2.0	×	×
ローカル実行	○	×	×
デスクトップ操作	フル対応	対応	限定的
モバイル操作	○	限定的	×
オフライン動作	○	×	×
料金	無料（自己ホスト）	API従量課金	Pro: $200/月〜

クラウドのコンピューター操作エージェントはスクリーンショットが外部サーバーに送信される。UI-TARSをローカルモデルで使えば、画面の内容がネットワーク外に出ない。社内ソフトや機密データを扱う業務の自動化に向いている。

利用上の注意

UI-TARSはマウスとキーボードへのフルアクセスを持つ。タスクの実行中に意図しない操作が発生するリスクがある。センシティブな操作を自動化する場合は仮想マシン内で動かすか、操作を行う前に確認ステップを挟む設計が推奨されている。

まとめ

UI-TARSはHTMLの解析に頼らず、視覚認識だけでGUI操作を実現する。APIを持たないレガシーソフトの自動化、完全オフライン処理、コスト不要の自動化といった用途で既存ツールにない選択肢を提供する。npx @agent-tars/cli@latest で即座に試せるので、まず動かしてみるのが一番の近道だ。