AIアシスタントがテキストで答えるだけでなく、PCを直接操作して仕事をこなす時代が来た。
xAIが開発する「Grok Computer」は、画面を認識してマウスを動かし、キーボードを叩き、アプリを横断しながらタスクを自律的にこなすPCエージェントだ。2026年4月13日にプライベートベータが開始し、現在は公開ベータへの移行が進んでいる。
この記事でわかること:
- Grok Computerが解決する課題と主な機能
- PCを操作可能にする2層アーキテクチャの仕組み
- Claude Computer UseやOpenAI Operatorとの違い
- 現在の利用方法と今後のロードマップ
AIアシスタントの「壁」を超える
従来のAIアシスタントはテキストで指示を受け、テキストで答えを返す。しかし「データを調べてスプレッドシートにまとめてメールで送る」という一連の作業は、最終的に人間がアプリを操作しなければ完結しない。
Grok Computerはこの制約を取り除く。画面全体をリアルタイムで認識し、マウスとキーボードを制御して、ブラウザ・オフィスソフト・ターミナルなどあらゆるアプリを自律的に操作する。APIを必要としないため、ピクセルを読む形式で動作し、2000年代の古いソフトウェアにも対応する。
主な機能
Grok Computerが対応する主なタスクは次の通りだ。
アプリケーションの操作: ブラウザ、オフィスソフト、ターミナル、デザインツールなど、インストール済みの任意のソフトウェアを開いて操作する。
複数ステップのワークフロー実行: 「データを調べて → スプレッドシートに整理して → レポートをフォーマットして → メールで送信する」といった一連の処理を中断なく実行する。
フォーム入力・データ登録: WebフォームやデスクトップアプリのUI要素を読み取り、データを入力・送信する。
ソフトウェアテスト: UIを操作してバグを検出し、テストレポートを自動生成する。
リアルタイムの画面認識は、直近5秒間の映像を継続的に処理することで実現している。ボタンやフォームの位置をピクセル単位で把握し、状況に応じて次のアクションを判断する仕組みだ。
2層アーキテクチャ「Grok + Digital Optimus」
Grok Computerの内部は、認知科学の二重過程理論(ダニエル・カーネマンの『ファスト&スロー』)を参考にした2層構成で動作する。
上位層がGrok(System 2)だ。ユーザーの指示を解釈し、タスクを細かいステップに分解して「何をすべきか」を決定する戦略的思考担当であり、現在はGrok 4.20 Beta 2が担っている。
下位層がDigital Optimus(System 1)だ。Grokの指示を受け取り、マウス操作・クリック・スクロール・テキスト入力などを実際に実行する。Teslaが開発したAI4チップ(300テラOPS、1個650ドル)で動作し、サブ秒レベルの反応速度を実現する。
Musk自身はこの構造を「GrokがマスターコンダクターとなりDigital Optimusを指揮する」と説明している。TeslaのFSDがカメラとニューラルネットで実際の道路をナビゲートするように、Grok Computerはスクリーンキャプチャとニューラルネットでデジタルの画面をナビゲートする構図だ。
「Macrohard」プロジェクトの入口
Grok Computerは単独製品ではなく、Macrohardと名付けられた大規模プロジェクトの消費者向けプレビューとして位置づけられている。Macrohard(マクロハード)という名称はMicrosoft(マイクロ=小さい)を意識的に逆手に取ったものだ。
2026年3月11日にMuskが正式発表したMacrohardは、Tesla・xAIの共同ベンチャーであり、Teslaが20億ドルをxAIへ投資している。目標は、メール対応・データ入力・レポート生成・ソフトウェアテスト・カスタマーサービスといった反復的なデスクワークをAIが代替することだ。
物理的な労働を担うTesla Optimus(ヒューマノイドロボット)と、デジタル労働を担うDigital Optimus(Grok Computer)を組み合わせて、「働く」という概念全体を再定義しようとする構想になっている。
さらにTeslaは、全国のスーパーチャージャーステーションをAI演算拠点に転用する計画も進める。充電中の車両や専用ユニットでDigital Optimusのタスクを処理するという設計で、最大7GW相当の電力インフラをコンピューティングに活用する。AI4チップ1個650ドルという低コストで大量展開できる点が、クラウド型の競合と異なる強みだ。
競合との違い
PC操作AIエージェントは2026年に入り、複数の大手が相次いで参入したカテゴリだ。AnthropicはClaude Computer Useを2026年3月23日に正式リリースし、OpenAIはOperatorを提供している。PerplexityのPersonal ComputerやMetaのManusも同カテゴリに並ぶ。
Grok Computerが差別化を図るのは、TeslaのAI4チップとスーパーチャージャーネットワークによるインフラ面だ。ソフトウェアエージェントと自社ハードウェアを一体開発する戦略は、AppleのシリコンとmacOSの関係に近い。
ただし、現時点の能力についてMuskは「Claude Opus 4.6に急速に接近している」と述べているものの、独立したベンチマーク検証はまだ行われていない。実際の性能評価は公開ベータのフィードバックが蓄積されてから明らかになる。
利用方法と今後のロードマップ
2026年5月現在、Grok Computerは公開ベータ段階にある。プライベートベータはSuperGrok(月額30ドル)のサブスクライバーと選定された開発者を対象に始まり、その後一般ユーザーへの展開が進んでいる。
今後のロードマップは次の通りだ。
- Grok 5連携(Q2 2026予定): 6兆パラメータのMixture-of-Expertsモデルとの統合で、複雑なワークフローへの対応能力が大幅に向上する見込み
- Macrohard完全展開(2026年9月目標): AI4チップ搭載のTesla車両と全国スーパーチャージャーユニットでの稼働開始
現状はSuperGrokの月額30ドルで試せる状態だが、全機能の一般提供時期は未定だ。
「テキストで答えるAI」の次へ
Grok Computerは、AIが人間の代わりにPCを操作するという概念を現実のプロダクトとして提供し始めた。TeslaのハードウェアとxAIのソフトウェアを組み合わせたインフラ戦略は、クラウドAPIだけで戦う競合との明確な差になる可能性がある。公開ベータの段階であり独立した評価はこれからだが、AIエージェントがデスクワークそのものを担う未来が現実に近づいていることは確かだ。