中国のAI企業Z.ai(智譜AI)が、長時間のコーディングタスク向けフラッグシップモデル「GLM 5.2」を公開しました。100万トークンのコンテキストとMITライセンスのオープンウェイトを備え、Terminal-Bench 2.1で81.0点を記録しています。本記事では、公式ベンチマークの意味と、Cursorでの導入手順を整理します。
この記事でわかること
- GLM 5.2の性能と前モデル・クローズドモデルとの位置づけ
- OpenRouter経由とZ.ai直結の2通りのCursor設定手順
- 導入時に知っておくべき制約と注意点
GLM 5.2とは何が変わったか
GLM 5.2は、Z.aiが2026年6月に公開したMixture-of-Experts(MoE)型の大規模言語モデルです。総パラメータ数は7440億、1トークンあたりのアクティブパラメータは400億に相当します。前モデルGLM 5.1からの最大の進化は、100万トークン(1M)のコンテキストを実用レベルで維持できる点です。
ライセンスはMITで、Hugging FaceとModelScopeからウェイトを取得できます。商用利用・ファインチューニング・セルフホストに地域制限はありません。vLLM、SGLang、Transformersなど主要な推論フレームワークに対応しています。
アーキテクチャ面では、IndexShareと呼ばれる仕組みでスパースアテンション層の計算コストを削減しています。1Mコンテキスト時のトークンあたりFLOPsは2.9倍減少し、推論の受容長は最大20%伸びています。推論の深さはHighとMaxの2段階から選べます。
コーディング性能はどこまで届くか
Z.aiの公式ブログが公開したベンチマークでは、GLM 5.2はオープンウェイトモデルの中で最も高いコーディングスコアを示しています。
| ベンチマーク | GLM 5.2 | GLM 5.1 | Claude Opus 4.8 | GPT-5.5 |
|---|---|---|---|---|
| Terminal-Bench 2.1 | 81.0 | 63.5 | 85.0 | 84.0 |
| SWE-bench Pro | 62.1 | 58.4 | 69.2 | 58.6 |
| FrontierSWE | 74.4 | 30.5 | 75.1 | 72.6 |
Terminal-Bench 2.1ではOpus 4.8との差は4ポイント、GPT-5.5を1ポイント上回ります。SWE-bench Proでも前モデルから3.7ポイント改善し、GPT-5.5を3.5ポイント上回っています。長時間タスク向けのFrontierSWEではOpus 4.8に1ポイント差で続き、オープンソースモデルとしては最高位です。
OpenRouterのベンチマーク集計では、Artificial Analysis Intelligence Indexが51.1、Coding Indexが68.8と報告されています。オープンルーター上の全モデルと比較して、それぞれ上位15%・14%に位置づけられます。
料金はどのくらいか
API経由で使う場合、OpenRouterの標準料金は入力$1.20/100万トークン、出力$4.10/100万トークンです。プロンプトキャッシュを活用すると実効入力単価は$0.55前後まで下がります。Z.aiのGLM Coding Planでは、ピーク時間帯(UTC+8の14:00〜18:00)にクォータ消費が3倍、オフピークは2倍になります。2026年9月末まではオフピークを1倍で提供するキャンペーンが続いています。
Cursorで使う前に知ること
Cursorでカスタムモデルを追加するには、Proプラン以上が必要です。Cursor公式フォーラムでは、OpenRouterは公式サポート対象外と明記されています。Override OpenAI Base URLでOpenRouterを設定すると、リクエスト形式の不一致やツール呼び出しエラーが起きやすい状態です。
一方、Z.aiのOpenAI互換エンドポイントを直接使う方法は、Cursorスタッフが推奨する公式ルートに近い運用です。元ネタの投稿(Agent Native氏)ではOpenRouter経由の手順が紹介されていますが、安定性を優先するならZ.ai直結を先に試すのが現実的です。
手順1:OpenRouter経由で設定する
OpenRouterのアカウントでAPIキーを発行します。Cursorを開き、Settings → Models → Add Custom Modelを選択します。モデル名にはz-ai/glm-5.2と入力し、OpenRouterの表記と完全一致させます。
続いてAPI Keysセクションで「Override OpenAI Base URL」を有効にし、https://openrouter.ai/api/v1を設定します。OpenAI API Key欄にOpenRouterのAPIキーを貼り付けて保存します。チャット画面のモデル選択からz-ai/glm-5.2を選べば利用開始です。
エラーが出る場合は、Cursorフォーラムで報告されている「trouble finding the resource」系の不具合が該当します。この場合は次の手順2に切り替えてください。
手順2:Z.ai APIを直接つなぐ(推奨)
Z.aiのGLM Coding PlanでAPIキーを取得します。CursorのSettings → Models → Add Custom Modelを開き、モデル名にGLM-5.2と大文字で入力します。Z.ai公式ドキュメントでは、Cursor上のモデル名は大文字表記が必要とされています。
Override OpenAI Base URLにhttps://api.z.ai/api/coding/paas/v4を設定します。一般APIのhttps://api.z.ai/api/paas/v4ではなく、Coding Plan専用エンドポイントを使う点に注意してください。OpenAI API Key欄にZ.aiのキーを入力して保存し、モデルピッカーからGLM-5.2を選択します。
導入時の注意点
カスタムモデルとして追加したGLM 5.2は、Cursor上でコンテキスト上限が20万トークンと表示される既知の不具合があります。実際のAPIは100万トークンに対応しているため、表示値と実能力が一致しません。Cursor CLIではカスタムモデルやBYOK(Bring Your Own Key)が未対応のため、CLI利用を前提にする場合は別のエージェントツールを検討する必要があります。
推論モードはHighとMaxの2段階です。複雑なリファクタリングや長時間のエージェント作業ではMaxを、軽い質問や素早い応答が必要な場面ではHighを選ぶと、コストと品質のバランスを取りやすくなります。OpenRouter経由ではreasoningパラメータでhighとxhigh(Max相当)を指定できます。
ローカル実行も選択肢になる
7440億パラメータのMoEモデルは、一般的なPC単体では動かせません。Hugging Faceのzai-org/GLM-5.2(BF16)とGLM-5.2-FP8(FP8量子化版)が公開されており、十分なGPUリソースがある環境ならvLLM 0.23.0以降やSGLang 0.5.13以降でデプロイできます。APIコストを抑えつつデータを社内に閉じたいチーム向けの選択肢です。