中国のAI企業Z.ai(智譜AI)が、長時間のコーディングタスク向けフラッグシップモデル「GLM 5.2」を公開しました。100万トークンのコンテキストとMITライセンスのオープンウェイトを備え、Terminal-Bench 2.1で81.0点を記録しています。本記事では、公式ベンチマークの意味と、Cursorでの導入手順を整理します。

この記事でわかること

  • GLM 5.2の性能と前モデル・クローズドモデルとの位置づけ
  • OpenRouter経由とZ.ai直結の2通りのCursor設定手順
  • 導入時に知っておくべき制約と注意点

GLM 5.2とは何が変わったか

https://z.ai/blog/glm-5.2

GLM 5.2は、Z.aiが2026年6月に公開したMixture-of-Experts(MoE)型の大規模言語モデルです。総パラメータ数は7440億、1トークンあたりのアクティブパラメータは400億に相当します。前モデルGLM 5.1からの最大の進化は、100万トークン(1M)のコンテキストを実用レベルで維持できる点です。

ライセンスはMITで、Hugging FaceとModelScopeからウェイトを取得できます。商用利用・ファインチューニング・セルフホストに地域制限はありません。vLLM、SGLang、Transformersなど主要な推論フレームワークに対応しています。

アーキテクチャ面では、IndexShareと呼ばれる仕組みでスパースアテンション層の計算コストを削減しています。1Mコンテキスト時のトークンあたりFLOPsは2.9倍減少し、推論の受容長は最大20%伸びています。推論の深さはHighとMaxの2段階から選べます。

コーディング性能はどこまで届くか

Z.aiの公式ブログが公開したベンチマークでは、GLM 5.2はオープンウェイトモデルの中で最も高いコーディングスコアを示しています。

ベンチマーク GLM 5.2 GLM 5.1 Claude Opus 4.8 GPT-5.5
Terminal-Bench 2.1 81.0 63.5 85.0 84.0
SWE-bench Pro 62.1 58.4 69.2 58.6
FrontierSWE 74.4 30.5 75.1 72.6

Terminal-Bench 2.1ではOpus 4.8との差は4ポイント、GPT-5.5を1ポイント上回ります。SWE-bench Proでも前モデルから3.7ポイント改善し、GPT-5.5を3.5ポイント上回っています。長時間タスク向けのFrontierSWEではOpus 4.8に1ポイント差で続き、オープンソースモデルとしては最高位です。

OpenRouterのベンチマーク集計では、Artificial Analysis Intelligence Indexが51.1、Coding Indexが68.8と報告されています。オープンルーター上の全モデルと比較して、それぞれ上位15%・14%に位置づけられます。

料金はどのくらいか

API経由で使う場合、OpenRouterの標準料金は入力$1.20/100万トークン、出力$4.10/100万トークンです。プロンプトキャッシュを活用すると実効入力単価は$0.55前後まで下がります。Z.aiのGLM Coding Planでは、ピーク時間帯(UTC+8の14:00〜18:00)にクォータ消費が3倍、オフピークは2倍になります。2026年9月末まではオフピークを1倍で提供するキャンペーンが続いています。

Cursorで使う前に知ること

Cursorでカスタムモデルを追加するには、Proプラン以上が必要です。Cursor公式フォーラムでは、OpenRouterは公式サポート対象外と明記されています。Override OpenAI Base URLでOpenRouterを設定すると、リクエスト形式の不一致やツール呼び出しエラーが起きやすい状態です。

一方、Z.aiのOpenAI互換エンドポイントを直接使う方法は、Cursorスタッフが推奨する公式ルートに近い運用です。元ネタの投稿(Agent Native氏)ではOpenRouter経由の手順が紹介されていますが、安定性を優先するならZ.ai直結を先に試すのが現実的です。

手順1:OpenRouter経由で設定する

OpenRouterのアカウントでAPIキーを発行します。Cursorを開き、Settings → Models → Add Custom Modelを選択します。モデル名にはz-ai/glm-5.2と入力し、OpenRouterの表記と完全一致させます。

続いてAPI Keysセクションで「Override OpenAI Base URL」を有効にし、https://openrouter.ai/api/v1を設定します。OpenAI API Key欄にOpenRouterのAPIキーを貼り付けて保存します。チャット画面のモデル選択からz-ai/glm-5.2を選べば利用開始です。

エラーが出る場合は、Cursorフォーラムで報告されている「trouble finding the resource」系の不具合が該当します。この場合は次の手順2に切り替えてください。

手順2:Z.ai APIを直接つなぐ(推奨)

Z.aiのGLM Coding PlanでAPIキーを取得します。CursorのSettings → Models → Add Custom Modelを開き、モデル名にGLM-5.2と大文字で入力します。Z.ai公式ドキュメントでは、Cursor上のモデル名は大文字表記が必要とされています。

Override OpenAI Base URLにhttps://api.z.ai/api/coding/paas/v4を設定します。一般APIのhttps://api.z.ai/api/paas/v4ではなく、Coding Plan専用エンドポイントを使う点に注意してください。OpenAI API Key欄にZ.aiのキーを入力して保存し、モデルピッカーからGLM-5.2を選択します。

導入時の注意点

カスタムモデルとして追加したGLM 5.2は、Cursor上でコンテキスト上限が20万トークンと表示される既知の不具合があります。実際のAPIは100万トークンに対応しているため、表示値と実能力が一致しません。Cursor CLIではカスタムモデルやBYOK(Bring Your Own Key)が未対応のため、CLI利用を前提にする場合は別のエージェントツールを検討する必要があります。

推論モードはHighとMaxの2段階です。複雑なリファクタリングや長時間のエージェント作業ではMaxを、軽い質問や素早い応答が必要な場面ではHighを選ぶと、コストと品質のバランスを取りやすくなります。OpenRouter経由ではreasoningパラメータでhighxhigh(Max相当)を指定できます。

ローカル実行も選択肢になる

7440億パラメータのMoEモデルは、一般的なPC単体では動かせません。Hugging Faceのzai-org/GLM-5.2(BF16)とGLM-5.2-FP8(FP8量子化版)が公開されており、十分なGPUリソースがある環境ならvLLM 0.23.0以降やSGLang 0.5.13以降でデプロイできます。APIコストを抑えつつデータを社内に閉じたいチーム向けの選択肢です。