オープンウェイトのLLMが、クローズドモデルと肩を並べる水準に達した。

この記事では、Z.ai(旧Zhipu AI)が公開したGLM-5.2の性能と、CoreWeave Serverless Inferenceでの提供開始について解説します。

この記事でわかること

  • GLM-5.2がどのベンチマークでオープンウェイト首位になったか
  • 1Mトークンコンテキストを支えるIndexShareアーキテクチャの要点
  • CoreWeaveでの推論料金と、クローズドモデルとの価格差

オープンウェイトがフロンティアに迫った背景

2026年6月24日、GPUクラウドのCoreWeaveはXで次のように投稿しました。「Open weights just caught up to the frontier(オープンウェイトがフロンティアに追いついた)」とし、Z.aiのGLM-5.2がArtificial AnalysisとAgent Arenaのオープンモデルランキングで首位に立ったと報じています。

GLM-5.2は2026年6月16日にZ.aiが発表したフラッグシップモデルです。長時間のコーディングエージェント作業を想定し、最大100万トークンのコンテキストを安定して扱える点が特徴です。ウェイトはMITライセンスで公開され、Hugging Faceのzai-org/GLM-5.2からダウンロードできます。

独立評価サイトのArtificial Analysisによれば、GLM-5.2(Max)はIntelligence Index v4.1で51点を記録し、オープンウェイトモデルの中で最高スコアです。MiniMax-M3(44点)やDeepSeek V4 Pro(44点)を7点以上引き離しています。Agent Arenaでもオープンウェイトのトップに位置し、長時間のエージェントタスクでクローズドモデルと競合する水準だと評価されています。

GLM-5.2の技術的な変更点

GLM-5.2はMoE(Mixture of Experts)構造で、総パラメータ数7530億、推論時に活性化するのは400億です。前モデルのGLM-5.1と同規模ながら、長時間タスク向けの設計が強化されています。

コンテキスト延長の鍵はIndexShareです。DeepSeek Sparse Attention(DSA)のインデクサを4層ごとに共有し、100万トークン時のトークンあたりFLOPsを2.9倍削減します。さらにMTP(Multi-Token Prediction)層を改良し、投機的デコードの受理長を最大20%伸ばしています。Z.aiの公式ブログでは、1Mコンテキストを「仕様上対応」ではなく「実用できる」水準に引き上げたと説明しています。

推論の負荷調整として、HighとMaxの2段階の思考レベルを選べます。軽い修正はHigh、複雑な設計作業はMaxと使い分けられます。

ベンチマークで何が変わったか

Z.aiが公開した公式ベンチマークでは、GLM-5.2はオープンソースモデルの中で最も高いスコアを記録しています。

ベンチマーク GLM-5.2 GLM-5.1 Claude Opus 4.8
Terminal-Bench 2.1 81.0 63.5 85.0
SWE-bench Pro 62.1 58.4 69.2
MCP-Atlas(エージェント) 76.8 71.8 77.8

Terminal-Bench 2.1ではGLM-5.1比で17.5ポイント改善し、Opus 4.8との差は4ポイントに縮まりました。長時間タスク向けのFrontierSWEではOpus 4.8に1%差、GPT-5.5を1%上回る結果です。一方、ゼロからの大規模実装を測るNL2Repo(48.9点)やDeepSWE(46.2点)では、クローズドフロンティアにまだ差があります。

Artificial Analysisの調査では、GLM-5.2はGDPval-AA v2で1524点を記録し、GPT-5.5(1514点)と同等の実務エージェント性能を示しています(参考)。

CoreWeaveでの提供と料金

https://docs.coreweave.com/products/inference/serverless

CoreWeaveはGLM-5.2をServerless Inferenceのカタログモデルとして提供開始しました。Serverless Inferenceはインフラ管理不要の従量課金型で、OpenAI互換APIで呼び出せます。

料金は入力100万トークンあたり1.39ドル、出力100万トークンあたり4.40ドルです。Z.ai公式APIの1.40ドル/4.40ドルとほぼ同水準です。Artificial Analysisの試算では、GLM-5.2のタスク単価は約0.46ドルで、同スコア帯のクローズドモデルより安く収まります。

ウェイトを自前GPUに載せればトークン課金は不要ですが、vLLMやSGLangなどの推論フレームワークと大規模GPUクラスタが必要です。API経由で試したい開発者にとって、CoreWeaveはZ.ai以外の選択肢になります。

クローズドモデルとの違い

GLM-5.2の強みは、実リポジトリの修正やツール連携といった実務寄りのエージェント作業です。SWE-bench ProでGPT-5.5(58.6点)を上回り、MCP-AtlasではOpus 4.8(77.8点)にほぼ並びます。

クローズドモデルが依然として優位なのは、ゼロからの大規模コード生成や高度な推論タスクです。Humanity’s Last Exam(ツールなし)ではGLM-5.2は40.5点、Opus 4.8は49.8点と差が残ります。

ただしGLM-5.2はMITライセンスでウェイトを保持できるため、ベンダーの利用制限やアクセス停止のリスクを避けられます。2026年6月にAnthropicが特定モデルの海外利用者向けアクセスを制限した事例を受け、自社インフラで動かせるオープンウェイトへの関心が高まっています。

開発者が今すぐ試すには

GLM-5.2を使う方法は3つあります。

  1. CoreWeave Serverless Inference — 上記料金でAPI呼び出し。既存のOpenAI互換クライアントから接続可能
  2. Z.ai API / GLM Coding Plan — Claude CodeやOpenCodeなどのコーディングエージェントでGLM-5.2またはGLM-5.2[1m]を指定
  3. セルフホスト — Hugging Faceからウェイトを取得し、vLLM・SGLang・transformersで自社GPUに展開

コーディングエージェントでの利用を想定するなら、まずZ.aiのGLM Coding PlanかCoreWeave APIで動作確認し、コストとレイテンシの要件に応じてセルフホストを検討する流れが現実的です。

オープンウェイトがフロンティアに「追いついた」という表現は、全ベンチマークでの完全な逆転転ではありません。ただし実務のエージェント作業とコスト面では、GLM-5.2はこれまでにない選択肢になっています。