MiniMax M3発表 SWE-Bench超えと100万トークン

コーディング特化の新フラッグシップが、APIからすぐ使える段階まで来た。

この記事では、中国・上海のMiniMaxが2026年6月1日に公開したMiniMax M3の位置づけ、公表ベンチマーク、MSAアーキテクチャ、料金、利用方法を整理する。数値は公式発表と第三者報道に基づき、再現性の観点も併記する。

この記事でわかること

M3が主張する3つの能力と、SWE-Bench Pro 59.0%の意味
100万トークンコンテキストを支えるMSA（スパースアテンション）の概要
API・Token Plan・MiniMax Codeでの使い方と料金の目安
ベンチマークを読むときの注意点（スキャフォールディング・独立検証）

https://www.minimax.io/blog/minimax-m3

M3は何が変わったか

MiniMax M3は、MシリーズのM2.7の後継で、ソフトウェア開発エージェント向けに設計されたテキストモデルだ。公式は「コーディング性能・100万トークンコンテキスト・ネイティブマルチモーダル」を同時に持つ初のオープンウェイトモデルと位置づけている。これまで3つを揃えたのはOpus 4.7、GPT-5.5、Gemini 3.1 Proなどのクローズドモデルだけだった、という説明だ。

2026年6月3日時点では、モデルウェイトと技術レポートは未公開だ。公式は発表から10日以内（おおよそ6月11日頃）にHugging FaceとGitHubへ公開するとしている。現時点で確実に使えるのはAPI、Token Plan、専用エージェント製品MiniMax Codeである。

公表ベンチマークと競合との位置

https://www.minimax.io/models/text/m3

コーディング・エージェント性能の中心指標として、公式ブログは次の数値を掲げている。

ベンチマーク	MiniMax M3（公式）
SWE-Bench Pro	59.0%
Terminal-Bench 2.1	66.0%
MCP Atlas	74.2%
OSWorld-Verified	70.06%

同社はSWE-Bench ProでGPT-5.5とGemini 3.1 Proを上回り、Opus 4.7に接近したと主張する。BrowseCompでは83.5点でOpus 4.7（79.3）を上回ったとも記載している。

一方、VentureBeat（2026年6月1日）は、59.0%はGPT-5.5・Gemini 3.1 Proより高い一方で、Opus 4.8の69.2%には届かないと報じている（参考）。Moneycontrol（2026年6月2日）も、ベンチマークは企業自身のテストに基づくことが多く、独立検証が必要だと業界アナリストのコメントを紹介している（参考）。

読み方の要点は2つだ。第一に、数値はMiniMaxの評価環境で出た主張である。第二に、エージェント系ベンチではClaude Codeなどのスキャフォールディング（実行の枠組み）がスコアに大きく効く。公式ブログ末尾でも、SWE-Bench Verified / Proは社内インフラとClaude Codeを使い、各テストを4回実行した平均と明記している。外部モデルと社内テストが混在する表もあるため、条件差を確認してから比較する必要がある。

MSAが支える100万トークン

長コンテキストのボトルネックは、アテンションの計算量だ。フルアテンションは文脈が伸びるほどコストが二次的に増える。M3の中核は自社提案のMSA（MiniMax Sparse Attention）で、関連するKV（キー・バリュー）ブロックだけを精密に選び、フルアテンションに近いカバレッジを狙う設計だ。

公式の主張では、1Mトークン時の1トークンあたり計算量は前世代M2系の1/20になる。速度面ではPrefillが9倍以上、Decodingが15倍以上、オープンソースのFlash-Sparse-Attention / flash-moba比で4倍以上高速、としている。複数のアブレーションでMSAはフルアテンションと「大多数の能力で同等」とも書かれている。

APIでは最大100万トークンのコンテキストに対応する。ただし課金は入力長で分かれ、512Kトークン以下は標準レート、512K超は長コンテキスト高レートとなる。512K超の一般提供は発表時点で限定され、数日以内の全ユーザー向け公開が予告されていた。

マルチモーダルとThinkingモード

M3はテキストだけでなく、画像・動画入力とデスクトップ操作（computer use）に対応するネイティブマルチモーダルモデルだ。学習はStep 0から混合モーダルで行い、テキストと画像がインターリーブされたデータが性能に効く、と公式は説明している。データパイプライン再構築後、学習規模を100兆トークン（100T+）まで拡張可能になったとも記載されている。

推論の切り替えとしてThinkingモードがある。リクエストごとにon/offでき、複雑な推論と低レイテンシの用途を分けられる。エージェントがターミナル実行やMCP（Model Context Protocol）ツール連携を行う想定で設計されている。

公式が示した実タスクの規模感

ベンチマーク以外に、公式ブログは長時間の自律実行例を3つ公開している。

ICLR 2025 Outstanding Paperの再現では、約12時間で18コミット・23の実験図を生成したとする。CUDA FP8 GEMM最適化では約24時間、147回のベンチマーク提出、1,959回のツールコールで、Hopper GPUのFP8利用率を7.6%から71.3%へ引き上げたと主張する。PostTrainBenchでは12時間の自律学習でスコア0.37（Opus 4.7は0.42、GPT-5.5は0.39）に達した、としている。

いずれも公式環境でのデモであり、一般ユーザーの再現を保証するものではない。ただし、単発のコード補完ではなく、計画・実行・検証を繰り返すエージェント用途を想定していることは読み取れる。

使い方：API・Token Plan・MiniMax Code

https://platform.minimax.io/docs/guides/models-intro

APIではモデル名MiniMax-M3を指定する。エンドポイント例はhttps://api.minimax.io/v1/text/chatcompletion_v2だ。自動キャッシュは設定不要で、Thinkingのon/offとservice_tier=priorityによる優先チャネルが選べる。priorityは発表時点で営業経由の早期アクセスだった。

Token Plan（月額）は据え置きのままM3の性能が使える。Plus $20/月（M3利用目安約17億トークン/月）、Max $50/月（約51億）、Ultra $120/月（約98億）の3段階がある。テキスト・画像・音声・音楽は同一プールで消費される。

Pay as You Go（Standard、発表直後7日間50%オフ併記）では、入力512K以下でInput $0.60/M（割引 $0.30/M）、Output $2.40/M（割引 $1.20/M）だ。VentureBeatは、主要プロプライエタリモデルの5〜10%のコストでフロンティア級の性能を狙う戦略だと整理している（参考）。

https://agent.minimaxi.com/download

MiniMax CodeはM3と共同学習したエージェント製品だ。Agent Teamで大規模タスクを並列・動的に分割し、ProducerとVerifierの対抗ループで品質を上げる。ベースはオープンソースのOpenCodeとPiのハーネスで、将来オープンソース化予定と記載されている。スマホからローカルERPやExcel操作を指示するcomputer useのデモも公式に掲載されている。

オープンウェイトを待つときのチェックリスト

「オープンウェイト」は公開コミットの段階にある。ウェイト公開後に確認すべき項目は次のとおりだ。

ライセンス条項（過去モデルはmodified-MITだったが、M3は未確定と第三者が指摘）
技術レポートの再現手順とMSAの実装詳細
安全性評価と商用利用の制限
コミュニティによる独立ベンチマーク（同一スキャフォールディングでの再測定）

the-decoder.comは、100万トークンのオープンウェイトモデルとしてプロプライエタリ勢に挑む動きだと報じている（参考）。

開発者が今すぐ取るべきアクション

APIキーがあればMiniMax-M3で既存のエージェントパイプラインを試せる。長いリポジトリ丸ごとの解析を試すなら、512K超の料金体系と提供状況を先に確認する。コスト重視ならToken Planの月額上限と、従量のPrompt caching Read（512K以下で $0.12/M）を見比べる。

ベンチマーク数値だけで導入を決めず、自社リポジトリで同一タスク・同一ハーネスのA/Bテストを回すのが現実的だ。MiniMax M3は「GPT-5.5超え」を公表しているが、Opus 4.8や独立検証の結果が揃うまで、主張と実測を分けて扱うのが安全である。ウェイト公開後は、オンプレミス展開とファインチューニングの選択肢が広がる。それまでの間は、APIとMiniMax Codeでエージェント向けコーディングの手応えを確かめる段階だと言える。