Mistral Medium 3.5発表 GPU4枚で動く128B密モデルの実力

MoE全盛の時代に、あえて密（Dense）構造で勝負する128Bモデルが登場しました。Mistral AIが2026年4月29日に公開したMistral Medium 3.5は、SWE-Bench Verifiedで77.6%を記録し、Claude 4 SonnetやGPT-5に匹敵するコーディング性能を持ちながら、わずか4基のGPUでセルフホストできます。

この記事でわかること:

Mistral Medium 3.5の主要スペックと従来モデルからの変化
SWE-Benchスコアから見る競合モデルとの位置づけ
セルフホストに必要なハードウェア構成
同時発表されたVibe Remote AgentsとLe Chat Work mode

MoE全盛のなかDense 128Bで挑む新モデル

https://mistral.ai/news/vibe-remote-agents-mistral-medium-3-5

Mistral Medium 3.5は、Mistral AI初のフラッグシップ統合モデルです。指示追従、推論、コーディングを1つの重みに統合した128Bパラメータの密モデルで、コンテキストウィンドウは256kトークンに対応します。

最近の大規模モデルはMoE（Mixture of Experts）構造が主流です。Mistral Large 3は675B（活性41B）、Qwen3.5は397B（活性17B）とパラメータ総数を大きくしつつ、実際に使う部分を絞る設計が一般的でした。Mistral Medium 3.5はこの流れに逆行し、128Bすべてのパラメータを毎回使う密構造を採用しています。

SWE-Bench Verified 77.6%の意味

コーディング性能の指標として広く使われるSWE-Bench Verifiedで、Mistral Medium 3.5は77.6%を記録しました。これはDevstral 2やQwen3.5 397B A17Bを上回るスコアです。

他の主要モデルとの比較も見てみます。Claude 4 Sonnetが77.2%、GPT-5が74.9%、Gemini 2.5 Proが73.1%とされています。オープンウェイトのモデルがクローズドの最上位モデルと同水準に達した点は注目に値します。ただし、独立した第三者によるベンチマーク検証はまだ限定的で、実際の開発タスクでの性能は今後の評価を待つ必要があります。

セルフホストはGPU4枚から

Mistral Medium 3.5の大きな特徴は、4基のGPUでセルフホストできる点です。128Bの密モデルをFP8精度で動かす場合、重みだけで約128GBのVRAMが必要になります。NVIDIA H100 80GBを4枚（合計320GB）使えば、256kコンテキストでの本番推論にも対応できます。

H200 141GBを使えばさらに余裕が生まれ、BF16精度での運用も視野に入ります。従来のフラッグシップモデル（Llama 3.1 405Bなど）が8GPU以上を要求していたことを考えると、導入のハードルは大きく下がりました。

データのプライバシー要件でクラウドAPIを使えないチームや、推論コストをハードウェア費用として固定したいチームにとって、実用的な選択肢になります。

1つのモデルで複数の用途をカバー

Mistral Medium 3.5は、推論（Reasoning）モードをリクエスト単位で切り替えられます。簡単なチャット応答では高速モードを使い、複雑なエージェント処理では拡張思考モードを使うといった運用が、モデルを切り替えることなく実現できます。

ビジョン機能も搭載しています。可変サイズ・アスペクト比に対応する独自のビジョンエンコーダーをゼロから訓練しており、画像入力を含むマルチモーダルなタスクに対応します。さらにfunction callingとJSON出力をネイティブでサポートし、エージェント的な用途にも向いています。

多言語対応も幅広く、英語、フランス語、スペイン語、ドイツ語、中国語、日本語、韓国語、アラビア語など数十言語をカバーしています。

同時発表のVibe Remote AgentsとWork mode

モデルの公開と同時に、2つの新機能も発表されました。

Vibe Remote Agentsは、コーディングセッションをクラウド上で非同期実行する仕組みです。Mistral Vibe CLIまたはLe Chatからタスクを投げると、クラウド上のサンドボックス環境で処理が進みます。完了後はGitHubにプルリクエストを作成し、通知を送ります。ローカルのCLIセッションをクラウドに「テレポート」する機能もあり、長時間のタスクを途中から引き継げます。

Le Chat Work modeは、メールのトリアージ、リサーチの要約、Jiraへのイシュー作成、Slackへの通知送信など、複数のツールをまたぐワークフローを実行するエージェントモードです。Mistral Medium 3.5をバックエンドとし、ツールを並列で呼び出しながらタスクを完了まで進めます。

料金とライセンス

API経由の利用は、入力100万トークンあたり1.5ドル、出力100万トークンあたり7.5ドルです。Mistral Medium 3（入力0.4ドル/出力2ドル）と比べると値上がりしていますが、128B密モデルの性能を考えれば競争力のある価格帯です。

オープンウェイトはHugging Faceで公開されており、Modified MITライセンスのもとで商用利用が可能です。Le ChatでのWork modeやVibe Remote Agentsの利用には、Pro・Team・Enterpriseプランが必要です。NVIDIA NIMでのコンテナ化された推論マイクロサービスとしても提供されています。

オープンウェイト陣営の新たな選択肢

Mistral Medium 3.5は、オープンウェイトモデルの性能がクローズドモデルに追いついてきたことを示す一例です。GPU4枚でセルフホスト可能な128B密モデルが、SWE-Benchでトップクラスのスコアを出す時代になりました。コーディングエージェントやマルチステップの業務自動化を自社環境で動かしたいチームにとって、検討する価値のあるモデルです。