Xiaomiが2つの大規模AIモデルをオープンソース公開した。エージェント向けの「MiMo-V2.5-Pro」とオムニモーダルの「MiMo-V2.5」で、どちらも1Mトークンのコンテキストウィンドウに対応している。
この記事でわかること:
- MiMo-V2.5-ProとMiMo-V2.5それぞれの特徴
- MITライセンスで商用利用できる範囲
- SWE-Benchなどのベンチマーク結果
- 実際にデプロイするための手順の概要
2つのモデルの違い
2026年4月27日、XiaomiのMiMoチームは「MiMo-V2.5-Pro」と「MiMo-V2.5」を同時にリリースした。どちらもMITライセンスで、商用デプロイ・継続トレーニング・ファインチューニングに追加の申請は不要だ。
MiMo-V2.5-Proは、合計1.02兆パラメータを持つMoE(Mixture of Experts)モデルで、推論時に実際に使われるアクティブパラメータは42Bに絞られる。複雑なソフトウェアエンジニアリングタスクや長時間のエージェント動作を主な用途として設計されており、数千回ものツール呼び出しを伴う複雑なタスクを1Mトークンのコンテキスト内で継続できる。
MiMo-V2.5は310B総パラメータ(アクティブ15B)のオムニモーダルモデルだ。テキストに加え、画像・動画・音声を単一のアーキテクチャで処理できる。7億2900万パラメータのViT(Vision Transformer)と、MiMo-Audioから初期化した音声エンコーダを内蔵する。こちらも1Mトークンのコンテキストをサポートする。
アーキテクチャの特徴
両モデルは、2025年末にリリースされたMiMo-V2-Flashで導入された設計を引き継いでいる。
中心となるのは「ハイブリッドアテンション」だ。スライディングウィンドウアテンション(SWA)とグローバルアテンション(GA)を組み合わせており、MiMo-V2.5-ProではSWA:GA=6:1の比率で交互に配置している。SWAのウィンドウサイズは128トークンで、KVキャッシュのメモリ使用量を最大7分の1に削減しながら、長文脈でのパフォーマンスを維持する。
もう一つの特徴が「マルチトークン予測(MTP)」だ。3層の軽量MTPモジュールがInferenceを高速化する。通常のデコードと比べて生成速度が約3倍になるとされており、RLトレーニングのロールアウト効率も改善する。
MiMo-V2.5-Proは27Tトークンを使ってFP8混合精度で事前学習されている。ポストトレーニングはSFT、大規模エージェントRL、そして「MOPD(Multi-Teacher On-Policy Distillation)」の3段階で構成される。MOPDは複数の教師モデルから逐次的にトークンレベルの指導を受ける手法で、MiMo-V2-Flashで初めて導入されたアプローチだ。
ベンチマーク結果
MiMo-V2.5-ProのSWE-Bench Verified(ソフトウェアエンジニアリングタスク)スコアは78.9%で、同規模のオープンソースモデルとしてトップクラスの水準にある。GPQA Diamond(難度の高い科学問題)は66.7%、GSM8K(数学計算)は99.6%を記録している。
SWE-Bench Pro(より難しいバリアント)では57.2%、Terminal-Bench 2では68.4%となっている。
長文脈性能については、OpenAIのGraphWalksベンチマークで検証されており、512Kトークンの入力でBFS(幅優先探索)タスク0.56、親ノード検索タスク0.92というスコアを達成した。1Mトークン入力でもそれぞれ0.37と0.62を維持しており、前バージョンのMiMo-V2 ProがBFS 128K以降で急速に精度が落ちた点と比較して大きな改善となっている。
ベースモデルでの比較では、MMLU(5-shot)でMiMo-V2.5-Pro Baseが89.4%を記録し、DeepSeek-V4-Pro Base(90.1%)、Kimi-K2 Base(87.8%)と近い水準に位置している。
デプロイ方法
モデルはHugging FaceからFP8精度でダウンロードできる。推奨推論エンジンはSGLangとvLLMだ。
SGLangでの起動例:
SGLANG_ENABLE_SPEC_V2=1 python3 -m sglang.launch_server \
--model-path XiaomiMiMo/MiMo-V2.5-Pro \
--tp-size 16 \
--context-length 1048576 \
--speculative-algorithm EAGLE \
--reasoning-parser mimo
1Mトークンのフルコンテキストを使うには16枚以上のGPUが必要になる。ローカル評価には256K対応のBaseモデルから始めるのが現実的だ。
XiaomiはAPIプラットフォーム(platform.xiaomimimo.com)も提供しており、開発者向けに100兆トークン分の無料利用枠を提供している。ローカルにGPUを用意せずに性能を試せる入口として活用できる。
MiMo-V2-Flashからの変化
MiMo-V2-Flashは309B総パラメータ・15Bアクティブ・256Kコンテキストで、SWE-Bench Verifiedが73.4%だった。MiMo-V2.5-Proはそれと比べてコンテキストが1Mに伸び、SWE-Bench Verifiedが78.9%に向上した。パラメータ規模を3倍以上に拡大しながらもアクティブパラメータを42Bに抑えたことで、MoEアーキテクチャの効率を維持している。
MiMo-V2.5は、V2-Flashのテキスト処理能力をベースに、画像・動画・音声の入力を追加した拡張版として位置づけられる。
まとめ
MiMo-V2.5-ProはSWE-Bench 78.9%という高い水準を持つオープンソースエージェントモデルとして、ソフトウェアエンジニアリング分野で競合するポジションに立っている。MITライセンスで商用利用が可能な点と、Xiaomi APIプラットフォームの無料枠を通じて即試せる点は、実際の開発ワークフローに組み込む検討の入口として有用だ。