IBM Granite 4.1　8BモデルでMoEを超える理由

8Bのモデルが32BのMoEアーキテクチャと同等の性能を出せるのか——IBMが2026年4月30日に公開したGranite 4.1はその問いに具体的な答えを出した。

この記事でわかること

Granite 4.1の3サイズ展開と主な特徴
8Bが前世代32B MoEに並べる学習戦略の仕組み
ツール呼び出し・命令追従の具体的なベンチマーク数値
llama.cpp・vLLM・Ollamaでのローカル実行方法
同時リリースされたVision・Speech・Guardianモデルの概要

Granite 4.1は何が変わったか

Introducing the IBM Granite 4.1 family of models

IBM’s most expansive model release to date covers new language, vision, speech, embedding, and guardian models — tailore…

IBM Research

IBMが4月30日にリリースしたGranite 4.1は、3B・8B・30Bの3サイズで構成される密（dense）なデコーダーオンリー型の言語モデルファミリーだ。前世代のGranite 4.0がMoE構造を採用した32Bモデルを主軸にしていたのに対し、今回は密アーキテクチャに回帰して高い精度とファインチューニングのしやすさを両立させた。

全モデルはApache 2.0ライセンスで公開されており、研究・商用を問わず無償で利用できる。ISO認証と暗号化署名が付与されていることも特徴で、コンプライアンス対応が必要な企業でも採用しやすい構成になっている。

8BがMoE 32Bに並ぶ理由

Granite 4.1 8B instructは、前世代のGranite 4.0 32B MoE（アクティブパラメータ9B）を主要ベンチマークの大半で匹敵か上回る。パラメータ規模が4分の1以下のモデルがなぜ同等の性能を出せるのかというと、学習戦略の違いによる。

IBMは「データ量より質」を原則として約15兆トークンを5段階のフェーズに分けて学習させた。前半は幅広い事前学習を行い、後半になるほど技術・科学・数学分野の高品質データに絞り込んでいく。最終フェーズでコンテキスト長を段階的に512Kトークンまで拡張しており、長文書への対応力も短文タスクへの影響なしに確保されている。

事前学習後はSFT（教師あり微調整）と多段階のRL（強化学習）パイプラインを適用している。RLの各フェーズは命令追従・会話品質・事実正確性・数学推論をそれぞれ個別に最適化対象とする。一度のRLで複数の能力を同時に最適化するとトレードオフが生じやすいが、フェーズを分離することでその問題を回避した。

ツール呼び出しと命令追従の数値

エンタープライズ用途で特に重視されるツール呼び出しと命令追従の2項目で、Granite 4.1は他の主要OSSモデルと互角以上の結果を出している。

8Bモデルの主要スコアは次のとおりだ。

HumanEval（コーディング）: 87.2
GSM8K（数学推論）: 92.49
EvalPlus: 80.2

30Bモデルはツール呼び出しの標準ベンチマーク「BFCL V3」で73.68を記録し、同クラスのGemma-4-31B（72.7）を上回って現時点でOSSモデルの中で首位の位置にある。

推論時に長いCoT（Chain of Thought）を使わない設計も企業にとって現実的なメリットだ。CoTが長くなるほどトークン消費が増え、レイテンシも不安定になる。Granite 4.1はCoTなしで安定した性能を出せるため、トークンコストと予測可能なレスポンス時間を重視する本番環境への適合性が高い（参考）。

ローカルで動かす方法

vLLM・SGLang・llama.cpp・Ollama・LM Studioの各推論ランタイムに対応している。HuggingFaceからモデルを取得するか、IBMのwatsonxプラットフォーム経由でも利用できる。

HuggingFace Transformersを使った基本的な実装は次のとおりだ。

from transformers import AutoModelForCausalLM, AutoTokenizer

model_path = "ibm-granite/granite-4.1-8b"
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(model_path, device_map="auto")

FP8量子化バリアントも提供されており、VRAM制約がある環境でも実行効率を上げられる。OllamaやLM Studioでの具体的な設定手順はIBMの公式ドキュメントを参照してほしい。

Granite 4.1 - IBM Granite

www.ibm.com

同時リリースされたVision・Speech・Guardian

今回のGranite 4.1リリースは言語モデルにとどまらない。マルチモーダルなAIシステムを構成するコンポーネントがまとめて更新された。

Granite Vision 4.1（4B）はドキュメント理解に特化したビジョン言語モデルだ。テーブル・グラフ・KVP（キー・バリューペア）の抽出を主な対象とし、請求書番号や日付・品目名の自動読み取りといった企業文書処理パイプラインで活用できる。トレーニングには実データに加えてChartNetという100万スケールのグラフ理解データセットも使われており、同規模モデルで最高水準の精度をIBMは公表している。

Granite Speech 4.1（2B）は多言語対応の音声認識モデルで、語句誤り率（WER）は5.33%。OpenASR Leaderboardで上位に入る精度だ。通常のオートリグレッシブ方式に加え、シーケンス全体を一括生成する非オートリグレッシブ（NAR）バリアントを同時リリースしている。NAR方式はGPU利用率が大幅に改善されるため、スループットが求められるエッジ環境での活用が見込まれる。

Granite Guardian 4.1はGranite 4.1 8Bをベースにファインチューニングしたガードレールモデルで、前バージョンのGuardian 3.3 8Bの後継にあたる。LLMの入出力を安全性・品質・正確性の観点から評価し、偏見コンテンツ・有害表現・ハルシネーション・エージェントリスクなどを検出する。どの言語モデルとも組み合わせて使える設計で、独立したモデルとして推論パイプラインに組み込める。

8Bと30Bのどちらを選ぶか

8Bモデルは汎用のエンタープライズアプリケーションに向いており、前世代のMoE 32Bからの移行コストを抑えながら同等の性能を得たい場面に適している。30Bモデルはツール呼び出しを多用するエージェントワークフローに強く、BFCL V3首位というベンチマーク結果が実用上の選択根拠になる。3Bはエッジデプロイや推論コストを極限まで抑えたい用途向けで、Vision 4.1（4B）とほぼ同規模の環境で言語処理を担わせられる。

Vision・Speech・GuardianをすべてOSSで揃えてシステムを構成できる点が、他社のモデルファミリーと比べたときのGranite 4.1の実用的な強みだ。