Gemma 4がFireworks AI Training Platformに追加 SFT・DPO対応

オープンソースモデルのファインチューニングで、もっとも煩雑な作業は「学習環境と推論環境を別々に管理すること」だ。

Fireworks AIは2026年4月27日、Google DeepMindのGemma 4（26B・31B）を自社の Training Platform に追加した。SFT（教師あり微調整）とDPO（直接優先度最適化）が利用可能になり、カスタム損失関数の定義も可能だ。RL（強化学習）サポートは近日公開予定と明示されている。

この記事でわかること：

Fireworks AI Training PlatformでGemma 4を使えるようになった背景
26Bと31Bそれぞれの特性と使い分けの基準
Training Agent・Managed Training・Training APIの3方式の違い
学習完了後に推論環境へ即時デプロイできる仕組み

Gemma 4とは

https://fireworks.ai/models/fireworks/gemma-4-31b-it

Gemma 4はGoogleが2026年4月2日にApache 2.0ライセンスで公開したオープンモデルファミリーだ。全サイズがテキストと画像の両方を入力として受け付けるマルチモーダル構成になっている。

Fireworks AI Training Platformに追加されたのは大型の2サイズ。

Gemma 4 26Bは混合エキスパート（MoE）アーキテクチャを採用し、推論時に実際に動くパラメータは3.8Bに絞られる。トークンあたりの計算コストが低く、レイテンシを重視した用途に向く。

Gemma 4 31Bは密なパラメータ構成（Dense）で、推論コストは高めだが出力品質が高く、ファインチューニングの土台として適している。どちらも256Kトークンのコンテキストウィンドウを持ち、140言語以上をサポートしている。

何が変わったか

Fireworks AI Training PlatformへのGemma 4追加で、以下が可能になった。

SFT（Supervised Fine-Tuning）は指示応答形式のデータセットからモデルを学習させる標準的な手法だ。Fireworks AIのSFTはLoRAとフルパラメータ学習の両方に対応する。

DPO（Direct Preference Optimization）は「良い回答」と「劣る回答」のペアを与え、人間の選好に合わせてモデルを調整する手法だ。SFTでは難しい微妙な応答の改善に効果がある。

カスタム損失関数は Training APIから定義できる。GRPOやDRO、DAPO、あるいは独自の目的関数をそのまま使えるため、研究用途にも対応する。

RLサポートは近日公開予定と公式アカウントが明示しており、SFT → DPO → RFTとステージを連鎖させるパイプラインも将来的に構成可能になる。

3つの入り口

https://fireworks.ai/train

Fireworks AI Training Platformはユーザーの習熟度に合わせて3種類の入り口を用意している。

Training Agentはタスクとデータを渡すと、前処理・モデル選定・ハイパーパラメータ探索・評価・デプロイまでをエージェントが自動で実行する。現時点ではLoRAのみ対応し、MLの知識がなくても使えることを前提にした設計だ。

Managed TrainingはSFT・DPO・RFTの手法を自分で選び、GPUのプロビジョニング・分散学習・チェックポイント管理はFireworksが担う。フルパラメータ学習にも対応する。

Training APIはトレーニングループごと持ち込める。カスタム損失関数の定義、リージョン横断のRLスケールアウト、オプティマイザ状態を保持したままのSFT→RFT連鎖が可能だ。最大でKimi K2.5（1兆パラメータ）のフルパラメータ学習を64枚のB200上で実行できる。

学習と推論が同一インフラで動く利点

Fireworks AIの最大の特徴は、学習環境と推論環境が同一のインフラ上に乗っていることだ。

学習が完了すると、チェックポイントは即座に推論エンドポイントとして公開される。フォーマット変換もサービングスタックの移行も不要で、学習時のモデル挙動が推論時にそのまま再現される。

技術的な保証として、カタログ内の全モデルについてトレーニングチェックポイントと推論チェックポイント間のKL divergence（k3）を公開しており、0.01未満の値がプロダクション品質の基準とされている。

Multi-LoRA機能を使うと、共有ベースモデル上に数百個のLoRAアダプタをまとめてホストでき、アダプタ1個あたり追加のインフラコストは発生しない。ファインチューニングの実験を繰り返しながら、コストを抑えて複数バリアントを運用できる。

Cursor・Vercel・Genspark・Notion・Sourcegraphが本番環境でこのプラットフォームを使用していると、Fireworks AIは公開している。VercelはSonnet 3.5のエラーフリー生成率62%に対し、Fireworksでファインチューニングしたモデルで90%台を達成したと報告している（参考）。

まとめ

Fireworks AI Training PlatformへのGemma 4追加で、Apache 2.0ライセンスの高性能オープンモデルを推論まで一貫したインフラでファインチューニングできる選択肢が加わった。SFT・DPO・カスタム損失関数の3種類に加え、RL対応も近日公開予定だ。Gemma 4 31B Denseはファインチューニングのベースとして品質面で優れており、26B MoEは推論速度が必要な用途と使い分けられる。