Step 3.7 FlashがFlash級でエージェント完走する

Flash級のLLMは「安くて速い」が売りになりがちです。しかし実際の開発現場では、計画・コーディング・実行・結果確認・納品までを自律的に回す「エージェントループ」の完走が求められます。2026年6月、AI開発者のRonin氏がXで報告したStepFunのStep 3.7 Flashは、このループを最後まで走り切ったと主張しており、Flash-tierの新たな到達点として注目を集めています。

この記事でわかること

Step 3.7 Flashの仕様とSparse MoEアーキテクチャの意味
エージェントループ完走を支える機能とベンチマーク結果
料金体系と利用可能なプラットフォーム
従来のStep 3.5 Flashや他Flashモデルとの違い

Step 3.7 Flashとは何か

https://static.stepfun.com/blog/step-3.7-flash/

Step 3.7 Flashは、中国のAI企業StepFunが2026年5月28日に公開したマルチモーダルLLMです。総パラメータ数は198B（言語バックボーン196B＋ビジョンエンコーダ1.8B）で、推論時にアクティブになるのはトークンあたり約11Bです。Sparse MoE（Mixture of Experts）方式により、巨大なパラメータ規模を保ちながら、計算コストは11B級の密モデルに近い水準に抑えられます。

コンテキストウィンドウは256Kトークン、最大スループットは400トークン/秒です。推論の深さはlow・medium・highの3段階から選べ、速度とコストのバランスを用途ごとに調整できます。ライセンスはApache 2.0で、Hugging Face上にBF16・FP8・NVFP4・GGUFの各形式が公開されています。

Flash-tierが抱える課題

エージェント開発では、モデルがツールを呼び出し、実行結果を読み取り、次の手を決めるというループを繰り返します。コーディングエージェントであれば、計画→コード生成→実行→出力確認→修正→納品という一連の流れが典型です。

Flash-tierモデルは推論コストが低く高速な反面、長いループの途中で方針を見失ったり、ツール呼び出しが壊れたり、タスクを途中で放棄したりする傾向があります。Ronin氏はXの投稿で「多くのFlash-tierモデルは『安くて速い』で止まる」と指摘し、Step 3.7 Flashについては「計画、コード作成、実行、出力の読み取り、納品まで実際にタスクを完了した」と報告しています（参考）。

エージェント完走を支える設計

StepFunは公式ブログで、Step 3.7 Flashを「実世界のエージェント向け高効率Flashモデル」と位置づけています。中核となるのは、ツール利用の信頼性とオーケストレーション能力の強化です。

Advisor Mode

Advisor Modeは、Anthropicが提唱したアドバイザー戦略をStepFunが実装したものです。Step 3.7 Flashがエージェントループ全体を主導し、ツール呼び出しと結果の読み取りを繰り返します。複雑な計画が必要な場面や、同じ失敗が続くリカバリー局面に限り、より大きなアドバイザーモデルへエスカレーションします。大半の処理はFlash-tierのコストで完結するため、品質と費用のバランスが取りやすくなります。

StepFunの社内検証では、Advisor Mode有効時にSWE-Bench Verifiedで76.3%のスコアを記録し、タスクあたりのコストは約0.19ドルでした。比較対象のClaude Opus 4.6は78.7%・約1.76ドル/タスクであり、性能は約97%水準でコストは約9分の1です。

マルチモーダルとツール連携

Step 3.5 Flashがテキスト専用だったのに対し、3.7ではUIスクリーンショットやドキュメント、チャートなどの画像を直接理解できます。Visual Searchツールで長尾エンティティを検索したり、Pythonツールで画像の切り出しや拡大を行ったりする機能も備えています。StepFunはテスト中に、フロントエンドコード生成後にGUIで描画結果を確認してから修正するといった、視覚ツールと非視覚ツールの組み合わせが自然に発生したと報告しています。

エージェントハーネスとの互換性

本番環境ではClaude Code、Hermes Agent、OpenClaw、KiloCodeなど複数のエージェントハーネスが混在します。Step 3.7 FlashはStepFun社内のStep-SWE-Benchで、ハーネスごとのスコアが64.5%〜71.5%に収まり、Step 3.5 Flashの43%〜73%と比べてばらつきが小さくなりました。Hermes Agentで67.5%、OpenClawで67.0%を記録しており、主要ハーネスでの安定性が改善されています。

ベンチマークで見る実力

コーディング面では、SWE-Bench Proで56.3%（3.5 Flashの51.3%から+5ポイント）、Terminal-Bench 2.1で59.5%（3.5 Flashの53.4%から+6.1ポイント）です。汎用エージェント指標のClawEval-1.1では67.1%を達成し、Step 3.5 Flashの43.6%から大幅に伸びています。HLE with Toolsでは47.2%、BrowseCompでは75.8%と、検索を伴う推論でもFlash級モデルの中では上位に位置します。

長文処理では256Kコンテキストに対応し、AA-LCRベンチマークで63.9%のスコアを記録しています。大規模な財務レポートの一括解析や、複数ソースを横断する検索ループなど、長いコンテキストを要するエージェントタスクに向いています。

料金と利用方法

https://platform.stepfun.ai

API料金は、入力トークン（キャッシュミス）0.20ドル/100万トークン、キャッシュヒット時0.04ドル/100万トークン、出力1.15ドル/100万トークンです。StepFun Open Platform（グローバル版・中国版）、OpenRouter、NVIDIA NIMから利用できます。

ローカル実行には最低120GBの統合メモリが必要で、NVIDIA DGX Station、AMD Ryzen AI Max+ 395、128GB以上のMac Studio/MacBook Proなどが対象です。推論基盤としてvLLM、SGLang、Hugging Face Transformers、llama.cppに対応しています。モデルIDはstep-3.7-flashです。

Step 3.5 Flashとの主な違い

項目	Step 3.7 Flash	Step 3.5 Flash
マルチモーダル	対応（1.8B ViT）	非対応
アクティブパラメータ	約11B/トークン	約11B/トークン
SWE-Bench Pro	56.3%	51.3%
ClawEval-1.1	67.1%	43.6%
Advisor Mode	対応	非対応
ハーネス間のスコア差	64.5%〜71.5%	43%〜73%

同じSparse MoEの11Bアクティブ構成を維持しつつ、ビジョン入力とツール連携の信頼性が大きく強化されたアップデートと言えます。DeepSeek V4 Flash（284B総パラメータ・13Bアクティブ）と比べても、ClawEval-1.1やHLE with Toolsで優位な場面があります。

開発者が注目すべきポイント

Step 3.7 Flashは、198B総パラメータ・約11BアクティブというFlash-tierの効率を保ちながら、エージェントループの完走を実用レベルで狙えるモデルです。Ronin氏の実証報告は個人検証にとどまりますが、StepFun公式のベンチマークでもClawEval-1.1やStep-SWE-Benchで一貫した改善が示されています。Advisor Modeによるコスト抑制、主要エージェントハーネスとの互換性、Apache 2.0でのオープンウェイト公開が揃っており、エージェント開発の実行エンジンとして試す価値は十分にあります。