富士通PHOTONがGPU効率475倍 LLM推論の仕組み

「GPU当たり475倍」という数字は、1回のチャットが475倍速くなる話ではありません。富士通が2026年6月24日に発表したLLM向け新アーキテクチャ「PHOTON」は、GPUメモリあたりに出せるトークン数を大幅に増やす設計です。LLM運用のボトルネックであるKVキャッシュの肥大化を、階層的な文脈処理で抑える研究として注目されています。

この記事では、PHOTONが何を変え、475倍という数値がどの条件で出たのか、既存のTransformerと何が違うのかを整理します。

この記事でわかること

PHOTONの正式名称と、理化学研究所などとの共同研究体制
475倍が指す「マルチクエリー性能」の意味
ボトムアップ・エンコーダとトップダウン・デコーダの階層構造
9クエリー統合でTransformer並みの品質に届く理由
ACL 2026での発表予定と、商用化までの見通し

475倍は「1回の応答速度」ではない

富士通は2026年6月24日、大規模言語モデル（LLM）の推論コストを下げる新アーキテクチャ「PHOTON（Parallel Hierarchical Operation for TOp-down Networks）」を発表しました。理化学研究所革新知能統合研究センター（RIKEN AIP）、東京科学大学、東海大学との共同研究によるものです（参考）。

発表資料や論文で示された「最大475倍」は、GPUリソース当たりのマルチクエリー性能、すなわち単位メモリあたりのスループット（TPM: Throughput per Memory）を指します。論文では1.2Bパラメータモデルのデコード重視条件（入力128トークン・出力2048トークン）で、従来のTransformerが2.56 K tokens/s/GiB、PHOTONが1216.67 K tokens/s/GiBとなり、約475倍の差が出ています（参考）。

1回の質問に対する応答が475倍速くなるわけではありません。同じGPUメモリ内で、複数の生成処理をどれだけ並列に回せるかを測った指標です。長文生成や多数の問い合わせを同時にさばくサーバー運用で効いてくる数値と捉えるのが正確です。

Transformerが抱えるKVキャッシュの壁

現在のLLMの主流であるTransformerは、文章をトークン（おおよそ単語相当の短い単位）に分解し、過去のトークンとの関係を逐次たどりながら次の語を出します。生成が進むほど、過去の計算結果を保持するKVキャッシュ（Key-Value Cache）が長くなり、GPUの演算能力ではなくメモリ帯域の限界に当たりやすくなります。

入力が長い、あるいは多数のクエリを同時に処理する場面では、このメモリ律速が顕著です。富士通の発表でも、Transformerではシーケンス長に比例してKVキャッシュが増え、ハードウェアのボトルネックが演算器からメモリ帯域へ移ると説明されています（参考）。

PHOTONは、この構造を正面から変えるアーキテクチャとして位置づけられています。

PHOTONは「意味のまとまり」を階層処理する

https://arxiv.org/html/2512.20687v1

PHOTONは、トークンを横方向に1つずつなぞるのではなく、複数の解像度で文脈を扱う階層型の自己回帰モデルです。論文の著者らは、自然言語が単語・文・段落のように階層を持つことに着目し、平坦なトークン列の走査をやめたと述べています。

構成は大きく2つです。

ボトムアップ・エンコーダ — 隣接するトークンをチャンク（塊）にまとめ、粗い文脈表現へ圧縮していきます。レベルが上がるほど情報密度が下がり、系列長が短くなります。

トップダウン・デコーダ — 粗い潜在表現から、チャンク内の局所的な自己回帰デコーダで細かいトークン表現を再構成します。各チャンク内の注意範囲は固定され、全体の系列長に比例して伸びません。

推論時は、階層的なプリフィル（事前計算）のあと、粗いレベルで生成を進めつつ、必要な箇所だけトークン単位の詳細を復元します。論文では「recursive generation（再帰的生成）」と呼ばれる手法も採用し、新トークンごとにボトムアップ再エンコードを繰り返さず、粗いストリームだけを更新してデコード時のKVキャッシュ往復を減らしています。

実験設定では階層は2段（チャンク長4×4）、600M・900M・1.2Bの3規模で学習し、比較対象はLLaMA系のバニラTransformerとBlock Transformerです。学習データはThe Pile（約1340億トークン）、評価はNVIDIA DGX H200上で行われました（参考）。

マルチクエリー統合で品質と効率を両立する

PHOTON単体の効率化に加え、富士通は「マルチクエリー統合技術」も組み合わせています。同一の問題に対し、表現を少しずつ変えた複数のクエリを並列生成し、多数決や最良候補の選択で最終回答をまとめる方式です（参考）。

従来、この手のテスト時スケーリングは計算コストが増える代わりに精度を上げる手法でした。PHOTONは1回の生成に要するKVキャッシュが小さいため、同じGPUメモリ予算内で複数の生成を並列に走らせやすくなります。富士通の発表では、9本のクエリを統合するだけで従来のTransformerと同水準の性能に届いたと報告されています（参考）。

1.2Bモデルでは言語モデリング品質（Wikitextのパープレキシティ）がわずかに下がる一方、メモリ効率とスループットで大きな利得が出ています。論文の表では、デコード重視条件でKVキャッシュを約10.8倍削減し、スループットを約43.8倍に引き上げたと記載されています（参考）。

既存モデルへの差し替えではなく、新規学習が前提

PHOTONは既存のLlama系モデルの重みをそのまま流用するプラグインではありません。階層エンコーダ・階層デコーダ・再構成損失・次文脈予測損失を含む別アーキテクチャとして、ゼロから学習する必要があります。論文の著者らも、評価は最大2048トークンのコンテキストに限定され、最大1.2Bパラメータ規模である点を限界として挙げています（参考）。

富士通は今後、法人向けAI基盤「Fujitsu Kozuchi」や日本語LLM「Takane」への適用を進める方針を示しています。生成AIの普及でGPU需要とデータセンター電力が社会課題化する中、推論効率をアーキテクチャ設計から変える研究として位置づけられています（参考）。

ACL 2026でオーラル発表へ

研究成果は論文「PHOTON: Hierarchical Autoregressive Modeling for Lightspeed and Memory-Efficient Language Generation」として2025年12月にarXivへ公開済みです。2026年7月2日から米国サンディエゴで開催される自然言語処理の国際会議ACL 2026のオーラルセッションで発表される予定です（参考）。

Semi-journalの報道でも、富士通の新設計概念としてGPU当たりのマルチクエリー性能が最大475倍上回ると紹介され、半導体・AI実務者の関心を集めています（参考）。

読者が押さえるべきポイント

PHOTONは、LLM推論のコスト構造そのものを変えようとする日本発のアーキテクチャ研究です。475倍という数字は派手ですが、単一応答の高速化ではなく、GPUメモリあたりのマルチクエリー・スループットを示す値です。階層的な文脈圧縮でKVキャッシュの肥大化を抑え、並列生成とマルチクエリー統合を組み合わせることで、少ないGPUでも多くの推論を回せる設計になっています。商用サービスへの組み込みはこれからですが、LLM運用コストの議論では「モデルサイズ」だけでなく「アーキテクチャの効率」も見る時代が来つつあります。