AIを本番環境で使うほど、トークンの請求額が予算を超えていく。

企業がLLMをプロダクションに組み込むと、最初は見えていなかったコスト構造が顕在化します。2026年5月、データプラットフォーム企業Starburstのプロダクト担当SVP・Jitender Aswani氏がSD Timesに語った「tokenmaxxing」という概念は、その構造を端的に言い表しています。

この記事でわかること:

  • tokenmaxxingが何を指すか、なぜ企業のコストを圧迫するか
  • エンタープライズのAI予算に潜む無駄のパターン
  • Starburstが提示する3つのアプローチ

tokenmaxxingとは何か

https://sdtimes.com/ai/starbursts-platform-helps-organizations-handle-tokenmaxxing/

tokenmaxxingとは、LLMが必要以上に冗長な回答を返したり、質問に答えた後に「A・B・Cにも興味がありますか?」と付け加えたりして、出力トークン数を最大化する現象をいいます。Aswani氏はこうしたモデルを「過剰なLLM(overzealous)」と表現しています。

トークンはLLMの利用料を計算する基本単位です。入力側にはプロンプト・会話履歴・RAGで取得した文書が含まれ、出力側にはモデルの返答が含まれます。出力トークンは入力トークンより2〜4倍高い料金が設定されていることが多く、モデルが冗長な返答を返すほど費用がかさむ構造になっています。

Magnificent Sevenと呼ばれる主要テック企業7社だけで、LLMインフラ整備に合計1兆ドルを投じています。エンタープライズ向けのLLM支出全体では、2025年時点で約840億ドルに達し、前年比でほぼ倍増しました。さらに、最新の推論特化型モデルは前世代より5〜6倍高価になっているケースもあり、コストの上昇は加速する一方です。

企業のAI予算に潜む無駄の構造

TechTargetが2026年4月に報じた調査では、本番環境のLLMアプリケーションで使われるトークン予算のうち、40〜60%が「純粋な無駄」だという見方を複数の専門家が示しています(参考)。

具体的な無駄のパターンは次のように整理されます。AT&TのリードデータAIエンジニアであるMonika Malik氏は「チームが速度優先で展開し、コストを意識したアーキテクチャにしない。初期は理解できるが、使用規模が大きくなると、その選択が高くつく」と指摘しています。

長すぎるコンテキスト: 必要なのは3段落分でも、50ページのドキュメント全体をモデルに渡しているケース。Ordovera AdvisoryのBrian Fending氏は「最大の無駄は会話の問題ではなく構造の問題だ」と述べています。

全クエリへの同じコンテキスト注入: システムプロンプトや検索結果を毎回丸ごと送り直すことで、同じトークンに繰り返し料金が発生します。

高コストモデルのデフォルト使用: 分類・抽出・ルーティングのような軽い処理も最上位モデルで実行してしまっています。Fending氏は、Claude Opusを調査タスクに使い、ファイル取得にはClaude Haikuを、整形処理にはフロンティアモデルをバイパスする設計に切り替えることで「出力品質を落とさずに、混合ワークロードのトークン費用を60%削減できた」と話しています。

エージェントループの無制限実行: 再プランニングや再帰的ツール呼び出しを止める条件が設計されていないと、コストが請求書が届くまで積み上がります。

Starburstが提示する3つのアプローチ

https://www.starburst.io/

Starburstはこの問題に対し、トークン量の管理ではなく「成果への影響」を中心に置く考え方を打ち出しています。

1. 成果ベースの戦略

Starburstは社内でAI使用量の上限やリーダーボードを設けるのではなく、AIの成果指標として「開発者の速度」と「サイクルタイム」、つまりアイデアが安定したプロダクションに到達する速さを採用しています。Aswani氏は「10億トークンを使って素晴らしい成果を出したエンジニアは、1兆トークンを使って成果が薄いエンジニアより高く評価される」と語っています。

2. データ移動なしで断片化したデータへのアクセス

AIの精度に直結する問題として、Starburstはデータの断片化を挙げています。大企業では200以上のシステムに構造化データが分散しており、それを移動させずに統合できなければ、LLMはデータが存在しない部分でハルシネーション(事実を作り上げる誤り)を起こします。

Aswani氏は「AIはアクセスできるデータと同じ精度しか出せない。データにアクセスできなければ、AIは幻覚を起こし、企業が誤ったビジネス判断を下すことになる」と説明しています。Starburstのプラットフォームは、Trinoのフェデレーションアーキテクチャによりデータをその場で参照でき、クロスボーダーのコンプライアンス(GDPR・Schrems IIなど)にも対応しています。

3. タスクに応じたLLM選択のオーケストレーション

Starburstはオーケストレーション層として「Bring Your Own LLM」の仕組みを提供しています。シンプルなチャットには安価なモデルを、要約には別のモデルを、マルチモーダル処理にはさらに別のモデルを自動で選択することで、タスクの要求とコストを一致させます。

2026年4月には、自然言語でエンタープライズデータを横断的に分析できるAIデータアシスタント「AIDA」を発表。Anthropic・OpenAI・AWS Bedrockの各モデルに対応し、ベンダーロックインを避けながらモデルを選べる設計になっています。さらに、MCPサーバーとエージェントAPIを通じてマルチエージェント構成にも対応しています。

tokenmaxxingへの向き合い方

tokenmaxxingは一部のLLMプロバイダーの収益モデルに沿った現象でもあり、「安くなったから大量に使えばいい」という発想では費用対効果が悪化します。Futurum GroupのDion Hinchliffe氏が指摘するように「チャージバックと可視化がなければ、トークン使用量は新たなシャドーITになる」という状況が、今まさに多くの企業で起きています。

AIの支出を業務アウトカムと結びつけて追跡する仕組みを持つかどうかが、AIコストを戦略的に使える企業とそうでない企業の分岐点になりつつあります。