DigitalOcean Evaluations GAでLLM比較

パブリックベンチマークのスコアだけでは、本番の品質は読み取れません。

2026年7月1日、DigitalOceanはInference Engine向けの「DigitalOcean Evaluations」を一般提供（GA）しました。LLM-as-a-Judge（LLMを審査役に据えて出力を採点する方式）で、モデルや推論ルーターの品質・遅延・コストを同一ワークフローで比較できます（参考）。

この記事では、GAで追加された機能と、開発チームが本番投入前に何を検証できるかを整理します。

この記事でわかること

DigitalOcean Evaluationsで比較できる対象と評価方式
6つの既定メトリクスとカスタムルーブリックの使い分け
プリセット・データセット管理・MCP連携の位置づけ
料金体系と利用上の制限

一般提供で何が変わったか

DigitalOcean Evaluationsは、DigitalOcean Inference Engine上でLLMや推論ルーターを評価する機能です。2026年7月1日のX投稿で一般提供が告知され、同日付の公式ブログでも本番向けのモデル・ルーター検証基盤として位置づけられています（参考）。

これまで別ツールを組み合わせていた「自社データでの品質確認」と「本番エンドポイントでの性能計測」を、Inference Engineの管理画面とAPIに統合した点がGAの核心です。評価対象はServerless Inferenceのカタログモデル、Dedicated Inferenceの専有GPUエンドポイント、Hugging FaceやSpacesから取り込んだBYOM（Bring Your Own Model）モデル、Inference Routerのルーティング設定です。いずれも本番と同じエンドポイントを候補（candidate）として走らせます。

なぜベンチマークだけでは足りないか

DigitalOceanは製品ページで、公開ベンチマークは自社プロンプトや本番ワークロードを反映しないと指摘しています（参考）。ベースモデル、ファインチューン版、外部取り込みモデル、ルーティングポリシーが別システムに散在すると、比較のたびに独自スクリプトが必要になり、結果の再現性も落ちます。

Evaluationsはこの断片化を解消するため、データセットのアップロードから審査用LLM（judge）の設定、スコアリング、レイテンシ・トークン・コストの計測までを一画面で扱います。TTFT（Time To First Token、最初のトークンが返るまでの時間）やスループットも品質スコアと並べて確認できるため、「精度は高いが遅い」「安いが有害性リスクがある」といったトレードオフを同じ実行結果から読み取れます。

LLM-as-a-Judgeと6つの既定メトリクス

https://www.digitalocean.com/products/inference-engine/evaluations

Evaluationsの採点はLLM-as-a-Judge方式です。候補モデルがデータセットの各プロンプトに答え、別のjudgeモデルがルーブリックに沿って0〜1のスコアと根拠（rationale）を返します。項目ごとにスコアと理由をドリルダウンでき、どの入力で失敗したかを追跡できます。

既定メトリクスは6種類です。correctness（事実の正確さ）、completeness（要点の網羅性）、faithfulness（データセットの正解列との一致度）、PII（個人情報の漏えい）、toxicity（有害・攻撃的表現）、bias（偏見的表現）です。faithfulnessはデータセットにground truth列がある場合のみ有効になります。

ドキュメントでは、correctness・completeness・faithfulnessはスコアが高いほど良く、PII・toxicity・biasは低いほど良いと整理されています（参考）。評価実行ごとに「スターメトリクス（star metric）」を1つ選び、合格閾値を設定して行単位の合否を判定します。

カスタムルーブリックとプリセット

ドメイン固有の要件はカスタムメトリクスで定義します。メトリクス名、説明、採点プロンプトを登録し、judgeに「サポートポリシー遵守度」など独自基準で採点させられます。ground truthが必要なメトリクスは、データセット側に正解列がないとスキップされます。

評価プリセットは、judgeモデル、メトリクス、システムプロンプト、温度などのパラメータ一式を保存する機能です。v1とv2のファインチューンを同条件で再実行し、設定ドリフトなく結果を横並び比較できます。公式ブログは、プリセットがないと再実行のたびに設定を組み直し、バージョン間の比較が困難になると説明しています（参考）。

データセット管理と自動評価

データセットはCSVまたはJSONL形式で、1ファイルあたり最大1,000行・1GBまでです。ConsoleまたはcURLでアップロードし、バージョン管理と評価実行への紐づけが可能です。合成データの自動生成は非対応で、自社データのアップロードが前提です（参考）。

MCP（Model Context Protocol）対応により、モデル登録イベント、デプロイトリガー、スケジュールから評価ジョブを起動できます。APIとSDKも用意され、CI/CDパイプラインの一工程として評価を組み込めます。同時実行できる評価ランは最大3件、データセット数はティアにより10〜100件、カスタムメトリクスは50件までです（参考）。

使い方の流れ

https://docs.digitalocean.com/products/inference/how-to/evaluate-models/

DigitalOcean Control PanelのINFERENCE → Evaluationsから「New Evaluation」を開き、データセット、候補モデル（またはルーター）、judgeモデル、メトリクス、スターメトリクスを選んで実行します。保存済みプリセットを読み込んで微調整することもできます。

judgeモデルとしてはDeepSeek-R1-Distill-Llama-70BやQwen3-32Bなどが利用可能です。OpenAIやAnthropicの商用モデルを候補またはjudgeに使うにはtier 2アカウントが必要で、Consoleでの事前支払いでアンロックできます（参考）。

実行後は全体スコア、候補・judgeそれぞれのトークン使用量、候補モデルの平均・パーセンタイル・最小・最大レイテンシが表示されます。2つの評価ランを選んで設定差分やメトリクス合格率、行単位の出力を比較する機能もあります。結果はJSONでダウンロード可能です。

API利用時は、まず /v2/gen-ai/model_evaluation/datasets/file_upload_presigned_urls でデータセットをアップロードし、続けて /v2/gen-ai/model_evaluation_runs にPOSTして評価を開始します。

料金とデータ取り扱い

課金は候補モデルとjudgeモデルが消費した推論トークンに基づきます。データセットと結果のストレージは、最初の12か月は追加料金なしです（参考）。

入力・出力・ground truthは採点のためjudgeモデルのプロバイダーに送られますが、DigitalOcean外には保存されず、モデル学習にも使われないと公式は説明しています。Evaluationsは助言ツールであり、本番デプロイ前に出力を人手で確認するようドキュメントでも推奨されています（参考）。

スタンドアロン評価ツールとの違い

LangSmithやPromptfooなどの汎用評価基盤と比べ、Evaluationsの強みはInference Engineとのネイティブ統合です。評価対象が本番と同じServerless・Dedicated・BYOM・Routerエンドポイントであるため、計測結果と実際のユーザー体験の乖離を抑えやすい構造です。品質スコアとレイテンシ・コストを別ツールで突合する必要もありません。

一方、EvaluationsはDigitalOcean Inference上のモデルとルーターに評価対象が限定されます。他クラウドのAPIを横断比較する用途には向きません。自社スタックがDigitalOcean Inferenceに集約されているチームにとって、GAは評価基盤の内製コストを下げる更新と言えます。

本番投入前の検証をルーチン化する

DigitalOcean Evaluationsの一般提供は、モデル選定を「リーダーボードの順位」から「自社データでの反復検証」へ寄せる動きです。6つの既定メトリクス、カスタムルーブリック、プリセット、MCP連携により、デプロイ前の品質ゲートを再現可能なワークフローに組み込めます。Inference Engineをすでに使っているチームは、Control Panelから最初の評価ランを走らせ、候補モデルとルーター設定の差分を数字で確認するのが近道です。