AIエージェントはデモで完璧に動く。本番に出した途端に壊れる。

Plurai(プルライ)が2026年4月28日に公開した「vibe-training」は、この構造的な問題に向き合うアプローチです。守らせたいポリシーを自然言語で記述するだけで、エージェントに組み込めるevalとガードレールが数分で生成されます。生成物はAPIエンドポイントとして即座に本番投入できます。

この記事でわかること:

  • vibe-trainingが解決する課題と仕組み
  • 核心技術BARREDとLLM-as-a-judgeとの違い
  • コスト・レイテンシ・精度の比較データ
  • Pluraiプラットフォームの全体像と利用方法

https://www.plurai.ai

デモでは動いて本番で壊れる理由

AIエージェントの開発では、テスト時に用意したシナリオは通過できても、本番でのユーザーの入力はその想定を容易に超えます。ポリシー違反、ハルシネーション、意図しないツール呼び出し——こうした失敗は事前のシナリオ作成では完全に防げません。

テストを充実させようとすれば別の問題が生じます。シナリオを手作業で増やすのは時間がかかりすぎる。LLMを評価者に使う「LLM-as-a-judge」は精度は高いが、推論コストが重く、推論遅延も本番のリアルタイム監視に向かない。

Pluraiが自社サイトで示すデータでは、GPT-5 miniをLLM-as-a-judgeとして使う場合と比較して、同社のSLMベースアプローチは8倍以上安価で失敗検出率も43%以上高いと報告されています。

vibe-trainingの仕組み

vibe-trainingの操作ステップはシンプルです。

  1. エージェントに課したいポリシーや振る舞いの期待値を自然言語で書く
  2. PluraiがそのテキストをもとにSLM(小規模言語モデル)を構築する
  3. 生成されたSLMが、本番APIエンドポイントとしてデプロイされる

このフローがPluraiの言う「intentからproduction-ready API endpointまで数分」の意味です。評価シナリオを手作業で設計したり、プロンプトエンジニアリングでLLMを評価者に仕立てたりする作業が不要になります。

核心技術:BARRED

vibe-trainingを支える研究が「BARRED」です。Plurai共同創業者のElad LeviとArnon Mazzaが2026年4月28日に発表した手法で、ポリシーを記述したプロンプトを高精度・低コストなガードレールに変換します。

BARREDの特性は以下の通りです。

推論レイテンシ: 100ms未満。LLM-as-a-judgeでは数百msから数秒かかる推論を、特化したSLMで高速処理します。エージェントの出力をリアルタイムで監視する用途に実用的な速度です。

コスト: GPT-5 miniと比べて8倍以上削減。本番トラフィックのすべての入出力を評価するなら、コスト効率は選定の主要条件になります。

精度: 失敗検出率でGPT-5 miniを43%以上上回ります。汎用LLMではなくドメイン特化したSLMを使うことで、対象ポリシーに対する分類精度が向上します。

PluraiはNVIDIA NeMotronnおよびNIMとの連携実績も持ち、SLMを効率的に動かすインフラとしてNVIDIAのエコシステムを活用しています(参考)。

プラットフォームの全体像

Pluraiのプラットフォームはvibe-training(Evals & Guardrails機能)に加え、Simulation機能も提供します。

Simulation機能は、本番環境を模倣した大量のシナリオを自動生成してエージェントをストレステストします。自社データによれば本番エッジケースのカバレッジを15倍に拡大し、本番投入までの時間を7分の1に短縮、ポリシー違反とハルシネーションを100分の1に削減するとしています。

オープンソースの評価フレームワーク「IntellAgent」も公開されており、GitHubで1,200以上のスターを集めています。Apache 2.0ライセンスで商用利用でき、エージェントの診断や最適化に向けたシミュレーション機能を持ちます。

https://github.com/plurai-ai/intellagent

PluraiはGartnerの「AI評価・オブザーバビリティプラットフォーム市場ガイド 2026」にも掲載されており、エンタープライズ導入の検証も進んでいます。

利用方法と料金

Pluraiプラットフォームはサイトから無料で試せます。「Try it free」からアカウントを作成し、自分のエージェントに適用したいポリシーを入力するだけで、eval・ガードレールの生成を体験できます。エンタープライズプランの料金は公開されておらず、デモ予約から確認する形になります。

本番エージェントの評価基盤をゼロから構築するコストと比べたとき、vibe-trainingの実際の変換精度は自分のユースケースで試すのが最も早い判断基準になります。