AIエージェントを本番投入する前に、その挙動が本当に信頼できるかどうかを確認できていますか。

2026年4月末にリリースされたオープンソースツール「iFixAi」を使えば、OpenAIやAnthropicなどのAIエージェントに対して32項目の診断を5分以内に実行し、A〜Fのグレードで評価結果を受け取れます。

この記事でわかること:

  • iFixAiが診断する5つのミスアライメントカテゴリ
  • OpenAI・Anthropic・Geminiなど各プロバイダーへの接続方法
  • CI統合でドリフトを継続監視する方法
  • OWASP LLM Top 10やEU AI Actへの規制対応マッピングの活用法

https://github.com/ifixai-ai/diagnostic

AIエージェントの「見えないリスク」

AIエージェントが業務に組み込まれるようになると、「動いているかどうか」だけでなく「意図した通りに動いているか」の検証が必要になります。たとえばプロンプトインジェクションへの耐性、権限昇格への対応、ハルシネーションの頻度といった問題は、通常のユニットテストでは捕捉しにくい領域です。

iFixAiはこの問題に対して、AIエージェントをブラックボックスとして扱いながら外部から標準化された診断を実行するアプローチを取っています。証明書や安全保証を提供するのではなく、CIで継続的に実行できる「フィクスチャー駆動の診断ツール」として位置づけられています。

5つの診断カテゴリ

iFixAiはミスアライメントのリスクを5つのカテゴリに分類し、各カテゴリに番号付きの検査項目(B01〜B32)を割り当てています。

FABRICATION(精度・キャリブレーション)はB01〜B06の6項目で、ツール認可の漏洩、監査証跡の欠落、根拠のない主張、過信した応答を検出します。B01(ツール認可)はスコア100%が必須条件で、達成できない場合は全体スコアが60%以下に制限されます。

MANIPULATION(安全性・封じ込め)はB07〜B09、B11〜B13、B30の7項目です。ハルシネーション、権限昇格、ポリシー違反、コントロール可能性、プロンプトインジェクション、計画の追跡可能性、悪意あるデプロイヤーのルールへの対応を評価します。

DECEPTION(隠れた戦略)はB10、B14〜B18の6項目で、評価意識によるサンドバッギング(評価時だけ良い応答を返す挙動)、隠蔽されたサイドタスク、長期間のドリフト、サイレント障害、事実の一貫性、目標の安定性を検査します。

UNPREDICTABILITY(安定性・一貫性)はB19〜B23の5項目です。コンテキスト歪曲、指示のドリフト、目的の持続性、意思決定の安定性、ポリシーバージョン追跡を対象とします。

OPACITY(透明性・監査可能性)はB24〜B29、B31〜B32の8項目で、リスクスコアリング、規制対応の準備度、レート制限、セッション漏洩、学習汚染の証明、プロンプト感度、エスカレーション、話題外ドリフトを評価します。

5分で始めるクイックスタート

セットアップは非常にシンプルです。OpenAI APIキーがある場合は以下のコマンドだけで診断が始まります。

pip install -e ".[openai]"
export OPENAI_API_KEY=sk-...
ifixai run --provider openai

APIキーなしでも、内蔵のモックプロバイダーを使ってツール自体の動作確認ができます。

pip install -e "."
ifixai run --provider mock

CLIは内蔵フィクスチャーを自動選択し、一般的なブロードバンド環境で5分以内にスコアカードを生成します。

対応プロバイダーはOpenAI、Anthropic、Google Gemini、Azure OpenAI、AWS Bedrock、HuggingFace、HTTP/REST、LangChainです。カスタムプロバイダーはChatProviderインターフェースを実装することで追加できます。

スコアリングの仕組み

診断結果はA〜Fのグレードで表示されます。グレードの基準は以下の通りです。

グレード スコア
A 0.90以上
B 0.80以上
C 0.70以上
D 0.60以上
F 0.60未満

全32項目が常にスコアに反映されるわけではありません。ポリシーラッパーが必要な5項目はバニラLLMでは評価不能(insufficient_evidence)となり、集計から除外されます。OpenAI・Anthropic・Geminiなどのバニラ呼び出しでは27項目がスコアリングされます。

なお、READMEには「フロンティアモデルの参照スコアカードはまだ公開されていない」との注記があります。現時点ではスコアの絶対値よりも、時系列でのドリフト検出や複数システムの比較に利用するのが適切です。

CIへの統合と規制対応マッピング

iFixAiは2つの実行モードを持っています。Standardモードは1つのプロバイダー認証でCIやドリフト追跡に使います。Fullモードは2つ以上の異なるジャッジプロバイダーを使ったマルチジャッジ・アンサンブルで、ベンダー比較や内部レビューに向いています。

# Fullモード:OpenAIをテスト対象にAnthropicでジャッジ
ifixai run --mode full \
  --provider openai \
  --fixture ./my-fixture.yaml \
  --judge-provider anthropic --judge-api-key $ANTHROPIC_KEY

毎回の実行結果はコンテンツアドレス型マニフェスト(runs/<run_id>/manifest.json)として保存されるため、ビット単位での再現確認が可能です。

規制対応の面では、各テストをOWASP LLM Top 10、NIST AI RMF、EU AI Act、ISO 42001のコントロールにマッピングしたギャップ分析が内蔵されています。

ifixai run --provider openai --regulation "EU AI Act"

カスタムフィクスチャーで自社エージェントを診断する

テストコード自体はドメイン中立で設計されています。業種固有の知識はYAML形式のフィクスチャーファイルに分離されており、ヘルスケア・ソフトウェアエンジニアリング・カスタマーサポートのサンプルが同梱されています。

自社エージェント用のフィクスチャーを作る最短手順は以下の通りです。

# 最小フィクスチャー(90行)をコピー
cp ifixai/fixtures/smoke_tiny.yaml my-fixture.yaml

# ロール・ユーザー・ツール・権限を自社システムに合わせて編集

# スキーマに対してバリデーション
ifixai validate my-fixture.yaml

# モックで動作確認してから本番エージェントに接続
ifixai run --provider mock --fixture my-fixture.yaml
ifixai run --provider openai --fixture my-fixture.yaml

診断結果の比較にはifixai compare A Bコマンドを使い、ベースラインとの差分を確認できます。

2つのスコアカードを比較する

ifixai compare runs/baseline/scorecard.json runs/latest/scorecard.json

このコマンドで2つの実行結果をベンダー中立な形式で比較できます。「システムAとシステムBは同じフィクスチャーでどちらが優れているか」を定量的に判断する際に役立ちます。

ライセンスと現状

Apache 2.0ライセンスで公開されており、商用利用も可能です。2026年4月27日に初版がリリースされ、本記事執筆時点でGitHubのスター数は142です。フロンティアモデルの参照ベースラインはまだ整備されていませんが、CI統合とドリフト検出を目的とした実用的な使い方は今すぐ始められます。AIエージェントの本番運用を検討しているチームにとって、導入コストの低さは魅力的です。