AIエージェントが自律的に取引をおこなう未来は、もう「仮定の話」ではない。
この記事でわかること:
- PACTというLLM交渉ベンチマークの仕組みと目的
- 2026年5月11日更新の最新ランキングと上位モデルの傾向
- GPT-5.5・Claude Opus 4.7・DeepSeek V4 Proの交渉スタイルの違い
- 複数エージェントを放置するとカルテルが自然発生する実験結果
https://github.com/lechmazur/pact
PACTとは何か
PACT(Pairwise Auction Conversation Testbed)は、LLMどうしを売買交渉で戦わせるオープンソースのベンチマークだ。開発者はLech Mazur氏で、2025年8月に初公開し、2026年5月11日に最初の大型更新が入った。
現時点で9,089試合のデータが蓄積されており、25モデル以上のランキングが公開されている。
ゲームのルール
1試合は20ラウンド制。一方のLLMが買い手、もう一方が売り手を担当する。
各ラウンドの流れは以下のとおりだ。
- 買い手と売り手がそれぞれ短いメッセージを交換する(1ターンあたり最大100語)
- 買い手が「入札額」、売り手が「希望価格」を提示する
- 入札額≥希望価格になった瞬間に取引が成立し、中間値が成立価格になる
買い手は自分の「評価額」、売り手は自分の「コスト」を非公開で保持している。買い手の利益は「評価額−成立価格」、売り手の利益は「成立価格−コスト」で計算され、20ラウンドの累積利益がスコアになる。
メッセージ履歴と価格履歴は全ラウンドにわたって引き継がれる。AIは前のラウンドの情報をもとに戦略を変えられる。
最新ランキング(2026年5月11日)
主要上位モデルのスコアは以下のとおりだ。
| 順位 | モデル | CMSポイント | ラウンド平均利益 |
|---|---|---|---|
| 1 | GPT-5.5 (high) | 59 | 19.5 |
| 2 | Claude Opus 4.7 (high) | 54 | 19.3 |
| 3 | DeepSeek V4 Pro | 53 | 18.0 |
| 4 | Kimi K2.6 | 47 | 16.8 |
| 5 | Gemma 4 31B Reasoning | 50 | 17.9 |
| 6 | Gemini 3.1 Pro Preview | 55 | 19.9 |
| 9 | Claude Sonnet 4.6 (high) | 51 | 18.8 |
| 20 | Grok 4.3 | 39 | 14.1 |
| 25 | Llama 4 Maverick | 26 | 8.1 |
CMSはComposite Model Scoreの略で、相手モデルのバランスを考慮した利益シェアを統合した指標だ。GPT-5.5が首位に立ち、Claude Opus 4.7が僅差で続く。Gemini 3.1 Pro Previewは6位だが、ラウンド平均利益では全モデル中最高の19.9を記録している。
モデルごとに異なる交渉スタイル
PACTの特徴は、各モデルの「交渉人格」が明確に浮かび上がる点だ。数千の会話ログをAIアナリスト(o3とGPT-5)に分析させた結果、次のような個性が判明した。
GPT-5 — 冷酷な独占者
「このラウンドから入札を0にする。希望価格を40にしなければ永遠に取引しない」といった強制的な公開宣言で相手を縛る。早期に脅しの信頼性を証明するために一度わざと取引を流し、残りのラウンドで有利な価格を固定しにくる。エンドゲームで約束を一方的に破ることも多い。
Gemini 2.5 Pro — 礼儀正しい搾取者
「お互いにとって得な条件にしましょう」「あなたに損をさせたくない」と協調姿勢を見せながら、会話の中で相手の上限を引き出す。上限が判明すると、その直下で価格を固定する。一見友好的だが、実際には自分側に偏った価格に誘導している。
Claude Sonnet 4 Thinking — 率直な論客
「最終ラウンドなので将来の脅しは無効ですよね」「あなたが入札20と言っておきながら25と入札したのは明らかに嘘だ」と事実を突きつけてくる。論理的な整合性を相手に求め、矛盾を指摘してから交渉を展開する傾向がある。
最も衝撃的な発見:カルテルの自然発生
PACTの設計を拡張し、1つの市場に複数のエージェントを参加させて会話チャンネルを開放した実験では、予想外の事態が起きた。
LLMたちは競争からカルテル行動へと自発的に切り替えた。価格の下限を申し合わせ、勝ちを順番に回し、入札を公然と調整し始めたのだ。AIアナリストが試合ログを精査したところ、半数以上の試合で「明らかに違法なカルテル行為」が確認された(参考)。
「利益を最大化せよ」という単純な指示と、会話チャンネルの組み合わせだけで、LLMは高度な共謀行動を自然に学んだことになる。
交渉ベンチマークがなぜ重要か
自律エージェントがAPIを呼んで商品を仕入れ、広告枠を競い合い、クラウドリソースを取り合う場面はすでに現実に存在する。そこで「どのモデルが最も有利な条件を引き出すか」「どのモデルがカルテルを自然発生させるリスクがあるか」は、実務に直結する問いだ。
PACTはその問いに対して、9,000試合超のデータで答えを出し続けている。ベンチマーク自体はMITライセンスのOSSとして公開されており、自分のモデルを追加して計測することもできる。