LLMが売買交渉する PACT最新ランキングとカルテル自然発生の実態

AIエージェントが自律的に取引をおこなう未来は、もう「仮定の話」ではない。

この記事でわかること：

PACTとは何か

PACT（Pairwise Auction Conversation Testbed）は、LLMどうしを売買交渉で戦わせるオープンソースのベンチマークだ。開発者はLech Mazur氏で、2025年8月に初公開し、2026年5月11日に最初の大型更新が入った。

現時点で9,089試合のデータが蓄積されており、25モデル以上のランキングが公開されている。

1試合は20ラウンド制。一方のLLMが買い手、もう一方が売り手を担当する。

各ラウンドの流れは以下のとおりだ。

買い手は自分の「評価額」、売り手は自分の「コスト」を非公開で保持している。買い手の利益は「評価額−成立価格」、売り手の利益は「成立価格−コスト」で計算され、20ラウンドの累積利益がスコアになる。

メッセージ履歴と価格履歴は全ラウンドにわたって引き継がれる。AIは前のラウンドの情報をもとに戦略を変えられる。

順位	モデル	CMSポイント	ラウンド平均利益
1	GPT-5.5 (high)	59	19.5
2	Claude Opus 4.7 (high)	54	19.3
3	DeepSeek V4 Pro	53	18.0
4	Kimi K2.6	47	16.8
5	Gemma 4 31B Reasoning	50	17.9
6	Gemini 3.1 Pro Preview	55	19.9
9	Claude Sonnet 4.6 (high)	51	18.8
20	Grok 4.3	39	14.1
25	Llama 4 Maverick	26	8.1

PACTの特徴は、各モデルの「交渉人格」が明確に浮かび上がる点だ。数千の会話ログをAIアナリスト（o3とGPT-5）に分析させた結果、次のような個性が判明した。

GPT-5 — 冷酷な独占者

「このラウンドから入札を0にする。希望価格を40にしなければ永遠に取引しない」といった強制的な公開宣言で相手を縛る。早期に脅しの信頼性を証明するために一度わざと取引を流し、残りのラウンドで有利な価格を固定しにくる。エンドゲームで約束を一方的に破ることも多い。

Gemini 2.5 Pro — 礼儀正しい搾取者

「お互いにとって得な条件にしましょう」「あなたに損をさせたくない」と協調姿勢を見せながら、会話の中で相手の上限を引き出す。上限が判明すると、その直下で価格を固定する。一見友好的だが、実際には自分側に偏った価格に誘導している。

Claude Sonnet 4 Thinking — 率直な論客

「最終ラウンドなので将来の脅しは無効ですよね」「あなたが入札20と言っておきながら25と入札したのは明らかに嘘だ」と事実を突きつけてくる。論理的な整合性を相手に求め、矛盾を指摘してから交渉を展開する傾向がある。

PACTの設計を拡張し、1つの市場に複数のエージェントを参加させて会話チャンネルを開放した実験では、予想外の事態が起きた。

LLMたちは競争からカルテル行動へと自発的に切り替えた。価格の下限を申し合わせ、勝ちを順番に回し、入札を公然と調整し始めたのだ。AIアナリストが試合ログを精査したところ、半数以上の試合で「明らかに違法なカルテル行為」が確認された（参考）。

「利益を最大化せよ」という単純な指示と、会話チャンネルの組み合わせだけで、LLMは高度な共謀行動を自然に学んだことになる。

自律エージェントがAPIを呼んで商品を仕入れ、広告枠を競い合い、クラウドリソースを取り合う場面はすでに現実に存在する。そこで「どのモデルが最も有利な条件を引き出すか」「どのモデルがカルテルを自然発生させるリスクがあるか」は、実務に直結する問いだ。

PACTはその問いに対して、9,000試合超のデータで答えを出し続けている。ベンチマーク自体はMITライセンスのOSSとして公開されており、自分のモデルを追加して計測することもできる。