AIが人間の代わりに交渉し、実際にモノを売買する。2025年12月、Anthropicはそんな実験を社内で実施した。

この記事でわかること:
– AnthropicのProject Dealがどんな実験だったか
– AIエージェントだけで186件の取引が成立した経緯
– 使うモデルの性能差が取引結果に直結する理由
– 不平等が気づかれにくいという問題と、今後の課題

https://www.anthropic.com/features/project-deal

「19個のピンポン玉」から始まった実験

Anthropicの社員Mikaela氏は、自分のAIエージェントに「5ドル以下で何か自分へのプレゼントを買っていい」と伝えた。エージェントが選んだのは、ピンポン玉19個・3ドル。理由は「完璧な球体の可能性」だった。

この購入はAnthropicのProject Dealという実験の中で起きた。実験を通じて得られたのは微笑ましいエピソードだけではない。AIエージェントが代理で取引を行う世界で、何が起きうるかを示す具体的なデータが得られた。

実験の概要—69人・$100・完全自律

Anthropicは2025年12月、社員69人を対象にAIが運営するフリマ市場を1週間限定で開設した。参加者はまずClaudeとの10分間のインタビューを受け、売りたいもの・買いたいもの・希望価格・交渉スタイルを申告する。その情報をもとにカスタマイズされたClaudeエージェントが各人に割り当てられ、あとは人間が一切介入しない形でSlack上の専用チャンネルで取引が始まった。

参加者には$100の予算が与えられ、エージェントが合意した取引の結果は実際に精算された。売れたものは本当に持ち寄り、現物を交換した。

エージェントは商品リストの作成、値付け、交渉、カウンターオファー、最終合意まですべて自然言語で処理した。人間が確認するステップはどこにもなかった。

結果—186件・約4,200ドルの取引が成立

実験は予想以上に機能した。出品アイテムは500点超、成立した取引は186件、総取引額は約4,200ドルに達した。参加者が取引の公平性を1〜7のスケールで評価した結果、平均はほぼ4(中央値)で、全体的な満足度も高かった。

参加者の約半数は「このサービスに対価を払っても使いたい」と答えた。AIが商品の売買を代行するサービスへの需要は、少なくともこの実験の範囲では確認できた。

なお、一人の社員はエージェントが自分がすでに持っているスノーボードと同一のものを購入していた。10分間のインタビューだけからClaudeが好みを正確に再現した結果だが、「人間なら二度も同じものを買わない」という点では明確な限界でもある。

隠れた実験—OpusとHaikuで結果が変わる

参加者が知らなかった事実がある。Anthropicは同時に、秘密裏にもう一つの実験を走らせていた。

同じ市場を4本並行して稼働させ、そのうち2本は全員がClaude Opus 4.5(当時のフロンティアモデル)、残り2本は参加者の半数がClaude Haiku 4.5(より小型のモデル)に密かに差し替えられた。参加者はどちらのモデルが担当しているか知らされなかった。

結果の差は明確だった。

取引件数: Opusの担当者はHaiku担当者より平均2件多く取引を成立させた。

売却価格: 同じ商品をOpusが売ると、Haiku比で平均3.64ドル高く売れた。壊れた折りたたみ自転車の例が典型的で、Haiku担当者は38ドルで売ったが、Opus担当者は同じ買い手・同じ売り手の組み合わせで65ドルを引き出した。70%の価格差だった。

買い付け価格: Opus担当者は同じ商品をHaiku比で平均2.45ドル安く購入した。

取引品の中央値が12ドルという規模感を考えると、数ドルの差は相対的に大きい。

不平等が見えない—最も不安な発見

最も問題を示唆するのは価格差の大きさではなく、「差に気づかれなかった」という事実だ。

Haiku担当者とOpus担当者が取引の公平性を評価した結果、スコアはほぼ同じだった(Opus: 4.05、Haiku: 4.06)。両方のモデルを経験した参加者28人のうち、11人はHaikuの結果の方が満足度が高かったと回答した。客観的には不利な取引をしていながら、主観的には気づいていなかった。

Anthropicはこの結果について、「現実の市場でモデル品質の格差が生じた場合、不利な側はそれに気づかない可能性がある」と指摘している。経済格差は通常、受け取る側が損失を認識できるが、AIエージェントによる格差は体感しにくいという点で新しい種類の問題だ。

交渉スタイルより品質の方が重要

もう一つ興味深いのは、人間が指示した交渉スタイルがほとんど影響しなかった点だ。

「コワーカーに嫌なやつだと思われたくないので穏やかに交渉してほしい」と指示した参加者も、「まず強気で値を下げてから交渉しろ」と指示した参加者も、成約率や成約価格に統計的に有意な差はなかった。攻撃的な売り手の成約価格がやや高かったが、それは最初の提示価格を高く設定していたためで、それを除外すると差は消えた。

一方でClaudeはスタイルの指示には忠実だった。「落ちぶれたカウボーイ風に喋れ」と言われたエージェントは、交渉を通じて終始カウボーイ口調を維持した。ただし、そのスタイルが取引結果を改善することはなかった。

今後の課題—法制度はまだ追いついていない

Project Dealはあくまで社内実験であり、参加者は自発的に参加した同僚だった。しかし、Anthropicは「エージェント同士が商取引を行う世界はそう遠くない」と見ている。

現時点では、AIエージェントが人間の代わりに契約や取引を行う際の法的枠組みはほぼ存在しない。企業間でAIが自律的に取引を進める場合、価格操作やプロンプトインジェクションのリスクも生まれる。

また、人間向けの電子商取引でアテンション最適化が普及した結果、広告や依存性の問題が生じたように、AIエージェント向けに最適化されたコマースが人間の利益とは異なる方向に進む可能性もある。

実験の結論として、Anthropicは次のように述べている。「質の高いエージェントへのアクセスが市場優位性をもたらすことは確認できた。その格差が既存の経済格差を強化するかどうかは、これからの研究課題だ」

ピンポン玉19個の購入という小さなエピソードが、AIエージェント経済という大きな問いを浮かび上がらせた実験だった。