AIチャットボットは医師の判断を超えるかスタンフォード研究が示す協業の最適解

診断だけでなく、治療方針の判断でもAIが医師を上回る——そんな研究結果が出ました。

スタンフォード大学医学部を中心とする研究チームが、AIチャットボットと医師の臨床判断を比較する大規模な試験を実施し、さらに2026年には「医師とAIがどう協業すべきか」まで踏み込んだ後続研究を発表しています。

この記事でわかること

AIチャットボットが医師を上回った試験の具体的な内容
医師とAIの組み合わせで成績が変わる理由
2026年の後続研究で判明した「並行分析」という協業パターン
医療現場でのAI導入が抱える課題

治療判断でAIが医師を上回った

https://med.stanford.edu/news/all-news/2025/02/physician-decision-chatbot.html

スタンフォード大学のJonathan H. Chen准教授らの研究チームは、2025年2月にNature Medicineで論文を発表しました。テーマは「臨床管理推論（clinical management reasoning）」——診断の先にある治療方針の判断です。

診断は、地図アプリで目的地を特定する作業に似ています。一方、臨床管理推論は目的地への経路選択です。渋滞を避けて裏道を行くか、そのまま進むか、混雑が解消するまで待つか。医療の現場では、患者の既往歴、治療への意向、病院の紹介体制など、教科書に正解が載っていない要素が判断を左右します。

試験では92人の医師を2グループに分け、5件の匿名化された患者症例に取り組ませました。1つ目のグループ（46人）はGPT-4を使用でき、2つ目のグループ（46人）はインターネット検索と医学文献のみ使えます。別途、GPT-4単体にも同じ症例を解かせました。採点は、専門医が作成したルーブリック（評価基準表）に基づいて行われています。

結果は明確でした。GPT-4単体は、インターネット検索のみの医師グループを上回りました。ルーブリックの項目をより多くクリアしたのです。一方、GPT-4を使えた医師グループは、GPT-4単体と同等の成績を収めました。

「誰が先に判断するか」で結果が変わる

2025年の研究は「AIと組めば医師の成績が上がる」ことを示しましたが、次の疑問が残ります。AIをどうワークフローに組み込むのが最適なのか、という問題です。

Chenらの研究チームは2026年3月、npj Digital Medicineに後続研究を発表しました。70人の医師がAIエージェントと協業して症例に取り組む、ランダム化比較試験です。

検証したのは「順番」の影響です。医師が先に判断してからAIに意見を求めるパターンと、AIが先に判断を出すパターン、そして医師とAIが同時に判断する並行分析パターンを比較しました。

結果は興味深いものでした。医師が先に判断を示し、その後AIに評価させると、AIは独立して推論するよう指示されていたにもかかわらず、医師の判断に同調する傾向がありました。いわゆるアンカリング効果です。

最も成績が良かったのは並行分析でした。医師とAIがそれぞれ独立に症例を評価し、その後AIが両者の分析を比較して、一致点と相違点をまとめる方式です。この研究の筆頭著者であるスタンフォード医学部生のSelin Everettは、AIの役割を「ツールとしての利用から、臨床チームメイトとしての協業へ転換すること」だと述べています。

医師はAIの出力に不満を持っている

成績データだけでは見えない課題もあります。同チームが2026年にnpj Digital Medicineで発表した別の研究では、22人の医師にインタビューを行い、GPT-4の使い方を4タイプに分類しました。

症例全文をコピー&ペーストする「コピペ型」、一部だけ貼り付ける「選択コピペ型」、自分の言葉で要約して入力する「要約型」、検索エンジンのように短いクエリを投げる「検索型」の4つです。最も多かったのはコピペ型と検索型でしたが、どのタイプが高得点に結びつくという傾向は見られませんでした。

注目すべきは、医師たちがGPT-4の出力に対して示した不満です。治療判断の症例では、AIの回答が広範すぎる、患者個人の事情や医療機関の状況を考慮できていない、と感じる医師が多く、結局は自分の臨床経験に頼ったケースが少なくありませんでした。

この結果は、AIの「正解率」だけでは臨床導入の成否を測れないことを示唆しています。医師がAIの出力を信頼し、効率的に活用できるかどうかは、インターフェース設計やプロンプト教育にかかっています。

「AIが医師を代替する」は早計

Chen准教授は、この研究結果がAIにとって有利な材料であることを認めつつも、明確に釘を刺しています。患者が医師をスキップしてチャットボットに頼るべきではない、と。

現時点での研究が示しているのは、AIが医師の代替になるという結論ではなく、AIをチームメイトとして迎え入れることで医師の判断が底上げされるという事実です。ただし、その協業を機能させるには「並行分析」のようなワークフロー設計が不可欠であり、順番を間違えるとAIが医師に同調するだけの存在になってしまいます。

医療AIの焦点は、性能の高さを証明する段階から、現場でどう使うかを設計する段階へ移っています。