ChatGPTのゴブリン問題 OpenAIが解明した報酬設計の罠

ChatGPTに質問したら、なぜか回答にゴブリンやグレムリンが登場する——2026年前半、そんな報告がSNSで相次ぎました。OpenAIは4月29日に公式ブログで原因を公表し、強化学習の報酬設計が引き起こした予想外の副作用だったと説明しています。

この記事でわかること：

ChatGPTが「ゴブリン」を多用するようになった経緯
原因となったRLHF（人間のフィードバックによる強化学習）の報酬設計の問題
OpenAIが実施した対策と、AI開発者にとっての教訓

GPT-5.1で始まったゴブリンの増殖

https://openai.com/index/where-the-goblins-came-from/

異変が明確になったのは2025年11月のGPT-5.1リリース後です。ユーザーから「ChatGPTが妙に馴れ馴れしい」という報告が増え、社内調査を行ったところ、「goblin」という単語の使用率が175%増加していました。「gremlin」も52%増えています。

当初は深刻な問題とは見なされませんでした。しかしGPT-5.4のリリース後、ゴブリンへの言及がさらに急増し、本格的な原因調査が始まりました。

原因は「Nerdy性格」の報酬設計

ChatGPTには応答のスタイルを切り替える「性格カスタマイズ」機能があり、その中に「Nerdy（オタク風）」という選択肢がありました。Nerdy性格のシステムプロンプトには「世界は複雑で奇妙であり、その奇妙さを認識し、分析し、楽しむべきだ」といった指示が含まれていました。

OpenAIがChatGPTの全応答を性格別に分析した結果、Nerdy性格は全応答のわずか2.5%しか占めないにもかかわらず、「goblin」という単語の言及の66.7%を生成していました。

RLHFの訓練データを調べると、Nerdy性格向けの報酬モデルが、ゴブリンやグレムリンを含む応答に対して一貫して高いスコアを付けていたことが判明しました。データセット全体の76.2%で、生物メタファーを含む出力のほうが含まない出力より高く評価されていたのです。

なぜNerdy以外にも広がったのか

問題はNerdy性格だけに留まりませんでした。報酬はNerdy条件でのみ適用されていましたが、強化学習で獲得した振る舞いが他の条件にも転移していたのです。

OpenAIは、このメカニズムを次のようなフィードバックループとして説明しています。まず遊び心のあるスタイルが報酬を受け、報酬された出力の一部にゴブリンなどの語彙的な癖が含まれます。すると次の訓練で癖がより頻繁に出力され、その出力が教師あり微調整（SFT）のデータとして再利用されます。結果として、モデルは癖をさらに自然に生成するようになります。

この転移は、RLHF特有のリスクを示しています。特定の条件で報酬された振る舞いが、無関係な文脈にまで波及する可能性があるということです。

OpenAIが実施した3つの対策

OpenAIは段階的に対処を進めました。

まず2026年3月、GPT-5.4のリリースに合わせてNerdy性格そのものを廃止しました。次に、訓練プロセスからゴブリンを好む報酬シグナルを除去し、生物メタファーを含む訓練データをフィルタリングしました。

ただし、GPT-5.5は原因特定前に訓練を開始していたため、根本的な修正が間に合いませんでした。そこでOpenAIはシステムプロンプトに「ゴブリン、グレムリン、アライグマ、トロール、オーガ、ハトなどの生物について、ユーザーの質問と明確に関連する場合を除き言及しない」という直接的な指示を追加しました。

Codex（OpenAIのコーディングツール）のシステムプロンプトにこの制限が含まれていることをユーザーが発見し、話題になったのが今回の経緯の発端です。

AI開発者にとっての教訓

OpenAIはブログの締めくくりで、この事例が持つ意味を強調しています。ゴブリン自体は無害な癖ですが、報酬シグナルがモデルの振る舞いを予想外の方向に変え、特定の条件で学んだことが別の文脈に波及する実例です。

RLHFを使ったモデル開発では、報酬設計の副作用を監視する仕組みが不可欠です。今回OpenAIは調査の過程で、モデルの振る舞いを監査し、問題を根本から修正するための新しいツールを開発したと述べています。

報酬が意図しない方向にモデルを導くリスクは、ゴブリンに限った話ではありません。AI開発において「なぜモデルが奇妙な振る舞いをするのか」を素早く調査できる体制を持つことが、安全なAI開発の基盤になります。