約1か月にわたってClaude Codeの回答品質が低下し、ユーザーから「使い物にならない」という批判が相次いだ。Anthropicは2026年4月23日に詳細なポストモーテムを公開し、3つの別々なエンジニアリングミスが重なっていたことを明らかにした。

この記事でわかること:

  • Claude Codeの品質が低下した3つの具体的な原因
  • AnthropicのプロダクトチーフがAIのリリース速度とFOMOについて語った内容
  • Anthropicが示した再発防止策と補償

https://www.anthropic.com/engineering/april-23-postmortem

1か月以上続いた品質低下

2026年3月から4月にかけて、Claude Codeのユーザーから「推論が浅くなった」「前のやり取りを忘れる」「コードの品質が下がった」という報告が相次いだ。一部のユーザーはサブスクリプションを解約し、AMDの上級AIエグゼクティブは「複雑なエンジニアリングタスクには使えない」と公言した。The Registerは「Claudeがウォーストになったと、Claudeが判定した」という見出しで報じた(参考)。

Anthropicは意図的な品質低下を否定しつつ調査を続け、4月23日に原因を特定して公開した。競合のCursorやOpenAIのCodexとシェアを争う中での失態は、ユーザーの不満をさらに大きくした。

原因1: 推論レベルのデフォルト変更(3月4日)

2月にOpus 4.6をClaude Codeに導入した際、デフォルトの推論レベルは「high」に設定されていた。しかし一部ユーザーがUIが固まるほどの遅延を経験したため、3月4日に「medium」へ変更した。

推論レベルが高いほど出力品質は上がるが、処理時間と使用上限の消費も増える。Anthropicはレイテンシ削減を優先したが、ユーザーからは「賢さが落ちた」という声が止まらなかった。4月7日に変更を差し戻し、現在はOpus 4.7が「xhigh」、他のモデルは「high」をデフォルトとしている。

原因2: キャッシュ最適化のバグ(3月26日)

Claude Codeはやり取りのたびに「なぜその判断をしたか」という思考履歴を会話に保持する。セッションが1時間以上アイドル状態だった場合、復帰時に古い思考ブロックを削除してレイテンシを下げる——という最適化を3月26日に導入した。

実装にバグがあり、一度でもアイドル閾値を超えたセッションでは、以降ずっと毎ターン思考履歴が削除され続けた。Claudeは自分が直前に何をしたかを失い、繰り返しや見当違いのツール選択が起きた。また、思考ブロックが毎回削除されることでキャッシュのヒット率も下がり、使用上限の消費が想定より速くなるという別の問題も引き起こした。このバグは4月10日(v2.1.101)に修正された。

後日、Anthropicは問題のPRをOpus 4.7でCode Reviewしたところ、Opus 4.7はバグを検出できたがOpus 4.6は見逃したと報告している。

原因3: 冗長性を抑えるシステムプロンプト(4月16日)

最新モデルOpus 4.7は前バージョンより出力が冗長になる傾向があった。その対策として、4月16日のOpus 4.7リリース時にシステムプロンプトへ次の一行を追加した。

“Length limits: keep text between tool calls to ≤25 words. Keep final responses to ≤100 words unless the task requires more detail.”

複数週間の内部テストで問題は検出されなかったが、より幅広い評価セットでアブレーション(各行の影響を個別に確認するテスト)を実行したところ、Opus 4.6・4.7ともに品質が3%低下することが判明した。4月20日に差し戻した。

3つの変更が重なって「謎の劣化」に見えた

3つの変更はそれぞれ異なる時期・異なるトラフィックの範囲に影響したため、合わさると「広範で一貫性のない品質低下」のように見えた。Anthropicは「当初はユーザーフィードバックの通常のばらつきと区別しにくく、原因の特定に時間がかかった」と説明している。

すべての問題は2026年4月20日のv2.1.116で解消された。

プロダクトチーフが語ったリリース速度とFOMO

一連の問題と同じ日、AnthropicのClaude CodeおよびCoworkのプロダクトヘッドCat Wuが4月23日のLenny’s Podcastに出演し、AIツールの高速リリースがユーザーに与えるプレッシャーについて語った。

「エージェント系ツールを使うユーザーは、最新情報を見逃さないようにTwitterを毎日チェックしなければという強迫観念を感じている」とWuは述べた。AnthropicはClaude Codeを2025年2月にターミナルベースのコーディングアシスタントとしてリリースして以来、プラグイン・メモリ・複数エージェントなど、今年最初の3か月だけで45以上の機能を追加している。

Wuはこの速度が社内にも副作用をもたらすことを認めた。「テストすべきアイデアが多く、互いに重なる機能が生まれることがある」と述べた。今回の3つのミスはいずれも、速さを追うための最適化や新機能導入が引き金だった点と重なる。

Wuはユーザーの疲弊感への対処も訴えた。「ツールを開くだけで知るべきことを教えてくれて、置いてけぼりにされない感覚を持てるようにしたい」——そのためのプロダクト設計が今後の課題だと語った。

Anthropicの対応と再発防止策

4月23日時点で全サブスクライバーの使用上限をリセットした。再発防止として次の改善を進める。

  • 内部スタッフが公開ビルドと同じバージョンを使う割合を増やす
  • システムプロンプトの変更ごとに全モデル対応の広範な評価セットを実行する
  • インテリジェンスとのトレードオフになりうる変更にはソーク期間・段階的ロールアウトを義務化する
  • Code Reviewツールで複数リポジトリをコンテキストとして参照できるようにする
  • X上に@ClaudeDevsアカウントを作成し、製品判断の背景を開発者向けに継続発信する

今回、公式エンジニアリングブログでポストモーテムを公開し、3つの原因を具体的なコード・日付・バージョン番号つきで説明したことは透明性確保への姿勢を示している。/feedbackコマンドや再現性のある報告投稿を送ったユーザーが問題の特定を最終的に可能にしたとAnthropicは述べており、ユーザーからの具体的なフィードバックが品質管理の最後の砦になっている現状も浮き彫りになった。