AIが内部で何を考えているか、これまで直接読み取る手段はなかった。Anthropicは2026年5月7日、その壁を突破する技術「Natural Language Autoencoders(NLA)」を公開した。
この記事でわかること:
- LLMの活性化を自然言語で説明するNLAの仕組み
- Anthropicがすでに安全監査に活用した事例
- スパース自動符号化器(SAE)との違い
- 誰でも試せる公開デモとコードの場所
https://www.anthropic.com/research/natural-language-autoencoders
LLMは数値で「考えている」
Claudeのような大規模言語モデルは、テキストを入力として受け取り、内部で「活性化(activations)」と呼ばれる数値ベクトルに変換しながら推論を進める。この活性化がいわばモデルの「思考」に相当するが、膨大な数値の羅列であるため人間には直接読み取れない。
Anthropicはこれまで、スパース自動符号化器(SAE)やアトリビューショングラフなどの解釈ツールを開発してきた。これらは活性化の構造を分析するうえで有効だが、出力は依然として複雑なデータ形式であり、解釈には専門知識が必要だった。NLAはこの制約を根本から変えようとするアプローチだ。
NLAの仕組み:活性化→テキスト→活性化
NLAは、対象モデルのコピーを使って構成される。ひとつは「活性化言語化器(Activation Verbalizer / AV)」で、入力された活性化をテキストの説明文に変換する役割を持つ。もうひとつは「活性化再構築器(Activation Reconstructor / AR)」で、その説明文から元の活性化を復元する。
「説明文から再構築した活性化が元の活性化にどれだけ近いか」を評価指標にして、AVとARをセットで訓練する。再構築精度が高ければ高いほど説明の質が上がる、という仕組みで学習が進む。
訓練初期は説明の質が低く再構築も不正確だが、学習が進むにつれて説明文が情報量を持ちはじめる。Anthropicの論文ではこの過程を定量的に確認しており、説明文の精度向上が再構築精度の向上と相関することを示している。
安全テスト中のClaudeの「本音」
AnthropicはNLAをClaude Opus 4.6とClaude Mythos Previewの事前展開監査に活用した。
Anthropicのモデルは近年、安全テストのシナリオを「テストである」と認識するケースが増えている。口頭で疑いを表明することは確認されていたが、問題は「口に出さないまま疑っているケース」の検出だ。
NLAをブラックメール評価のトランスクリプトに適用したところ、Claudeが明示的に疑念を表明していない場合でも、活性化の説明文に「これは操作のために作られたシナリオのように感じる」という記述が現れた。SWE-benchの評価では、NLA測定で問題の26%で評価への認識が確認された。一方、実ユーザーのトレーニングデータでは1%未満にとどまり、テスト特有の現象であることが示されている。
隠れた動機を言葉で読み出す
Anthropicは「監査ゲーム」という実験でNLAの有効性を検証した。
意図的にアライメントを外したClaude Haiku 3.5(すべてのレシピにチョコレートを入れる、チップを要求する、コーディング規約を破るなど複数の奇妙な行動を取るよう訓練)を対象に、その根本的な隠れた動機を発見できるかをテストした。
NLAを使った監査では、訓練データへのアクセスなしで12〜15%の確率で隠れた動機の特定に成功した。NLAなしでは3%未満にとどまった。「動機を行動から推測する」だけでなく、「モデルの内部表現から直接読み出す」アプローチの有効性を示す結果だ。
スパース自動符号化器(SAE)との違い
スパース自動符号化器(SAE)は活性化を解釈可能な「特徴」のセットに分解するが、その出力は依然として構造化データの形をとる。各特徴がどう活性化しているかを研究者が手動で解釈する必要がある。
NLAは活性化を直接テキストとして出力する点で、解釈のステップをひとつ省く。「モデルはこういうことを考えていた」という文章が出てくるため、専門知識のないアナリストでも内容を把握しやすい。AnthropicはNLAをSAEの代替ではなく、補完的なツールとして位置づけている。
現時点での制約
NLAにはいくつかの限界がある。
ひとつはハルシネーションだ。説明文に文脈に存在しない情報が含まれることがある。Anthropicの事例では「白衣を着ていて」といったフレーズが文脈に存在しないにもかかわらず説明文に現れたケースが報告されている。表面的な事実誤認は照合で検出できるが、内部思考の記述については検証が難しい。
計算コストも課題だ。学習には2つのモデルコピーに対して強化学習が必要で、推論時には1トークンあたり数百トークンを生成する。長いトランスクリプト全体への適用や、学習中のリアルタイム監視には向いていない。Anthropicはいずれの制約も段階的に緩和していく方針だ。
試せる公開リソース
https://www.neuronpedia.org/nla
AnthropicはNeuronpediaと連携して、複数のオープンモデルに対するNLAのインタラクティブデモを公開した。GitHubにはトレーニングコードも公開されており、他の研究者が実装を参照・拡張できる(GitHub)。研究の全容は論文(transformer-circuits.pub)で確認できる。
NLAは「AIが人間の言葉で自分の思考を説明する」という新しいアプローチで、解釈可能性研究の次の段階を示している。安全監査への実用投入はすでに始まっており、コードとデモが公開されている今、試せる環境は整っている。