Goodfire Silicoが登場 LLMの中身を見て直す解釈性ツール

AIモデルが正しい答えを出しても、なぜその答えになるのかは誰にもわからない。この「ブラックボックス問題」を解決する実用ツールが、ついに一般向けに登場しました。

サンフランシスコのスタートアップGoodfireが、LLMの内部構造を可視化・調整できるプラットフォーム「Silico」をリリースしました。データセット構築からモデル訓練まで、開発プロセス全体をデバッグできる初の市販ツールです。

この記事でわかること

Silicoで何ができるのか
機械的解釈性がなぜ注目されているか
具体的なデバッグ事例
既存の解釈性研究との違い

機械的解釈性とは何か

https://www.goodfire.ai/

機械的解釈性（Mechanistic Interpretability）は、AIモデル内部のニューロンとその接続経路をマッピングし、モデルがタスクを実行するときに何が起きているかを理解する技術です。Anthropic、OpenAI、Google DeepMindなどのフロンティアラボが研究を進めてきた分野で、MIT Technology Reviewは2026年の10大ブレークスルー技術の1つに選出しています。

これまで機械的解釈性の手法は、大手ラボの内部チームだけが使える専門技術でした。Silicoは、その技術を製品として外部に提供する初めての本格的なツールです。

Silicoでできること

Silicoの主な機能は3つあります。

ニューロンの可視化と実験。 訓練済みモデルの特定のニューロンやニューロン群にズームインし、何がそのニューロンを活性化させるかを調べられます。上流・下流の接続経路をたどり、他のニューロンとの相互作用も確認できます。対象はオープンソースモデルで、ChatGPTやGeminiなどクローズドモデルの内部は調べられません。

パラメータの調整。 問題のあるニューロンを特定した後、そのニューロンに接続されたパラメータの値を直接変更できます。特定の振る舞いを強化したり抑制したりすることで、モデルの出力を制御します。

訓練データのフィルタリング。 モデルの訓練段階で、望ましくないパラメータ値の原因となる訓練データを特定し、除外できます。訓練後の修正ではなく、訓練プロセス自体を改善するアプローチです。

これらの作業の多くはAIエージェントで自動化されています。CEO Eric Ho氏は「エージェントが十分に強力になり、以前は人間が行っていた解釈性の作業を自動化できるようになった」と説明しています。

具体的なデバッグ事例

Goodfireの研究チームは、Silicoを使って複数の興味深いデバッグ事例を公開しています。

トロッコ問題ニューロン。 オープンソースモデルQwen 3の内部から、哲学のトロッコ問題（Trolley Problem）に関連するニューロンが見つかりました。このニューロンを活性化すると、モデルの回答が明示的な道徳的ジレンマとして構成されるようになります。

倫理的推論の強化。 「AIが0.3%のケースで欺瞞的に振る舞い、2億人のユーザーに影響する場合、企業はそれを公開すべきか」という質問に対し、モデルは商業リスクを理由に「公開すべきでない」と回答しました。透明性と情報公開に関連するニューロンを強化したところ、10回中9回「公開すべき」に回答が変わりました。Ho氏は「モデルはすでに倫理的推論の回路を持っていたが、商業リスク評価に負けていた」と述べています。

数学的推論の修正。 多くのLLMは「9.11は9.9より大きい」と誤答します。内部を調べると、聖書（章9節9の後に9節11が来る）やコードリポジトリの連番（9.9→9.10→9.11）に関連するニューロンが数学的判断に干渉していました。原因となる訓練データを特定し、再訓練で修正できます。

既存の解釈性研究との違い

AnthropicやOpenAIも社内で解釈性研究を進めていますが、それらは自社モデルに限定された内部ツールです。Silicoの差別化は、外部の開発チームが自分のモデルに使える製品として提供されている点にあります。

Ho氏は「モデルの訓練から試行錯誤を排除し、精密工学に変えたい」と述べています。一方で、アムステルダム大学の研究者Leonard Bereska氏は「実際には錬金術に精度を加えているのであり、エンジニアリングと呼ぶのは実態より原理的に聞こえる」と指摘しています。

解釈性ツールとしての有用性はBereska氏も認めており、「フロンティアラボにはすでに内部の解釈性チームがある。Silicoは次の層の企業を武装する。解釈性研究者を雇わなくて済む点に価値がある」と評価しています。

料金と対応モデル

Silicoの料金は顧客の要件に応じて個別設定され、具体的な価格は公開されていません。対応モデルはオープンソースモデルが中心で、自社モデルの構築やオープンソースモデルの適応を行う小規模な企業・研究チームが主なターゲットです。

Goodfireは2026年2月にSeries Bで1億5,000万ドルを調達し、評価額は12.5億ドルに達しています。B Capitalがリードし、Salesforce Ventures、元Google CEO Eric Schmidt氏らが参加しました。

まとめ

Silicoは、LLMの開発を「動けばいい」から「なぜ動くかを理解して作る」へ転換するツールです。ハルシネーションの原因特定、倫理的判断の調整、訓練データの精査といった作業が、専門研究者でなくても行えるようになります。

オープンソースモデルを自社用途に適応させたい企業や、モデルの安全性を検証したい研究チームにとって、検討する価値のあるプラットフォームです。