DNAの中には、タンパク質をコードしない「非コード領域」が全体の98%を占めている。この領域に含まれる変異が遺伝子発現をどう変えるかは、AIによる予測が長らく難しかった。Google DeepMindが2025年6月に公開し、2026年1月にNatureへ掲載されたAlphaGenomeは、この問題を正面から解決する。DNAの最大100万塩基対を入力として、遺伝子発現・スプライシング・クロマチン構造といった多様な分子的性質を同時に予測できる。非商用の研究者であれば、無料のAPIですぐに試せる。
この記事でわかること:
- なぜ非コード領域の解析が難しかったのか
- AlphaGenomeが一度に予測できる分子的性質の種類
- 既存モデルとのベンチマーク比較
- APIを使った基本的な使い方
- 現時点での限界と活用事例
非コード領域の変異が捉えられなかった理由
ヒトゲノムの約2%がタンパク質をコードする領域だ。残りの98%は非コード領域と呼ばれ、遺伝子の発現タイミングや量を調節する「スイッチ」の役割を担っている。この領域に生じた変異が疾患と関連することは知られているが、どのような分子的影響をもたらすかを予測するのは難しかった。
従来のモデルは、配列の長さと予測の解像度をトレードオフにせざるを得なかった。広い範囲を見ようとすると解像度が下がり、細部を精密に解析しようとすると扱える配列長が短くなる。こうした制約が、複数の調節機能を統一的に予測することを妨げてきた。
AlphaGenomeが予測できること
AlphaGenomeは、最大100万塩基対(1Mbp)のDNA配列を塩基1個単位の解像度で処理する。1回のAPIコールで取得できる予測の種類は、遺伝子発現量(RNA-seq)、スプライシングパターン、クロマチンのアクセス状態、ヒストン修飾、転写因子結合、クロマチン接触マップ(Hi-C)と多岐にわたる。タスク別に複数のモデルを使い分ける必要がなく、一括して情報を得られる点が既存の専用モデルとの最大の違いだ。
特筆すべきはスプライス接合部の直接モデリングだ。脊髄性筋萎縮症や嚢胞性線維症の一部はRNAスプライシングのエラーが原因で起こる。AlphaGenomeはこの接合部の位置と発現量を配列から直接予測でき、希少疾患の原因変異を絞り込む手段として期待されている。
モデルのアーキテクチャは、短いパターンを検出する畳み込み層、全位置で情報を共有するTransformerブロック、各モダリティへの出力層という三段構成をとる。学習データはENCODE、GTEx、4D Nucleome、FANTOM5といった大規模公開コンソーシアムから収集されており、ヒトおよびマウスの数百種類の細胞型・組織を網羅する。
既存モデルとのベンチマーク比較
単一DNA配列の予測では、24評価のうち22でトップクラスの外部モデルを上回った。変異の影響を数値化するバリアントスコアリングでは、26評価のうち25で同等以上の精度を記録している。
この比較には特定タスクに特化した専用モデルも含まれている。AlphaGenomeは評価対象のすべてのモダリティを同時に扱える唯一のモデルであり、汎用性を保ちながら専用モデルと対等以上の精度を出せることがアーキテクチャ設計の成果といえる。
APIの使い方
非商用の研究利用は無料で、APIキーを取得すれば利用できる。Pythonライブラリalphagenomeをpip経由でインストールし、以下のように呼び出す。
from alphagenome.data import genome
from alphagenome.models import dna_client
API_KEY = 'MyAPIKey'
model = dna_client.create(API_KEY)
interval = genome.Interval(chromosome='chr22', start=35677410, end=36725986)
variant = genome.Variant(
chromosome='chr22',
position=36201698,
reference_bases='A',
alternate_bases='C',
)
outputs = model.predict_variant(
interval=interval,
variant=variant,
ontology_terms=['UBERON:0001157'],
requested_outputs=[dna_client.OutputType.RNA_SEQ],
)
predict_variantメソッドで変異前後の予測を比較し、RNA発現量への影響を可視化できる。Google ColabのQuick Startノートブックも用意されており、APIキーさえあれば数分で動作確認できる。クエリのレートは需要に応じて変動するが、1,000件規模の解析であれば研究利用として十分な速度で動作する。
活用事例と研究への応用
DeepMindのチームはT細胞急性リンパ芽球性白血病(T-ALL)の変異解析にAlphaGenomeを使い、特定の変異がMYBのDNA結合モチーフを導入することでTAL1という遺伝子を活性化させるという既知の疾患メカニズムを再現した。この結果は、非コード領域の変異と疾患遺伝子の関係を特定できることを示している。
公開後、160か国の約3,000人の研究者がAPIを利用しており、1日あたり約100万件のリクエストが送られている。がんや神経変性疾患の研究をはじめ、合成生物学の分野では特定の細胞型でだけ遺伝子を活性化させる合成DNAの設計にも応用が試みられている。
現時点での限界
10万塩基対より遠い位置にある調節要素の影響を精度よく捉えることは引き続き課題だ。細胞・組織ごとに固有のパターンをより精密に学習する余地も残っている。個人ゲノムへの直接適用や臨床判断への利用は設計の対象外であり、現時点での用途は研究目的に限られる。
複雑な形質や疾患には発達的・環境的な要因も絡むため、DNA配列だけから完全な予測を行うことはできない。論文ではこれらの制限が明示されており、DeepMindもフィードバックを受けながら継続的な改善を続けている。商用アクセスに関心のある研究者・企業向けに関心登録フォームも公開されている。
ゲノム解析AIはAlphaFoldがタンパク質構造予測を変えたように、非コード領域の変異解釈を大きく変えようとしている。APIで今すぐ試せる状態にあり、ゲノム研究の入口は以前より格段に低くなっている。