LLM開発は、同じ巨大モデルをただ大きくするだけでは頭打ちになりつつあります。Sakana AIのAC/DCは、その行き詰まりに対して「モデルと課題を一緒に進化させる」という別の答えを出しました。
この記事では、AC/DCが何を狙い、何が新しく、実運用でどこに効くのかを整理します。
- 既存のLLM開発が抱える限界
- AC/DCの仕組みと発想
- 何がベンチマークで評価されたのか
- どの場面で応用しやすいのか
- 導入時に注意すべき点
https://openreview.net/forum?id=efNINVs2So
既存のLLM開発は「静的」すぎる
従来のLLM開発は、固定した学習データや報酬関数を前提にします。新しい能力を伸ばしたいときは、また人手でデータを集め、学習を回し、評価軸を作り直します。このやり方は分かりやすい一方で、能力の広がりを継続的に増やすのが難しいです。
AC/DCが問題にするのはここです。単一の巨大モデルを最適化し続けるのではなく、複数のモデルと課題を同時に育て、そこから新しい専門家を見つける発想に切り替えています。
AC/DCの中身
AC/DCは “Assessment Coevolving with Diverse Capabilities” の略です。名前の通り、評価対象であるLLMと、解かせる課題の両方を共進化させます。
仕組みの要点は2つです。1つ目は、LLM同士をモデルマージで混ぜながら更新することです。2つ目は、自然言語で書かれた新しい課題を合成データとして作り続けることです。
この循環により、モデル側は既存能力の延長ではなく、別方向の強みを獲得しやすくなります。課題側も固定されないため、探索が止まりません。つまり、最初に決めた評価セットへ最適化するのではなく、探索そのものを回し続ける設計です。
何が新しいのか
OpenReviewの要約では、AC/DCは明示的なベンチマーク最適化なしに、より広い専門性を持つモデル群を見つけたとされています。ここが重要です。単に既存のSOTAを1本抜く話ではなく、性能の「平均値」ではなく「分布の広さ」を重視しています。
実務で見るなら、この違いは大きいです。汎用チャット性能が高いモデルが1つあるだけでは、特定領域の弱さは残ります。対して、用途ごとに強みの違うモデル群を持てれば、検索、要約、コーディング、推論などで使い分けやすくなります。
AC/DCは、LLMを1体の完成品として扱うのではなく、役割の異なる専門家の集まりとして育てる設計に近いです。
どう効くのか
この手法が効く場面は、モデルを1つに収束させるより、複数候補を残しておきたいケースです。たとえば、社内用アシスタントを作るとき、同じ基盤モデルから「コードに強い個体」「文章に強い個体」「分類に強い個体」を見つけたいことがあります。
そのとき、AC/DCのような探索型の発想は役に立ちます。評価を1点に絞らず、探索の中で広い能力地図を作れるからです。
ただし、これはそのまま本番運用に置ける完成品ではありません。合成課題の品質、探索コスト、再現性、評価の偏りを丁寧に見ないと、偶然うまくいっただけの結果になります。研究としては強い一方、実装では検証設計が重要です。
読み解くポイント
AC/DCの価値は、単なる新アルゴリズムではなく、LLM開発の前提をずらした点にあります。巨大モデルを1回作って終わりではなく、モデルとタスクを回し続けて能力の幅を広げる。ここに、次のLLM開発の形が見えます。
研究用途なら、モデル探索や自動評価の設計に示唆があります。プロダクト用途なら、単一モデル依存を減らし、用途別の専門個体を選ぶ設計に応用できます。
LLMは「どれが最強か」だけで比べる段階から、「どんな能力群をどう育てるか」を設計する段階に入っています。AC/DCは、その移行をかなりはっきり示した研究です。