スプリント計画で「なぜこのタスクは8ポイントなのか」と問われたとき、根拠をすぐに示せますか。AIが自動見積もりを出しても、理由がわからなければチームは納得できません。Anisha Jadhavが発表したSPX(Story Point eXplainer)フレームワークは、この「説明可能性の欠如」に正面から向き合った研究です。

この記事でわかること:

  • アジャイル開発における見積もりのブラックボックス問題
  • SPXがGPT-4とSentence-BERTをどう組み合わせているか
  • 6,000件以上のユーザーストーリーで検証した精度と説明の品質
  • 実務チームへの適用時の課題と今後の展望

https://ieeexplore.ieee.org/document/11296255

ブラックボックス問題とは

アジャイル開発では、ストーリーポイントがスプリント計画の核心です。従来の見積もり手法はプランニングポーカーや経験則に依存するため、チーム間でのばらつきが生じやすく、見積もりの根拠が属人化しがちでした。

AIを使った自動見積もりツールも登場していますが、大半は「このユーザーストーリーは5ポイント」という数字だけを出力します。複雑な依存関係があるのか、要件が曖昧なのか、外部連携にリスクがあるのか——こうした背景が共有されなければ、チームは数字を受け入れることも、反論することもできません。

Jadhavは「AIシステムはドメインを問わず検証可能でなければならない。根拠のない予測は重大な技術的意思決定を支えられない」と述べており、この問題意識がSPX設計の出発点になっています(参考)。

SPXの仕組み

SPXは複数のAI技術を組み合わせて、見積もり値と同時に自然言語の説明を生成します。

論文の正式名称は「SPX: A Novel LLM-Based Framework for Explaining and Estimating User Story Points」で、IEEE国際会議AIBThings 2025(米ミシガン州マウントプレザント)で発表されました。

GPT-4によるfew-shotラーニングでは、過去の類似ユーザーストーリーを少数提示するだけで新しいタスクを評価します。プロジェクト固有のコンテキストを考慮した推定が可能で、ゼロショット推定より現場の実態に即した出力が得られます。

Sentence-BERT(SBERT)埋め込みは、ユーザーストーリーのテキストを意味レベルで比較する役割を担います。単語の一致ではなく文章全体の意味的な近さを捉えるため、「似た複雑さを持つ過去タスク」を精度よく検索できます。

アクティブラーニングは、システムが推定に自信を持てないユーザーストーリーを自動的に検出し、人間によるレビューを促します。AIが苦手とする曖昧なケースに人手を介在させることで、全体の精度を保つ設計です。

文脈的類推マッチングは、新しいユーザーストーリーを過去の類似事例に照合します。経験豊富なアジャイルチームが「前回のあのタスクに似ている」という直感で見積もる認知プロセスをAIで再現しています。

これらを組み合わせることで、SPXは数値の推定と同時に「技術的な複雑さがある」「要件が不明確」「外部システムとの統合が必要」といった平易な説明を生成します。

評価結果

SPXはApache、Spring、JBossを含むオープンソースのJiraリポジトリから収集した6,000件以上のユーザーストーリーで評価されています。

精度の指標である平均絶対誤差(MAE)は1.42で、従来の機械学習モデル、深層学習手法、トランスフォーマーベースの推定器、アンサンブル系手法を上回っています。

数値精度だけでなく、生成される説明の質も検証されました。アジャイル実務者を対象とした人間評価では、SPXの説明に対する明瞭性スコアが5点満点中4.3点で、関連性と根拠の妥当性でも高い評価を得ています。単なるAI生成テキストではなく、実際にアジャイルの現場で理解できる内容が生成されていることを示しています。

現時点の限界

SPXが使ったデータセットは公開リポジトリのものです。社内独自のプロジェクトや業界固有の見積もり文化とは異なる可能性があります。Jiraとのリアルタイム連携、企業環境でのデプロイ、チームごとのキャリブレーションについては今後の検証が必要です。研究自体もこの点を率直に認めており、エンタープライズ環境への展開は次の研究課題として明示されています。

まとめ

SPXはコード生成とは別の軸で、AIをアジャイル計画プロセスに統合するアプローチです。数字だけを提示する従来の見積もりAIと異なり、「なぜその見積もりなのか」を言語化することでチームの合意形成を助けます。AIによる見積もり支援に関心があるが信頼性をどう確保するか悩んでいるチームにとって、説明可能性という切り口から導入を検討するきっかけになる研究です。