ChartNetで小型VLMがGPT-4oを上回る

決算資料や研究論文のグラフをAIに読ませても、数値やトレンドを外すケースは珍しくありません。MITとMIT-IBM Computing Research Labが公開した学習データセット「ChartNet」は、この弱点に直接狙いを定めたものです。CVPR 2026で発表されたこのデータセットを学習した小型のオープンソースVLM（ビジョン言語モデル）は、チャート理解の4タスクでGPT-4oを上回ったと論文が報告しています。

この記事では、ChartNetの中身、IBM Granite Visionへの適用結果、実務で押さえるべき注意点を整理します。

この記事でわかること

ChartNetが解く課題と、従来のチャート用データセットとの違い
170万サンプルを生むコード誘導型の合成パイプラインの仕組み
Granite 4.0 3B Visionのベンチマーク結果とGPT-4oとの比較
データセットの入手方法と、本番導入前に確認すべき点

ChartNetが変えるのは「チャート専用の学習資産」

https://huggingface.co/datasets/ibm-granite/ChartNet

2026年6月3日、MIT NewsはChartNetの公開を報じました。データセットはHugging Faceで無償提供され、コア部分は170万の合成チャート、94,643件の人間検証サンプル、30,000件の実世界チャートなどで構成されます。24種類のチャートタイプと6つのプロットライブラリ（matplotlib、seaborn、plotlyなど）をカバーします。

論文著者のJovana Kondic氏（MIT電気工学・情報工学科大学院生）は、ChartNetを「チャート理解に必要な要素を一通り揃えたワンストップの学習資源」と位置づけています。IBM ResearchのDhiraj Joshi上級科学者も、金融業界ではチャートからトレンド説明を取り出す作業が下流の業務全体に波及すると指摘しています。

なぜ汎用VLMはダッシュボードを読み切れないのか

チャート理解には、3つの能力を同時に使う必要があります。軸・凡例・色といった視覚構造の解析、棒や線が表す数値の復元、タイトルや注釈といった自然言語の解釈です。どれか一つでも欠けると、トレンドを誤認したり、数値を捏造したりします。

Kondic氏は、VLMは人間の脳と違い、折れ線グラフを安定して認識するだけでも数千例の学習が必要になると説明しています。従来のチャート用データセットは、Webから収集した画像が中心で、規模も注釈の深さも不足していました。多くは「このグラフは何を示しているか」といった単純な質問応答に偏り、表形式への数値抽出やコード再構成まで学習できません。

コード誘導型パイプラインが170万サンプルを生む

ChartNetの生成は2段階です。まずVLMがシード画像から実行可能なプロットコードを近似生成します。次にコード特化のLLMが、チャート種別・色・データ値・トピック・スタイルを変えながらコードを反復的に拡張し、1枚のシードから数百のバリエーションを作ります。

各サンプルには5つの要素が揃います。

プロットコード
レンダリング済みチャート画像
元データの表（CSV相当）
チャート内容の自然言語要約
段階的推論付きの質問応答ペア

生成後は自動品質フィルタが、コードの実行可能性と画像の正確さを検証します。人間が検証した2,000件のテストセットも用意され、評価の再現性を担保しています。632,000行の推論用サブセットや、協力先が公開した3万件の実世界チャートも加わり、合成データだけに偏らない構成です。

Kondic氏は、従来データが「簡単な質問への回答」に留まっていたのに対し、ChartNetは再構成・抽出・要約・推論までカバーする点が大きいと述べています。

Granite Visionが示した数値と評価の読み方

https://huggingface.co/blog/ibm-granite/granite-4-vision

ChartNetはIBMのGranite Visionシリーズの学習に直接使われています。Granite 4.0 3B VisionとGranite Vision 4.1はApache 2.0ライセンスでHugging Faceから入手できます。3BモデルはGranite 4.0 MicroへのLoRAアダプタとして提供され、画像が不要な処理ではテキスト専用モードに切り替えられます。

アーキテクチャ面では、DeepStack由来の特徴注入を採用しています。抽象度の高い視覚特徴を言語モデルの浅い層へ、空間的な細部を深い層へ送ることで、おおまかな傾向把握と正確な数値読み取りを分離します。

人間検証のChartNetベンチマークでは、Granite 4.0 3B VisionはChart2Summary（チャート→要約）で86.4%、Chart2CSV（チャート→表）で62.1%を記録しました。IBMの公式ブログによれば、Chart2Summaryは評価対象の中で最高、Chart2CSVは63.4%のQwen3.5-9Bに次ぐ2位です。パラメータ数は9Bモデルの半分以下です。

arXivに公開された論文では、ChartNetでファインチューニングした最良モデルが、再構成・データ抽出・要約・推論付き質問応答の4タスクすべてで、桁違いに大きいオープンソースVLMやGPT-4oを上回ったと報告されています。ただし評価はGPT-4oをジャッジに使うLLM-as-a-judge方式が中心で、開放型タスクでは一般的な手法ですが、厳密な数値一致とは異なる点に留意が必要です。

業務自動化で意味すること

チャート理解の精度が上がると、決算PDFの図表抽出、研究論文の図の要約、ダッシュボード画面の数値化といったパイプラインが現実的になります。Granite 4.0 3B VisionはDoclingと組み合わせ、PDFから図表を切り出して個別に処理する構成も想定されています。

IBM ResearchのEli Schwartz研究マネージャーは、企業の自動化パイプラインではフロンティアモデルの代替として、低コストで大規模処理が可能になると述べています。3Bクラスのモデルはローカル推論も現実的で、API料金やデータ持ち出しの制約を避けやすい点が強みです。MIT Newsも、予算の限られた小規模チームが商用モデルに匹敵する性能を得られる可能性を強調しています。

データセットの利用は、用途に応じてライセンスを確認してください。2026年4月29日以降のデフォルト版core_permissiveはCDLA-Permissive 2.0です。論文再現用の当初リリースは別手続きで、商用利用に制限がある旨がデータカードに明記されています。

導入前に自分のチャートで検証を

IBMのモデルカードは、小型VLMは生成タスクで幻覚（ハルシネーション）に弱い傾向があると注意喚起しています。ベンチマークは整ったテストセット上の結果であり、社内固有の図表形式や手書き注釈は分布外になり得ます。高リスクな文書処理では、出力の人手確認か、自社データでの再ベンチマークを前提に設計してください。

研究チームは、視覚・構造の複雑さをさらに増したサンプル追加と、コミュニティからのフィードバック反映を計画しています。チャート理解は汎用VLMの規模拡大だけでは届きにくい領域であり、ChartNetのようにコード・数値・言語を揃えた学習データを足す方が効く、という示唆が論文から読み取れます。自社の図表処理を見直すなら、まずHugging Faceからcore_permissiveを試し、自社チャートでの抽出精度を測るところから始めるのが現実的です。