OCR不要で文書を直読み　AlibabaのOvis2.6解説

PDFや帳票を「読む」ためだけに、OCRエンジンを別途用意してきた時代が終わりつつある。

Alibaba傘下のAIDC-AIチームが公開したマルチモーダルLLM「Ovis2.6-30B-A3B」は、従来型の文字認識パイプラインを使わずに、文書画像をそのまま理解する。GitHubトレンド入りを果たした本モデルの設計思想と実力を解説する。

この記事でわかること

Ovis2.6がOCRパイプラインを不要にする仕組み
MoEで30Bパラメータを持ちながら推論コストを抑える理由
「Think with Image」という新しい推論スタイル
vLLMやtransformersでの具体的な起動手順
Qwen3-VLとの位置づけの違い

https://huggingface.co/AIDC-AI/Ovis2.6-30B-A3B

従来の文書処理が抱える問題

契約書、請求書、論文のPDFを機械で扱う場合、これまでは「OCR（光学的文字認識）→テキスト抽出→LLMで解析」という3段階のパイプラインが一般的だった。この方法には根本的な弱点がある。

OCRは文字を「文字列」として抽出するが、表のセル位置やグラフの凡例との対応関係、複数段組のレイアウトは失われやすい。抽出した文字列だけをLLMに渡しても、文書の「構造」が再現できないケースが多い。

マルチモーダルLLMはこの問題をアプローチから変える。画像としての文書ページをそのままモデルに渡し、テキストと視覚的な構造を一体で理解させる。Ovis2.6はこの方向性をさらに強化したモデルだ。

Ovis2.6-30B-A3Bとは

OvisシリーズはAlibaba GroupのAIDC-AIチームが開発するマルチモーダルLLMで、視覚エンベディングとテキストエンベディングを構造的にアライメントする独自アーキテクチャが特徴だ。2024年の初版から数世代の改良を経て、2.6世代ではLLMバックボーンをMoE（Mixture-of-Experts）に刷新した。

MoEによる高性能と低コストの両立

Ovis2.6の総パラメータ数は30Bだが、推論時にアクティブになるのは約3Bのみだ。MoEアーキテクチャでは入力に応じて専門家ネットワーク（エキスパート）を選択的に活性化するため、大規模モデルの表現力を持ちながら、推論コストは小規模モデルに近い水準に抑えられる。

サービング側のスループットが高く、4枚のGPUで分散推論した場合でもvLLMを使って比較的手軽に動かせる設計になっている。

3つの主要強化点

1. 長文書と高解像度への対応強化

コンテキストウィンドウが64Kトークンに拡張され、入力画像は最大2880×2880ピクセルまで受け付ける。ページ数の多いPDFで、複数ページにまたがった情報を統合しながら回答する「長文書QA」に特に効果を発揮する。

高解像度対応により、小さな数字や細かい表のセルも精度よく読み取れる。スキャンした帳票や手書きメモ、老朽化した印刷物など、画質が均一でない素材でも扱いやすい。

2. Think with Image

Ovis2.6が持つ最も特徴的な機能が「Think with Image」だ。推論の過程でモデルが能動的に画像を操作できる。具体的には、気になる領域を切り取ったり（クロップ）、角度を変えたりしながら、思考連鎖（Chain-of-Thought）の中で視覚的な再検証を繰り返す。

従来のマルチモーダルLLMは「入力された画像を1回だけ処理する」という一方向の流れだった。Think with Imageはこれを双方向にし、「見る→考える→もう一度見る」という人間の認知に近い推論を実現する。複雑な数式が含まれる図や、細部を確認しないと回答できない問題で精度が上がる。

3. OCR・文書・チャート能力の強化

OCR精度、文書理解、図表・チャート解析のいずれも前世代から底上げされている。文字を正確に読み取るだけでなく、抽出した内容に対して推論を加えて答えを導く「理解ベースの文書読解」が強みだ。

請求書から合計金額を抜き出す、論文の図から数値を読んで計算する、複数ページにわたる契約書の条項を参照して判断するといった業務で実用性が高い。

vLLMでの起動手順

vLLMを使った場合の起動はシンプルだ。

uv pip install -U vllm --torch-backend=auto --extra-index-url https://wheels.vllm.ai/nightly
vllm serve AIDC-AI/Ovis2.6-30B-A3B --trust-remote-code --tensor-parallel-size 4

起動後はOpenAI互換のAPIエンドポイントとして使用できるため、既存のツールから向き先を変えるだけで利用できる。enable_thinkingパラメータをTrueにすると思考モードが有効になり、Think with Imageを含む高精度な推論が動作する。

transformersを使う場合は以下の依存パッケージが必要だ。

pip install torch==2.7.1 transformers==4.57.0 numpy==1.25.0 pillow==10.3.0 moviepy==1.0.3 accelerate==1.12.0
pip install --no-build-isolation flash-attn==2.8.3

モデルのロードにはAutoModelForCausalLMを使い、trust_remote_code=Trueを指定する。

Qwen3-VLとの位置づけの違い

同じAlibaba系のマルチモーダルLLMとしてQwen3-VL（Qwen team, Alibaba Cloud）がある。どちらも文書理解とOCRを強みに持つが、出発点が異なる。

Qwen3-VLはAlibaba Cloudの汎用マルチモーダルモデルとして、GUI操作・動画理解・3D空間認識まで幅広くカバーする。Ovis2.6はAIDC-AIチームが独自に開発し、視覚とテキストのアライメント設計、高解像度処理、文書・チャートの情報密度対応に特化して最適化している。

用途で選ぶなら、動画やGUI自動化まで含む幅広いマルチモーダルタスクにはQwen3-VL、文書処理・帳票読み取り・図表解析を中心とした業務用途にはOvis2.6が向く。

ライセンスと入手方法

Apache 2.0ライセンスで公開されており、商用利用も無償で可能だ。モデルウェイトはHugging FaceのAIDC-AI/Ovis2.6-30B-A3Bから入手できる。GitHubリポジトリ（AIDC-AI/Ovis）にファインチューニング用コードとサンプルが整備されている。

文書処理のパイプラインにOCRエンジンを組み込んできた開発者にとって、Ovis2.6は構成をシンプルにする有力な選択肢になる。