LLMの記憶を画像で10倍圧縮　精度94%を維持するOCR-Memory

LLMエージェントの長い対話履歴を、テキストではなく画像として保存する。この発想の転換が、コンテキストウィンドウの制約を大きく緩和する手法として注目を集めています。

この記事でわかること：

OCR-Memoryが解決する課題と基本的な仕組み
10倍圧縮と94%の検索精度を両立させる技術的なポイント
従来手法との性能比較と実用上の意味

LLMエージェントが抱える「記憶の壁」

OCR-Memory: Optical Context Retrieval for Long-Horizon Agent Memory

Autonomous LLM agents increasingly operate in long-horizon, interactive settings where success depends on reusing experi…

arXiv.org

自律型LLMエージェントは、Web操作やAPI呼び出しを重ねながらタスクを解決します。この過程で生成される推論トレース、ツール呼び出し、環境からのフィードバックは、後続のタスクで再利用できる貴重な経験です。

問題は、この履歴をそのままテキストで保持するとトークン消費が膨大になることです。GPT-4などのコンテキストウィンドウには上限があり、過去の履歴をすべて詰め込む余裕はありません。

従来のアプローチは主に3つありました。テキスト要約で履歴を短縮する方法、ベクトル検索で関連部分だけを取り出す方法、そして手順やスキルとして抽象化する方法です。いずれも情報の一部を捨てる点が共通しており、デバッグに必要なエラーメッセージの詳細や、複数ステップにまたがる因果関係が失われるリスクがありました。

OCR-Memoryの仕組み：テキストを画像に変換して保存

香港大学やノーステキサス大学などの研究チームが提案したOCR-Memory（Optical Context Retrieval Memory）は、エージェントの対話履歴を画像としてレンダリングして保存します。テキストを画像に変換すると、ビジュアルトークンとしてエンコードされ、元のテキストトークンよりも大幅に少ないトークン数で同じ情報を保持できます。

具体的な処理の流れは次のとおりです。

まず、エージェントの対話ログをテキスト画像としてレンダリングします。各セグメントにはSet-of-Mark（SoM）と呼ばれるインデックス付きのバウンディングボックスが視覚的アンカーとして付与されます。

情報を取り出すときは「Locate-and-Transcribe」という2段階の検索を行います。最初にビジョンモデルが画像を走査し、関連するセグメントのインデックス番号を特定します。次に、そのインデックスに対応する元のテキストをデータベースからそのまま取得します。

ここで重要なのは、検索結果がモデルによる自由生成ではなく、インデックス選択＋原文の確定的取得であるという点です。これにより、検索時のハルシネーション（もっともらしいが事実と異なる情報の生成）を防ぎます。実験では、自由生成方式の忠実度が84.3%だったのに対し、OCR-Memoryは100%の忠実度を達成しています。

人間の記憶を模倣する解像度制御

OCR-Memoryは、人間の記憶が時間とともに薄れる性質を模倣した「適応解像度スキーム」も備えています。

新しい履歴は高解像度の画像として保存し、古い履歴は低解像度のサムネイルに変換します。サムネイルでも意味の概要は保持されるため、検索の手がかりとしては十分に機能します。関連性が高いと判定された古い記憶は、Active Recall Upsampling（能動的想起アップサンプリング）によって高解像度に復元されます。

この仕組みにより、長大な履歴全体を一定のトークン予算内に収めつつ、必要な情報だけを高精度で呼び戻せます。

実験結果：32kトークンでも94.1%の検索精度

研究チームはNeedle-in-a-Haystack（NIAH）テストで、OCR-Memoryのスケーラビリティを検証しました。大量のテキストの中から特定の情報を見つけ出す能力を測るテストです。

結果は明確でした。4kトークン相当のコンテキストでは98.5%の検索精度を記録し、32kトークンまで拡張しても94.1%を維持しました。圧縮率はいずれの条件でも10倍以上で、32kトークン時には10.6倍を達成しています。

実際のエージェントタスクでの評価も良好です。Web操作ベンチマークのMind2Webでは、要素特定精度が従来手法（AWM）の49.1%から53.8%に向上し、タスク成功率でも新たな最高値を記録しました。API操作ベンチマークのAppWorldでは、難易度の高いタスクで30.8%の成功率を達成し、テキスト検索ベースライン（21.4%）やAWM（27.2%）を大きく上回りました。

トークン予算を1024まで厳しく絞った条件でも、OCR-MemoryはテキストベースのRAGに比べて安定した性能を維持しています。テキストRAGが情報欠落で大きく劣化する場面でも、画像ベースの記憶は耐性を示しました。

従来手法との違い

既存のエージェントメモリ手法と比較すると、OCR-Memoryの特徴は3点に集約できます。

1つ目は情報の完全保持です。要約や抽象化をしないため、エラーメッセージや中間状態といった細部が失われません。2つ目はハルシネーションの排除です。インデックスベースの確定的取得により、検索結果の忠実度は100%です。3つ目はスケーラビリティです。適応解像度により、履歴の長さに関係なく一定のトークン予算で運用できます。

バックボーンモデルの汎用性も確認されています。GPT-4だけでなくオープンソースのQwen3-32Bでも同様の性能向上が見られ、特定のモデルに依存しない手法であることが示されました。

まとめ

OCR-Memoryは、ACL 2026のメインカンファレンスに採択された研究です。テキストを画像として保存するという逆転の発想で、LLMエージェントの記憶容量を実質的に10倍以上に拡張しました。コンテキストウィンドウの制約に悩むエージェント開発者にとって、検討に値するアプローチです。