Markdownに落としてから使うだけで、資料の扱いはかなり軽くなります。MarkItDownは、その変換をまとめて引き受けるPythonツールです。PDF、Word、Excel、PowerPoint、画像、音声、HTML、JSON、XMLまで広く対応し、LLMや検索基盤に流し込みやすい形へそろえます。
https://github.com/microsoft/markitdown
この記事では、MarkItDownが何を解決するのか、どこが実務向きなのか、そして最近の更新で何が強くなったのかを整理します。
- ばらばらな資料をMarkdownに統一する流れ
- PDFや表の崩れを減らす考え方
- OCRやMCP連携で広がる使い道
- 導入時に見ておくべき注意点
資料をMarkdownへ寄せる意味
ドキュメント変換のつまずきは、元ファイルの種類ごとに処理が分かれることです。PDFは文字抽出が不安定になりやすく、Office文書は表や見出しが崩れやすいです。さらに、LLMにそのまま渡すと構造が失われ、後段の要約や検索の精度が落ちます。
MarkItDownはここを単純化します。入力を受け、見出し、箇条書き、表、リンクといった構造をできるだけ保ったままMarkdownに変えます。出力が人間向けの見た目に寄りすぎない点も重要です。目的は閲覧ではなく、解析や再利用にあります。
何が強いのか
MarkItDownの強みは、対応形式の広さと、LLM前処理との相性です。単なるテキスト化ではなく、表や段落の関係を残す設計になっています。READMEでも、PDF、Word、Excel、PowerPoint、画像、音声、HTML、CSV、JSON、XML、ZIP、YouTube URLなどを対象にしていると案内されています。
実務では、この広さがそのまま手戻りの減少につながります。たとえば、議事録はWord、添付資料はPDF、補足データはExcelという構成でも、同じ変換パイプラインに載せられます。変換先がMarkdownでそろうと、RAG、要約、差分比較、検索インデックス作成まで一本化しやすくなります。
最近の更新で見える改善点
最新リリースのv0.1.5では、PDFの表抽出が改善され、整ったMarkdownとして出しやすくなりました。部分的な番号付きリストの扱いも修正され、幅広い表のサポートも拡張されています。さらに、Acceptヘッダーに text/markdown を追加する変更も入り、変換結果を取り回しやすくしています。
この更新は派手ではありませんが、実務では効きます。資料変換ツールは、機能追加よりも「崩れ方が減ること」の価値が大きいからです。表が崩れると、後続のLLMが誤読します。番号付きリストが壊れると、手順書の意味が変わります。MarkItDownの更新は、その土台を少しずつ固めています。
使い方はシンプル
CLIなら markitdown path-to-file.pdf > document.md の形で使えます。出力先を指定する -o もあり、パイプ入力にも対応します。Python APIでは MarkItDown() を呼び、convert() や convert_uri() で変換します。
拡張も用意されています。たとえば markitdown-ocr プラグインを使うと、PDF、DOCX、PPTX、XLSX 内の埋め込み画像からテキストを抽出できます。しかも、OpenAI互換クライアントを差し込む設計なので、既存の推論基盤をそのまま使いやすいです。
加えて、MarkItDownはMCPサーバーも案内しています。LLMアプリからファイル変換を呼び出したい場面では、この連携が効きます。個別スクリプトを作り込むより、標準化された入口を用意するほうが保守しやすいからです。
向いている用途
MarkItDownは、見た目を整えるためのツールではありません。LLMや検索の入力を整えるための変換器です。向いているのは、社内文書の取り込み、PDF資料の要約、議事録の蓄積、表を含むレポートの前処理、ナレッジベースの構築です。
逆に、印刷用の再現性やレイアウトの忠実さを最優先するなら、別の変換系を選ぶべきです。MarkItDownは構造の保存を重視しますが、DTPの代替ではありません。この役割分担をはっきりさせると、導入後の不満が減ります。
導入時の注意点
READMEにもある通り、MarkItDownは現在のプロセス権限でI/Oを行います。信頼できない入力を扱う環境では、取り込み元を制限し、必要最小限の convert_* を使うべきです。
もう1つ重要なのは、変換対象ごとの期待値を決めることです。PDFは表や段組で揺れます。画像はOCRの有無で結果が変わります。音声は書き起こし品質に左右されます。万能ツールとして使うのではなく、前処理の標準部品として置くと運用が安定します。
まとめ
MarkItDownの価値は、いろいろな資料をMarkdownという共通形にまとめるところにあります。最新のv0.1.5でPDF表やリストの扱いが改善され、実務での使いやすさはさらに上がりました。資料の取り込み先が増え続けている今、こうした変換レイヤーを持つ意味は大きいです。