目次を表示する

OCR技術の過去・現在・未来

OCRツール・サービス選定ガイド ── 2026年版

OCRツール・サービス選定ガイド ── 2026年版

この章で何がわかるようになるか:「結局、何を使えばいいの?」── OCRに関わるエンジニアが最も知りたい、この実践的な問いに答える。オープンソースツール、クラウドAPI、マルチモーダルLLMの全体像を俯瞰し、ユースケース別の選定指針を持てるようになる。


ツールの全体像

2026年のOCRツール群は、大きく3つのカテゴリに分かれる。

graph TD
    subgraph "オープンソース / セルフホスト"
        A["Tesseract 5.5.2<br/>LSTM, 100+言語"]
        B["PaddleOCR<br/>PP-OCRv5 / VL 1.5"]
        C["EasyOCR<br/>シンプルAPI"]
        D["Surya<br/>90+言語, 高速"]
        E["GOT-OCR 2.0<br/>580M, エンドツーエンド"]
        F["dots.ocr<br/>多言語VLM"]
    end
    
    subgraph "クラウドAPI"
        G["Google Document AI"]
        H["AWS Textract"]
        I["Azure Document<br/>Intelligence"]
        J["Apple Vision<br/>Framework"]
    end
    
    subgraph "マルチモーダルLLM"
        K["GPT-4o / GPT-5"]
        L["Claude 3.5 / Claude 4"]
        M["Gemini 2.0 Flash"]
    end
    
    style A fill:#e8f4f8,stroke:#2196F3
    style B fill:#e8f4f8,stroke:#2196F3
    style G fill:#fff3e0,stroke:#FF9800
    style K fill:#e8f5e9,stroke:#4CAF50

オープンソースツール比較

Tesseract 5.5.2

位置づけ:オフライン/エッジ処理のレガシー基盤

強み:
  - 100以上の言語に対応
  - 完全オフラインで動作
  - 長い歴史と豊富なドキュメント
  - LSTM(Long Short-Term Memory)ベースの認識エンジン

弱み:
  - 検出機能が弱い(別途検出器が必要な場合が多い)
  - 複雑なレイアウトへの対応が限定的
  - 手書き文字の認識精度が低い
  - きれいに印刷された文書でのみ実用的

PaddleOCR

位置づけ:オープンソースOCRの総合リーダー

バリアント特徴適したユースケース
PP-OCRv5パイプライン型、109言語、軽量大量処理、エッジデプロイ、CJK文書
PaddleOCR-VL 1.5VLMベース、0.9Bパラメータ複雑なレイアウト、混合コンテンツ

CJK(特に中国語・日本語)のサポートが手厚く、縦書きレイアウトにも比較的強いのが大きなアドバンテージだ。

EasyOCR

位置づけ:プロトタイピング向け

✅ EasyOCRが向いているケース:
  - 数行のコードでOCRを試したい
  - プロトタイプを素早く作りたい
  - 学習・教育目的

❌ EasyOCRを避けるべきケース:
  - 本番環境での高精度が求められる
  - 大量処理のスループットが重要
  → PaddleOCRやSuryaに精度・速度で劣る

Surya

位置づけ:Tesseractの現代的な代替

90以上の言語に対応し、行レベルのテキスト検出と認識を行う。速度・精度の両面でTesseractを上回り、セルフホスト型OCRの有力な選択肢だ。

GOT-OCR 2.0

位置づけ:軽量エンドツーエンドモデル

580Mパラメータという比較的軽量なモデルでありながら、印刷文字・手書き・数式・チャートなど多様なOCRタスクに対応する。HF Transformersとの統合により、Pythonからの利用が容易だ。

dots.ocr

位置づけ:多言語文書のレイアウト解析

Xiaohongshu(RedNote)が開発した単一VLMベースのモデル。多言語の文書レイアウト解析を単一モデルで処理できる点が特徴だ。


クラウドAPI比較

サービス精度(印刷文字)対応言語コスト目安特徴
Google Document AI~97%200+$1.50/1K ページGemini 3搭載のLayout Parserへ移行中(レガシー版は2026年6月30日終了)
AWS Textract~95%限定的$1.50/1K ページフォーム・テーブル抽出に強い、AWS統合が容易
Azure Document Intelligence~96%(印刷)300+$1.00/1K ページContent Understanding GA(2025年11月)。カスタムモデル訓練が充実
Apple Vision Framework未公開主要言語無料(デバイス上)WWDC25のRecognizeDocumentsRequest。クラウド不要、プライバシー重視

Google Document AI

⚠️ 重要な変更:
  Google Document AIのレガシー版OCRプロセッサは
  2026年6月30日でサンセット(提供終了)。
  Gemini 3ベースのLayout Parserへの移行が必要。

  → 新規プロジェクトはLayout Parserで開始すべき
  → 既存プロジェクトは2026年Q2までに移行計画を策定

Apple Vision Framework

WWDC25で発表された RecognizeDocumentsRequest は注目に値する。完全にデバイス上で動作し、クラウド通信が不要だ。iOS/macOSアプリでOCR機能を組み込む場合、プライバシー要件を満たしつつコスト0で利用できる。


意思決定フローチャート

「何を使うべきか」は、処理量、文書の複雑さ、環境制約、予算で決まる。

flowchart TD
    START["OCRツールを選びたい"] --> Q1{"処理量は?"}
    
    Q1 -->|"月1万ページ以上"| Q2{"文書の複雑さは?"}
    Q1 -->|"月1万ページ未満"| Q3{"文書の理解・推論が必要?"}
    
    Q2 -->|"クリーンな印刷文書"| R1["Tesseract / PaddleOCR<br/>PP-OCRv5"]
    Q2 -->|"複雑なレイアウト<br/>混合コンテンツ"| R2["PaddleOCR-VL / GOT-OCR<br/>/ dots.ocr"]
    
    Q3 -->|"Yes<br/>(文書QA、要約等)"| R3["マルチモーダルLLM<br/>GPT-4o / Claude / Gemini"]
    Q3 -->|"No<br/>(テキスト抽出のみ)"| Q4{"環境制約は?"}
    
    Q4 -->|"クラウドOK<br/>+ エンタープライズ要件"| R4["クラウドAPI<br/>Google / Azure / AWS"]
    Q4 -->|"オフライン<br/>/ エッジ必須"| Q5{"CJK文書が中心?"}
    
    Q5 -->|"Yes"| R5["PaddleOCR<br/>(CJKサポートが充実)"]
    Q5 -->|"No"| R6["Surya / Tesseract"]
    
    style START fill:#e8f4f8,stroke:#2196F3
    style R1 fill:#e8f5e9,stroke:#4CAF50
    style R2 fill:#e8f5e9,stroke:#4CAF50
    style R3 fill:#fff3e0,stroke:#FF9800
    style R4 fill:#f3e5f5,stroke:#9C27B0
    style R5 fill:#e8f5e9,stroke:#4CAF50
    style R6 fill:#e8f5e9,stroke:#4CAF50

コスト比較表

実際にOCRを運用する際のコスト感を把握しておこう。以下は2026年4月時点の目安だ。

アプローチ1,000ページあたりコスト精度(クリーンな文書)精度(複雑なレイアウト)備考
Tesseract 5.5.2~$0.05(計算資源のみ)85〜90%60〜70%最安。精度に限界あり
PaddleOCR PP-OCRv5~$0.09(計算資源のみ)90〜95%75〜85%CJKに強い。コスパ最良
Surya~$0.09(計算資源のみ)90〜95%75〜85%Tesseractの上位互換
GOT-OCR 2.0~$0.15(GPU推論)92〜96%80〜88%エンドツーエンド
PaddleOCR-VL 1.5~$0.20(GPU推論)94〜96%85〜92%VLMベース。複雑文書に強い
クラウドAPI$1.00〜$1.5095〜97%85〜92%マネージド。運用コスト低
Gemini 2.0 Flash~$0.17~96%88〜93%LLMとしては破格の安さ
GPT-4o~$5.00~98%90〜95%高精度だが高コスト
GPT-5.4~$15.00~98%92〜96%最高精度。コストも最大

コスト試算の具体例

シナリオ: 月100万ページの請求書処理

Tesseract:     $50/月   → 年間 $600
PaddleOCR:     $90/月   → 年間 $1,080
クラウドAPI:   $1,500/月 → 年間 $18,000
GPT-4o:        $5,000/月 → 年間 $60,000
GPT-5.4:       $15,000/月→ 年間 $180,000

→ 100万ページ規模では、ツール選定が年間数万〜数十万ドルの差を生む
✅ 実務でのベストプラクティス:
  1. まずPaddleOCR等のオープンソースで処理
  2. 信頼度スコアが閾値を下回った文書だけLLMに回す
  3. これにより90%以上の文書を低コストで処理し、
     残り10%の困難なケースにのみ高コストモデルを使用

  → ハイブリッド戦略で全体コストを最適化

ユースケース別推奨ツール

上記の分析を踏まえ、代表的なユースケース別の推奨をまとめる。

ユースケース推奨ツール理由
大量の定型帳票処理PaddleOCR PP-OCRv5 + ルールベース後処理低コスト・高スループット
複雑なレイアウトの文書PaddleOCR-VL 1.5 / GOT-OCR 2.0レイアウト理解力が高い
文書QA・要約・推論Claude 3.5 / GPT-4oOCR + 理解を同時に実行
規制産業・エンタープライズAzure Document Intelligence / Google Document AISLA・コンプライアンス対応
CJK文書(日中韓)PaddleOCR(全バリアント)CJKサポートが最も充実
iOS/macOSアプリApple Vision Framework無料・オフライン・プライバシー
学術論文のデジタル化Nougat + Gemini FlashLaTeX/数式に強い
プロトタイプ・PoCEasyOCR / Surya導入が簡単

選定時の判断軸チェックリスト

最後に、ツール選定時に確認すべき判断軸を整理する。

□ 処理量: 月に何ページ処理するか
□ 文書タイプ: クリーンな印刷 / 手書き / 混合レイアウト
□ 言語: ラテン文字のみ / CJK含む / 多言語混在
□ 精度要件: 許容できるエラー率は何%か
□ レイテンシ: リアルタイム処理が必要か / バッチでよいか
□ 環境制約: クラウドOK / オンプレミス必須 / エッジデバイス
□ プライバシー: 文書データを外部に送信できるか
□ 予算: 月額の上限は
□ 運用体制: MLエンジニアがいるか / マネージドが必要か
□ 出力形式: テキストのみ / 構造化JSON / 文書理解まで必要か

この章のまとめ

  • 2026年のOCRツールは、オープンソース/セルフホストクラウドAPIマルチモーダルLLMの3カテゴリに大別される
  • PaddleOCRがオープンソースの総合リーダーで、パイプライン型(PP-OCRv5)とVLM型(PaddleOCR-VL 1.5)を用途に応じて使い分けられる。特にCJK文書に強い
  • Google Document AIのレガシー版は2026年6月30日で終了予定。Gemini 3ベースのLayout Parserへの移行が必要
  • コストは、オープンソース($0.09/1Kページ)からGPT-5.4($15/1Kページ)まで最大300倍の差がある。処理量が多いほどツール選定のインパクトが大きい
  • 実務では、オープンソースで大量処理し、困難なケースのみLLMに回すハイブリッド戦略がコスト最適
  • ツール選定は、処理量・文書タイプ・言語・精度要件・環境制約・予算を総合的に判断して行う