OCRツール・サービス選定ガイド ── 2026年版
この章で何がわかるようになるか:「結局、何を使えばいいの?」── OCRに関わるエンジニアが最も知りたい、この実践的な問いに答える。オープンソースツール、クラウドAPI、マルチモーダルLLMの全体像を俯瞰し、ユースケース別の選定指針を持てるようになる。
ツールの全体像
2026年のOCRツール群は、大きく3つのカテゴリに分かれる。
graph TD
subgraph "オープンソース / セルフホスト"
A["Tesseract 5.5.2<br/>LSTM, 100+言語"]
B["PaddleOCR<br/>PP-OCRv5 / VL 1.5"]
C["EasyOCR<br/>シンプルAPI"]
D["Surya<br/>90+言語, 高速"]
E["GOT-OCR 2.0<br/>580M, エンドツーエンド"]
F["dots.ocr<br/>多言語VLM"]
end
subgraph "クラウドAPI"
G["Google Document AI"]
H["AWS Textract"]
I["Azure Document<br/>Intelligence"]
J["Apple Vision<br/>Framework"]
end
subgraph "マルチモーダルLLM"
K["GPT-4o / GPT-5"]
L["Claude 3.5 / Claude 4"]
M["Gemini 2.0 Flash"]
end
style A fill:#e8f4f8,stroke:#2196F3
style B fill:#e8f4f8,stroke:#2196F3
style G fill:#fff3e0,stroke:#FF9800
style K fill:#e8f5e9,stroke:#4CAF50
オープンソースツール比較
Tesseract 5.5.2
位置づけ:オフライン/エッジ処理のレガシー基盤
強み:
- 100以上の言語に対応
- 完全オフラインで動作
- 長い歴史と豊富なドキュメント
- LSTM(Long Short-Term Memory)ベースの認識エンジン
弱み:
- 検出機能が弱い(別途検出器が必要な場合が多い)
- 複雑なレイアウトへの対応が限定的
- 手書き文字の認識精度が低い
- きれいに印刷された文書でのみ実用的
PaddleOCR
位置づけ:オープンソースOCRの総合リーダー
| バリアント | 特徴 | 適したユースケース |
|---|---|---|
| PP-OCRv5 | パイプライン型、109言語、軽量 | 大量処理、エッジデプロイ、CJK文書 |
| PaddleOCR-VL 1.5 | VLMベース、0.9Bパラメータ | 複雑なレイアウト、混合コンテンツ |
CJK(特に中国語・日本語)のサポートが手厚く、縦書きレイアウトにも比較的強いのが大きなアドバンテージだ。
EasyOCR
位置づけ:プロトタイピング向け
✅ EasyOCRが向いているケース:
- 数行のコードでOCRを試したい
- プロトタイプを素早く作りたい
- 学習・教育目的
❌ EasyOCRを避けるべきケース:
- 本番環境での高精度が求められる
- 大量処理のスループットが重要
→ PaddleOCRやSuryaに精度・速度で劣る
Surya
位置づけ:Tesseractの現代的な代替
90以上の言語に対応し、行レベルのテキスト検出と認識を行う。速度・精度の両面でTesseractを上回り、セルフホスト型OCRの有力な選択肢だ。
GOT-OCR 2.0
位置づけ:軽量エンドツーエンドモデル
580Mパラメータという比較的軽量なモデルでありながら、印刷文字・手書き・数式・チャートなど多様なOCRタスクに対応する。HF Transformersとの統合により、Pythonからの利用が容易だ。
dots.ocr
位置づけ:多言語文書のレイアウト解析
Xiaohongshu(RedNote)が開発した単一VLMベースのモデル。多言語の文書レイアウト解析を単一モデルで処理できる点が特徴だ。
クラウドAPI比較
| サービス | 精度(印刷文字) | 対応言語 | コスト目安 | 特徴 |
|---|---|---|---|---|
| Google Document AI | ~97% | 200+ | $1.50/1K ページ | Gemini 3搭載のLayout Parserへ移行中(レガシー版は2026年6月30日終了) |
| AWS Textract | ~95% | 限定的 | $1.50/1K ページ | フォーム・テーブル抽出に強い、AWS統合が容易 |
| Azure Document Intelligence | ~96%(印刷) | 300+ | $1.00/1K ページ | Content Understanding GA(2025年11月)。カスタムモデル訓練が充実 |
| Apple Vision Framework | 未公開 | 主要言語 | 無料(デバイス上) | WWDC25のRecognizeDocumentsRequest。クラウド不要、プライバシー重視 |
Google Document AI
⚠️ 重要な変更:
Google Document AIのレガシー版OCRプロセッサは
2026年6月30日でサンセット(提供終了)。
Gemini 3ベースのLayout Parserへの移行が必要。
→ 新規プロジェクトはLayout Parserで開始すべき
→ 既存プロジェクトは2026年Q2までに移行計画を策定
Apple Vision Framework
WWDC25で発表された RecognizeDocumentsRequest は注目に値する。完全にデバイス上で動作し、クラウド通信が不要だ。iOS/macOSアプリでOCR機能を組み込む場合、プライバシー要件を満たしつつコスト0で利用できる。
意思決定フローチャート
「何を使うべきか」は、処理量、文書の複雑さ、環境制約、予算で決まる。
flowchart TD
START["OCRツールを選びたい"] --> Q1{"処理量は?"}
Q1 -->|"月1万ページ以上"| Q2{"文書の複雑さは?"}
Q1 -->|"月1万ページ未満"| Q3{"文書の理解・推論が必要?"}
Q2 -->|"クリーンな印刷文書"| R1["Tesseract / PaddleOCR<br/>PP-OCRv5"]
Q2 -->|"複雑なレイアウト<br/>混合コンテンツ"| R2["PaddleOCR-VL / GOT-OCR<br/>/ dots.ocr"]
Q3 -->|"Yes<br/>(文書QA、要約等)"| R3["マルチモーダルLLM<br/>GPT-4o / Claude / Gemini"]
Q3 -->|"No<br/>(テキスト抽出のみ)"| Q4{"環境制約は?"}
Q4 -->|"クラウドOK<br/>+ エンタープライズ要件"| R4["クラウドAPI<br/>Google / Azure / AWS"]
Q4 -->|"オフライン<br/>/ エッジ必須"| Q5{"CJK文書が中心?"}
Q5 -->|"Yes"| R5["PaddleOCR<br/>(CJKサポートが充実)"]
Q5 -->|"No"| R6["Surya / Tesseract"]
style START fill:#e8f4f8,stroke:#2196F3
style R1 fill:#e8f5e9,stroke:#4CAF50
style R2 fill:#e8f5e9,stroke:#4CAF50
style R3 fill:#fff3e0,stroke:#FF9800
style R4 fill:#f3e5f5,stroke:#9C27B0
style R5 fill:#e8f5e9,stroke:#4CAF50
style R6 fill:#e8f5e9,stroke:#4CAF50
コスト比較表
実際にOCRを運用する際のコスト感を把握しておこう。以下は2026年4月時点の目安だ。
| アプローチ | 1,000ページあたりコスト | 精度(クリーンな文書) | 精度(複雑なレイアウト) | 備考 |
|---|---|---|---|---|
| Tesseract 5.5.2 | ~$0.05(計算資源のみ) | 85〜90% | 60〜70% | 最安。精度に限界あり |
| PaddleOCR PP-OCRv5 | ~$0.09(計算資源のみ) | 90〜95% | 75〜85% | CJKに強い。コスパ最良 |
| Surya | ~$0.09(計算資源のみ) | 90〜95% | 75〜85% | Tesseractの上位互換 |
| GOT-OCR 2.0 | ~$0.15(GPU推論) | 92〜96% | 80〜88% | エンドツーエンド |
| PaddleOCR-VL 1.5 | ~$0.20(GPU推論) | 94〜96% | 85〜92% | VLMベース。複雑文書に強い |
| クラウドAPI | $1.00〜$1.50 | 95〜97% | 85〜92% | マネージド。運用コスト低 |
| Gemini 2.0 Flash | ~$0.17 | ~96% | 88〜93% | LLMとしては破格の安さ |
| GPT-4o | ~$5.00 | ~98% | 90〜95% | 高精度だが高コスト |
| GPT-5.4 | ~$15.00 | ~98% | 92〜96% | 最高精度。コストも最大 |
コスト試算の具体例
シナリオ: 月100万ページの請求書処理
Tesseract: $50/月 → 年間 $600
PaddleOCR: $90/月 → 年間 $1,080
クラウドAPI: $1,500/月 → 年間 $18,000
GPT-4o: $5,000/月 → 年間 $60,000
GPT-5.4: $15,000/月→ 年間 $180,000
→ 100万ページ規模では、ツール選定が年間数万〜数十万ドルの差を生む
✅ 実務でのベストプラクティス:
1. まずPaddleOCR等のオープンソースで処理
2. 信頼度スコアが閾値を下回った文書だけLLMに回す
3. これにより90%以上の文書を低コストで処理し、
残り10%の困難なケースにのみ高コストモデルを使用
→ ハイブリッド戦略で全体コストを最適化
ユースケース別推奨ツール
上記の分析を踏まえ、代表的なユースケース別の推奨をまとめる。
| ユースケース | 推奨ツール | 理由 |
|---|---|---|
| 大量の定型帳票処理 | PaddleOCR PP-OCRv5 + ルールベース後処理 | 低コスト・高スループット |
| 複雑なレイアウトの文書 | PaddleOCR-VL 1.5 / GOT-OCR 2.0 | レイアウト理解力が高い |
| 文書QA・要約・推論 | Claude 3.5 / GPT-4o | OCR + 理解を同時に実行 |
| 規制産業・エンタープライズ | Azure Document Intelligence / Google Document AI | SLA・コンプライアンス対応 |
| CJK文書(日中韓) | PaddleOCR(全バリアント) | CJKサポートが最も充実 |
| iOS/macOSアプリ | Apple Vision Framework | 無料・オフライン・プライバシー |
| 学術論文のデジタル化 | Nougat + Gemini Flash | LaTeX/数式に強い |
| プロトタイプ・PoC | EasyOCR / Surya | 導入が簡単 |
選定時の判断軸チェックリスト
最後に、ツール選定時に確認すべき判断軸を整理する。
□ 処理量: 月に何ページ処理するか
□ 文書タイプ: クリーンな印刷 / 手書き / 混合レイアウト
□ 言語: ラテン文字のみ / CJK含む / 多言語混在
□ 精度要件: 許容できるエラー率は何%か
□ レイテンシ: リアルタイム処理が必要か / バッチでよいか
□ 環境制約: クラウドOK / オンプレミス必須 / エッジデバイス
□ プライバシー: 文書データを外部に送信できるか
□ 予算: 月額の上限は
□ 運用体制: MLエンジニアがいるか / マネージドが必要か
□ 出力形式: テキストのみ / 構造化JSON / 文書理解まで必要か
この章のまとめ
- 2026年のOCRツールは、オープンソース/セルフホスト、クラウドAPI、マルチモーダルLLMの3カテゴリに大別される
- PaddleOCRがオープンソースの総合リーダーで、パイプライン型(PP-OCRv5)とVLM型(PaddleOCR-VL 1.5)を用途に応じて使い分けられる。特にCJK文書に強い
- Google Document AIのレガシー版は2026年6月30日で終了予定。Gemini 3ベースのLayout Parserへの移行が必要
- コストは、オープンソース(
$0.09/1Kページ)からGPT-5.4($15/1Kページ)まで最大300倍の差がある。処理量が多いほどツール選定のインパクトが大きい - 実務では、オープンソースで大量処理し、困難なケースのみLLMに回すハイブリッド戦略がコスト最適
- ツール選定は、処理量・文書タイプ・言語・精度要件・環境制約・予算を総合的に判断して行う