プロローグ ── 文字を「読む」とは何か

2026/04/26

プロローグ ── 文字を「読む」とは何か

シリーズ構成（全10章）

Part 1 — 基礎と歴史 Ch.1 プロローグ（本章） / Ch.2 OCRの起源と古典的パイプライン / Ch.3 機械学習時代のOCR — LeNet-5からCRNN+CTCへ

Part 2 — ディープラーニング時代 Ch.4 ディープラーニング時代のテキスト検出と認識 / Ch.5 Transformer時代 — Vision TransformerとDocument AI / Ch.6 マルチモーダルLLMとOCRの融合

Part 3 — 実践と選定 Ch.7 OCRツール・サービス選定ガイド（2026年版） / Ch.8 ベストプラクティス / Ch.9 アンチパターン

Ch.10 エピローグ — OCRの「終わり」と文書理解の始まり

この記事で何を扱うか

スキャンされた PDF を全文検索しようとして、テキストが画像データだと気づいた経験はないだろうか。

あるある場面：

場面1: 取引先から届いた契約書PDF。テキスト検索が効かない
  → 「手で打ち直すしかないのか…？」

場面2: 手書きの問診票を毎日数百枚、人が目で読んでシステムに入力
  → 「なぜ2026年にまだこの作業をしている…？」

場面3: 海外出張のレシートが山積み。金額と通貨を手で転記する経費精算
  → 「写真を撮ったら自動入力されてほしい」

場面4: 古い技術文献の図面やスペックシート。デジタル化したいが量が膨大
  → 「OCRツールを試したが精度が出ない」

これらは全て「画像中の文字を機械に読ませる」——つまり OCR（Optical Character Recognition：光学文字認識） の問題だ。

OCR という言葉自体は新しくない。1950年代から研究が続く、AI の中でも最も歴史が長い分野の一つだ。しかし 2024〜2026年にかけて、この分野にパラダイムシフトが起きている。

なぜ今、OCR を改めて学ぶのか

2024年以降、マルチモーダル LLM（GPT-4o、Gemini、Claude 3.5 など）が急速に普及した。これらのモデルは「画像中の文字を読む」だけでなく、「文書の構造を理解し、意味を解釈する」ことができる。

従来の OCR：
  画像 → 文字列（テキスト）
  → 「請求書番号: INV-2026-0042」という文字列を返す

マルチモーダル LLM 時代の文書理解：
  画像 → 構造化データ + 意味理解
  → 「この請求書の合計金額は ¥154,000 で、支払期限は 2026年5月15日です」
  → JSON で構造化して返すこともできる

「文字認識」と「文書理解」の境界が溶け始めている。だからこそ、エンジニアは以下の疑問に答えられる必要がある。

疑問1: 古典的 OCR と深層学習ベースの OCR は何が違うのか？
疑問2: Tesseract で十分なケースと、もっと高度な手法が必要なケースの境界は？
疑問3: GPT-4o に画像を投げれば OCR ツールは不要になるのか？
疑問4: 精度・コスト・レイテンシのトレードオフをどう判断すべきか？

このシリーズを読み終えると、OCR の仕組みを原理から理解し、2026年現在の技術選定を自信を持って行えるようになる。

対象読者

対象：実務で OCR を使う/導入検討中のエンジニア
      「Tesseract を使ったことはあるが、精度が出なくて困った」という方
      マルチモーダル LLM で OCR を置き換えるべきか判断したい方
難易度：★★★☆☆
読了時間：約3時間（全章通読時）
前提知識：Python が読める、機械学習の基礎用語（CNN・RNN 程度）を聞いたことがある

OCR の歴史を俯瞰する

OCR の 100年の歴史は、大きく4つの時代に分かれる。

timeline
    title OCR技術の進化 ── 100年の歴史
    section 黎明期（1920s-1960s）
        1920s-30s : 初期の特許（Goldberg, Tauschek）
        1951 : Shepard の "Gismo" — 初の実用的文字読み取り機
        1956 : MICR 規格 — 銀行の小切手処理
        1965 : 米国郵便の郵便番号読み取り
    section 古典的パイプライン（1970s-2000s）
        1974 : Kurzweil の全書体 OCR
        1985 : Tesseract 開発開始（HP Labs）
        1990s : 商用 OCR の普及（OmniPage, ABBYY）
        2000s : Tesseract オープンソース化
    section 深層学習革命（2010s）
        2012 : AlexNet — CNN の復権
        2015 : CRNN — CNN+RNN による系列認識
        2017 : EAST — 高速テキスト検出
        2019 : CRAFT — 文字レベル検出
    section マルチモーダル時代（2020s）
        2020 : LayoutLM — レイアウト認識
        2022 : Donut — OCR フリー文書理解
        2023 : GPT-4V — マルチモーダル LLM の登場
        2024-25 : GPT-4o / Gemini / Claude — 文書理解の民主化

各時代は前の時代の限界を乗り越える形で進化してきた。テンプレートマッチング（Template Matching）の限界が特徴抽出を生み、手動の特徴設計の限界が深層学習を生み、文字認識だけでは不十分という限界がマルチモーダル LLM を生んだ。

シリーズ全体の構成

章	タイトル	概要
Ch.1	プロローグ（本章）	OCR の全体像と学ぶ動機
Ch.2	OCRの起源と古典的パイプライン	1920年代〜2000年代の技術と、古典的処理フローの全体像
Ch.3	機械学習時代のOCR	LeNet-5、CRNN+CTC、Tesseract 4.0
Ch.4	ディープラーニング時代のテキスト検出と認識	EAST、CRAFT、DBNet、End-to-Endモデル
Ch.5	Transformer時代 — Vision TransformerとDocument AI	TrOCR、LayoutLM、Donut、Nougat
Ch.6	マルチモーダルLLMとOCRの融合	GPT-4o・Claude・Gemini、オープンソースVLM
Ch.7	OCRツール・サービス選定ガイド（2026年版）	ユースケース別のツール選定と判断基準
Ch.8	ベストプラクティス	OCRの精度とコストを最適化する6つの原則
Ch.9	アンチパターン	OCRパイプラインで繰り返される6つの失敗
Ch.10	エピローグ	OCRの「終わり」と文書理解の始まり

このシリーズの読み方

各章は以下の構造で書いている。

1. その章で何を扱うか（冒頭1〜2文）
2. 技術の背景と動機（なぜこの手法が必要になったか）
3. 仕組みの解説（図解 + コード）
4. 実際の精度・性能の比較
5. 次の章への橋渡し

章は前から順に読むと知識が積み上がる構成だが、特定の章だけ読んでも理解できるよう、必要な前提知識は各章の冒頭で補足している。

❌ おすすめしない読み方：
  「Ch.8 だけ読んで GPT-4o に全部任せよう」
  → なぜ精度が出ないケースがあるか理解できず、トラブルシューティングができない

✅ おすすめの読み方：
  Ch.1-2 で歴史と基礎を押さえる → Ch.4-5 で現代の仕組みを理解する
  → Ch.6 でマルチモーダル時代を知る → Ch.7 で自分のケースに当てはめる

まとめ

OCR は「画像から文字を抽出する」技術であり、100年以上の歴史がある
2024〜2026年にかけて、マルチモーダル LLM の登場により**「文字認識」と「文書理解」の境界が溶け始めている**
エンジニアには「古典的手法から最新手法まで原理を理解し、ユースケースに応じて正しく技術を選定する力」が求められている
このシリーズでは OCR の歴史・原理・最新動向を体系的にカバーし、技術選定を自信を持って行えるようになることをゴールとする

では、OCR の旅の始まり——1920年代の「文字を機械に読ませる」という夢から出発しよう。