エピローグ ── 「行列の掛け算」がここまで来た

2026/04/26

エピローグ ── 「行列の掛け算」がここまで来た

LLM技術スタック全体像 — 数学からデプロイまで

シリーズを振り返る：LLM を構成する技術の積層

Level 6: 推論最適化
  KV Cache / 量子化 / 投機的デコーディング / Flash Attention
    ↑ 実用化のための工学的努力

Level 5: アラインメント
  SFT / RLHF (PPO) / DPO / Constitutional AI
    ↑ 「役に立つ AI」にするための調整

Level 4: スケーリング
  スケーリング則 / Chinchilla / 分散訓練 / BF16
    ↑ 「大きくすれば賢くなる」を実現するインフラ

Level 3: Transformer
  Self-Attention / Multi-Head / FFN / Positional Encoding
    ↑ 「全てを変えた」アーキテクチャ（2017年〜）

Level 2: NLP の基礎
  Embedding / Word2Vec / RNN / LSTM / Tokenization
    ↑ 「言葉を数値に」「順序を扱う」

Level 1: 数学的基礎
  線形代数 / 確率・情報理論 / 誤差逆伝播 / 勾配降下法
    ↑ 全ての土台

各章の対応関係

この章で学んだこと	GPT の対応する部分
Ch.2 ベクトル・行列演算	全ての層の計算
Ch.3 ソフトマックス・交差エントロピー	出力層・損失関数
Ch.4 逆伝播・Adam	訓練ループ全体
Ch.5 Embedding	入力層（token_embedding）
Ch.6 RNN の限界	なぜ Transformer が必要か
Ch.7 Self-Attention	Transformer の核心
Ch.8 BPE	前処理（入力テキストの分割）
Ch.9 CLM / LoRA	事前学習・ファインチューニング
Ch.10 分散訓練	訓練インフラ
Ch.11 RLHF / DPO	事前学習後の調整
Ch.12 KV Cache / 量子化	推論サーバー

LLM の現在地と今後（2026年時点）

2024〜2026年の主要な発展

アーキテクチャの進化:
  - Mixture of Experts (MoE): パラメータの一部だけを活性化 → 効率的な大規模化
  - State Space Models (Mamba): Attention の O(n²) を O(n) に → 超長文対応
  - Multimodal: テキスト+画像+音声+動画を統一的に扱う

推論の効率化:
  - オンデバイス LLM（スマートフォンで動く 3B モデル）
  - 推論専用 ASIC（Groq LPU, Google TPU v6）

エージェント化:
  - ツール使用（関数呼び出し、Web 検索、コード実行）
  - マルチステップ推論（Chain-of-Thought → Agent）
  - 自律的なタスク実行（Claude Code, Devin, Replit Agent）

未解決の課題

ハルシネーション:
  → 「もっともらしいが間違っている」出力
  → 根本原因: 「次の単語を予測する」訓練は「正確さ」を直接最適化しない

推論能力の限界:
  → 複雑な論理推論、数学的証明
  → Chain-of-Thought で改善するが、根本的な解決ではない

知識の更新:
  → 訓練データのカットオフ以降の情報を知らない
  → RAG（Retrieval-Augmented Generation）で部分的に対応

計算コスト:
  → GPT-4 クラスの訓練に数億ドル
  → 推論も 1 リクエストあたり数セント
  → 効率化が経済的に最重要

参考文献

論文

Attention Is All You Need (Vaswani et al., 2017) — Transformer の原著
Language Models are Few-Shot Learners (Brown et al., 2020) — GPT-3
Training Compute-Optimal LLMs (Hoffmann et al., 2022) — Chinchilla
Training language models to follow instructions (Ouyang et al., 2022) — InstructGPT / RLHF
Direct Preference Optimization (Rafailov et al., 2023) — DPO
FlashAttention (Dao et al., 2022) — Flash Attention

書籍・コース

Build a Large Language Model (From Scratch) — Sebastian Raschka
Deep Learning (Goodfellow, Bengio, Courville) — 深層学習の教科書
Stanford CS224N: NLP with Deep Learning — NLP の定番講義
Andrej Karpathy: Let’s build GPT — Transformer を一から実装する動画

最後に

LLM は「行列の掛け算の繰り返し」だ。しかしその積み重ねが、人間にしかできないと思われていた言語能力を実現した。

このシリーズで扱った全てのレイヤー──線形代数、確率論、逆伝播、Embedding、Attention、トークナイゼーション、スケーリング、RLHF、推論最適化──は、「次のトークンの確率を正しく予測する」という単一の目標に向けて積み上げられている。

LLM を API として使うだけでも十分に生産的だ。しかし内部構造を理解していれば、プロンプトの書き方、モデルの選択、コストの最適化、限界の認識──全てにおいて、一段深い判断ができるようになる。

このシリーズがその一段深い理解への入り口になれば幸いだ。