エピローグ ── 「行列の掛け算」がここまで来た

シリーズを振り返る:LLM を構成する技術の積層
Level 6: 推論最適化
KV Cache / 量子化 / 投機的デコーディング / Flash Attention
↑ 実用化のための工学的努力
Level 5: アラインメント
SFT / RLHF (PPO) / DPO / Constitutional AI
↑ 「役に立つ AI」にするための調整
Level 4: スケーリング
スケーリング則 / Chinchilla / 分散訓練 / BF16
↑ 「大きくすれば賢くなる」を実現するインフラ
Level 3: Transformer
Self-Attention / Multi-Head / FFN / Positional Encoding
↑ 「全てを変えた」アーキテクチャ(2017年〜)
Level 2: NLP の基礎
Embedding / Word2Vec / RNN / LSTM / Tokenization
↑ 「言葉を数値に」「順序を扱う」
Level 1: 数学的基礎
線形代数 / 確率・情報理論 / 誤差逆伝播 / 勾配降下法
↑ 全ての土台
各章の対応関係
| この章で学んだこと | GPT の対応する部分 |
|---|---|
| Ch.2 ベクトル・行列演算 | 全ての層の計算 |
| Ch.3 ソフトマックス・交差エントロピー | 出力層・損失関数 |
| Ch.4 逆伝播・Adam | 訓練ループ全体 |
| Ch.5 Embedding | 入力層(token_embedding) |
| Ch.6 RNN の限界 | なぜ Transformer が必要か |
| Ch.7 Self-Attention | Transformer の核心 |
| Ch.8 BPE | 前処理(入力テキストの分割) |
| Ch.9 CLM / LoRA | 事前学習・ファインチューニング |
| Ch.10 分散訓練 | 訓練インフラ |
| Ch.11 RLHF / DPO | 事前学習後の調整 |
| Ch.12 KV Cache / 量子化 | 推論サーバー |
LLM の現在地と今後(2026年時点)
2024〜2026年の主要な発展
アーキテクチャの進化:
- Mixture of Experts (MoE): パラメータの一部だけを活性化 → 効率的な大規模化
- State Space Models (Mamba): Attention の O(n²) を O(n) に → 超長文対応
- Multimodal: テキスト+画像+音声+動画を統一的に扱う
推論の効率化:
- オンデバイス LLM(スマートフォンで動く 3B モデル)
- 推論専用 ASIC(Groq LPU, Google TPU v6)
エージェント化:
- ツール使用(関数呼び出し、Web 検索、コード実行)
- マルチステップ推論(Chain-of-Thought → Agent)
- 自律的なタスク実行(Claude Code, Devin, Replit Agent)
未解決の課題
ハルシネーション:
→ 「もっともらしいが間違っている」出力
→ 根本原因: 「次の単語を予測する」訓練は「正確さ」を直接最適化しない
推論能力の限界:
→ 複雑な論理推論、数学的証明
→ Chain-of-Thought で改善するが、根本的な解決ではない
知識の更新:
→ 訓練データのカットオフ以降の情報を知らない
→ RAG(Retrieval-Augmented Generation)で部分的に対応
計算コスト:
→ GPT-4 クラスの訓練に数億ドル
→ 推論も 1 リクエストあたり数セント
→ 効率化が経済的に最重要
参考文献
論文
- Attention Is All You Need (Vaswani et al., 2017) — Transformer の原著
- Language Models are Few-Shot Learners (Brown et al., 2020) — GPT-3
- Training Compute-Optimal LLMs (Hoffmann et al., 2022) — Chinchilla
- Training language models to follow instructions (Ouyang et al., 2022) — InstructGPT / RLHF
- Direct Preference Optimization (Rafailov et al., 2023) — DPO
- FlashAttention (Dao et al., 2022) — Flash Attention
書籍・コース
- Build a Large Language Model (From Scratch) — Sebastian Raschka
- Deep Learning (Goodfellow, Bengio, Courville) — 深層学習の教科書
- Stanford CS224N: NLP with Deep Learning — NLP の定番講義
- Andrej Karpathy: Let’s build GPT — Transformer を一から実装する動画
最後に
LLM は「行列の掛け算の繰り返し」だ。しかしその積み重ねが、人間にしかできないと思われていた言語能力を実現した。
このシリーズで扱った全てのレイヤー──線形代数、確率論、逆伝播、Embedding、Attention、トークナイゼーション、スケーリング、RLHF、推論最適化──は、「次のトークンの確率を正しく予測する」という単一の目標に向けて積み上げられている。
LLM を API として使うだけでも十分に生産的だ。しかし内部構造を理解していれば、プロンプトの書き方、モデルの選択、コストの最適化、限界の認識──全てにおいて、一段深い判断ができるようになる。
このシリーズがその一段深い理解への入り口になれば幸いだ。