LLM完全解説:スクラッチから理解する大規模言語モデル

「次の単語予測」という単純なタスクがなぜ知性を持つように見えるのか、数学的基礎から推論最適化まで体系化する。

LLM完全解説:スクラッチから理解する大規模言語モデル

「次の単語予測」という単純なタスクがなぜ知性を持つように見えるのか、数学的基礎から推論最適化まで体系化する。

目次

  1. プロローグ ── 「次の単語を予測する」がなぜ知性に見えるのか ![LLMアーキテクチャスタック — 数学基礎から推論最適化まで](images/ch01_overview.png)
  2. 線形代数 ── ベクトル・行列・テンソルが LLM の「言語」 ![線形代数とLLM — ベクトル・行列・テンソル・GPU並列](images/ch02_linear_algebra.png)
  3. 確率と情報理論 ── エントロピー・交差エントロピー・ソフトマックス ![確率と情報理論 — ソフトマックス・交差エントロピー・Perplexity](images/ch03_probability.png)
  4. ニューラルネットワーク入門 ── パーセプトロンから誤差逆伝播まで ![ニューラルネットワーク基礎 — 順伝播・逆伝播・Adam](images/ch04_neural_net.png)
  5. 単語の数値化 ── 分布仮説と Word2Vec ![単語埋め込み — 分布仮説・Word2Vec・Embedding Layer](images/ch05_embeddings.png)
  6. 系列モデルの進化 ── RNN・LSTM とその限界 ![RNN/LSTM — 勾配消失・ゲート機構・Transformerが勝った理由](images/ch06_rnn_lstm.png)
  7. Attention と Transformer ── 「全てを変えた」アーキテクチャ ![Transformerアーキテクチャ — Self-Attention・Multi-Head・残差接続](images/ch07_transformer.png)
  8. トークナイゼーション ── BPE・SentencePiece ![トークナイゼーション — BPE・SentencePiece・トークン経済学](images/ch08_tokenization.png)
  9. 事前学習と転移学習 ── GPT・BERT の訓練戦略 ![事前学習と転移学習 — CLM・MLM・LoRA](images/ch09_pretraining.png)
  10. スケーリング則と訓練インフラ ── Chinchilla・分散訓練 ![スケーリング則と訓練インフラ — Chinchilla・分散訓練・ZeRO](images/ch10_scaling.png)
  11. RLHF とアラインメント ── 「役に立つ AI」への調整 ![RLHFとアラインメント — SFT・Reward Model・PPO・DPO](images/ch11_rlhf.png)
  12. 推論の高速化 ── KV Cache・量子化・投機的デコーディング ![推論最適化 — KV Cache・量子化・投機的デコーディング](images/ch12_inference.png)
  13. エピローグ ── 「行列の掛け算」がここまで来た ![LLM技術スタック全体像 — 数学からデプロイまで](images/ch13_epilogue_llm.png)