LLM完全解説:スクラッチから理解する大規模言語モデル
「次の単語予測」という単純なタスクがなぜ知性を持つように見えるのか、数学的基礎から推論最適化まで体系化する。
LLM完全解説:スクラッチから理解する大規模言語モデル
「次の単語予測」という単純なタスクがなぜ知性を持つように見えるのか、数学的基礎から推論最適化まで体系化する。
目次
- プロローグ ── 「次の単語を予測する」がなぜ知性に見えるのか 
- 線形代数 ── ベクトル・行列・テンソルが LLM の「言語」 
- 確率と情報理論 ── エントロピー・交差エントロピー・ソフトマックス 
- ニューラルネットワーク入門 ── パーセプトロンから誤差逆伝播まで 
- 単語の数値化 ── 分布仮説と Word2Vec 
- 系列モデルの進化 ── RNN・LSTM とその限界 
- Attention と Transformer ── 「全てを変えた」アーキテクチャ 
- トークナイゼーション ── BPE・SentencePiece 
- 事前学習と転移学習 ── GPT・BERT の訓練戦略 
- スケーリング則と訓練インフラ ── Chinchilla・分散訓練 
- RLHF とアラインメント ── 「役に立つ AI」への調整 
- 推論の高速化 ── KV Cache・量子化・投機的デコーディング 
- エピローグ ── 「行列の掛け算」がここまで来た 