第7章: GraphRAG ─ 知識グラフ × LLM の再注目
第2部までで「オントロジーは何か」「Palantir / 一般 Semantic Layer はどう動くか」を見た。第3部はLLM時代のオントロジーがテーマ。本章ではその最も技術的に分かりやすい現出 ─ GraphRAG ─ を扱う。「なぜいまオントロジー / 知識グラフが LLM 文脈で再注目されているのか」の核心。
ベクトル RAG の限界 ─ なぜ GraphRAG が必要だったか
2023-2024 で標準化した ベクトル RAG(Retrieval-Augmented Generation)は、以下の流れで動く:
graph LR
Q[ユーザーの質問] --> E[Embedding]
E --> S[ベクトル類似検索]
DB[(Vector DB)] --> S
S --> Top[Top-K チャンク]
Top --> LLM
LLM --> A[回答]
style S fill:#1a2030,stroke:#4cc9f0
これで**「特定の事実を引いてくる」**は良く解けた。しかし以下のような質問は壊滅的に弱い:
| 質問タイプ | 例 | ベクトル RAG の弱さ |
|---|---|---|
| グローバル要約 | 「このデータセット全体のテーマは何か?」 | チャンク単位でしか取れない |
| 多ホップ推論 | 「A の影響で B が起きて C が変わった、の連鎖は?」 | 関係性が見えない |
| 構造的集計 | 「研究者ごとの論文数トップ10は?」 | 集約が苦手 |
| 未言及の関係性 | 「X と Y の隠れた関係は?」 | 類似度では出ない |
Query-Focused Summarization(QFS) と呼ばれるグローバル要約タスクで、ベクトル RAG は失敗する。これが GraphRAG 登場の動機。
★ Microsoft Research GraphRAG(2024-04)
arXiv:2404.16130 “From Local to Global: A Graph RAG Approach to Query-Focused Summarization”。Edge ら Microsoft Research が 2024 年 4 月 24 日に発表、その後 OSS 化。
3 段階アーキテクチャ
graph TB
Doc[(ドキュメント<br/>非構造化テキスト)]
Doc --> S1[Stage 1<br/>Entity Extraction]
S1 --> KG[(Knowledge Graph<br/>エンティティ + 関係)]
KG --> S2[Stage 2<br/>Community Detection<br/>Leiden algorithm]
S2 --> C[(Communities<br/>関連エンティティ群)]
C --> S3[Stage 3<br/>Community Summarization]
S3 --> Sum[(Pre-generated<br/>Community Summaries)]
Q[クエリ] --> Map[Map: 各 community に部分回答]
Sum --> Map
Map --> Reduce[Reduce: 最終統合]
Reduce --> A[包括的な回答]
style S1 fill:#1a2030,stroke:#ff4d6d
style S2 fill:#1a2030,stroke:#b794f4
style S3 fill:#1a2030,stroke:#4cc9f0
各段階の中身
Stage 1: Entity Extraction
- LLM がチャンクから重要エンティティと関係を抽出
- 各エンティティに短い説明を生成
- 結果:ノード(エンティティ)+ エッジ(関係)の Knowledge Graph
Stage 2: Community Detection
- Leiden アルゴリズム等で関連エンティティをクラスタリング
- 階層的な community(小さい → 大きい)
Stage 3: Community Summarization
- コミュニティごとに LLM がサマリを事前生成して保存
- これが「グローバル要約」の素材になる
クエリ時の Map-Reduce
質問が来たら:
- Map:各 community サマリで部分回答を作る(並列)
- Reduce:部分回答を統合して最終回答
これにより**「データセット全体のテーマは?」**にもベクトル RAG より遥かに包括的に答えられる。
評価ベンチマーク
論文では QFS タスクで通常のベクトル RAG を包括性・多様性で大幅に上回ることを示した。“RAG vs. GraphRAG: A Systematic Evaluation”(arXiv:2502.11371)も同様の結果。
ただし**「単純な事実検索ではベクトル RAG で十分」**な場合も多い。すべてを GraphRAG に置き換える必要はない。
GraphRAG の進化系(2024-2026)
LightRAG(HKU、2024-10)
arXiv:2410.05779、EMNLP 2025 採択。グラフ構造とベクトル表現を統合、low-level(具体的な関係)と high-level(コミュニティ全体)の二層検索。GraphRAG・Naive RAG を凌駕する SOTA を主張。
HippoRAG(Ohio State、NeurIPS 2024)
arXiv:2405.14831。海馬指標説に着想。LLM でスキーマレス KG を構築 + クエリ概念をシードに Personalized PageRank で多ホップ統合。
| 指標 | 結果 |
|---|---|
| マルチホップ QA | +20% |
| IRCoT 比 コスト | 10-30倍安い |
| IRCoT 比 速度 | 6-13倍速い |
「生物学的記憶モデルから計算機科学に逆輸入した**」のが面白い。
PathRAG(2025-02)
arXiv:2502.14902。コミュニティ単位ではなく関係パス単位でプロンプトに渡す。冗長性を減らし論理的整合性を担保。
graph LR
GR[GraphRAG] --> CS[Community 単位<br/>サマリ]
PR[PathRAG] --> RP[関係パス単位<br/>論理的連鎖]
style GR fill:#1a2030,stroke:#4cc9f0
style PR fill:#1a2030,stroke:#b794f4
★ LazyGraphRAG(Microsoft、2024-11)
GraphRAG の最大の弱点 ─ コストを解決した変種。
| 比較 | フル GraphRAG | LazyGraphRAG |
|---|---|---|
| 5GB データセットインデキシング | $33,000 | $33(1000分の1) |
| 事前 community サマリ生成 | あり | 全廃 |
| ベクトル RAG とのコスト比 | 数十倍 | 同等 |
| 品質 | 高 | フル版とほぼ同等を維持 |
「事前サマリを作らず、クエリ時に必要な部分だけ動的に処理する」という発想。これにより GraphRAG のコスト障壁が解消された。第8章で扱う「軽量ベクトル → 必要部分だけ KG 化」の段階的アプローチが現実解になったのは LazyGraphRAG が大きい。
Mem0g(ECAI 2025)
arXiv:2504.19413。Mem0 のグラフ拡張版。ベクトル + KG ハイブリッドメモリ。第8章のエージェントメモリで詳しく扱う。
進化系の比較表
| 手法 | 提唱 | 特徴 | コスト | 強み |
|---|---|---|---|---|
| Microsoft GraphRAG | 2024-04 | 3段階 + community サマリ | 高 | グローバル要約 |
| LightRAG | 2024-10 | dual-level 検索 | 中 | 構造 + ベクトル統合 |
| HippoRAG | 2024-05 | Personalized PageRank | 低 | 多ホップ QA |
| PathRAG | 2025-02 | 関係パス | 中 | 論理整合性 |
| LazyGraphRAG | 2024-11 | 事前サマリ全廃 | 極低 | コスト同等で品質維持 |
| Mem0g | 2025 | ベクトル + KG ハイブリッド | 中 | エージェントメモリ |
商用クラウドの取り込み(2024-2026)
GraphRAG は OSS 研究から始まったが、商用クラウドが急速に取り込んだ。これが「コモディティ化」を意味する。
AWS Bedrock Knowledge Bases GraphRAG(2025-03 GA)
| 項目 | 内容 |
|---|---|
| 公開 | 2024-12 preview → 2025-03 GA |
| 統合 | Amazon Neptune Analytics |
| 自動化 | S3 から自動的に embedding と entity-relation graph を構築 |
「Bedrock を使っていれば数クリックで GraphRAG が立ち上がる」状態に。
Snowflake Cortex Search / Cortex Agents / Snowflake Intelligence(2025-11-04 一斉GA)
| 項目 | 内容 |
|---|---|
| Cortex Search | RAG 用ハイブリッド検索(ベクトル + キーワード) |
| Cortex Analyst | 自然言語 → SQL(構造化データ向け) |
| Cortex Agents | Analyst + Search + Tools のオーケストレーション |
| Snowflake Intelligence | NL BI、Mobile App |
| 統合 | RelationalAI と統合して GraphRAG 対応 |
Snowflake が「データ + AI 基盤」として完成形に近づいた象徴。
Google Vertex AI + Spanner Graph
「GraphRAG infrastructure for generative AI」として Spanner Graph をベクトル + グラフの統一データストアとして提示。Vertex AI Search の grounding 機能と連携。
Microsoft Fabric
GQL 言語サポート + Ignite 2025 で「すべてのエンタープライズ AI エージェントにオントロジーが必要」を強調。Fabric の semantic model + Knowledge Graph 化が進行。
ハイブリッド検索 ─ 2026 年の Production Standard
「ベクトル RAG vs GraphRAG」の二項対立は古い。2026 年の現場はハイブリッドが標準:
graph TB
Q[クエリ] --> R1[BM25<br/>表層キーワード]
Q --> R2[Vector Search<br/>意味類似]
Q --> R3[Graph Traversal<br/>関係構造]
R1 --> Reranker[Reranker / アンサンブル]
R2 --> Reranker
R3 --> Reranker
Reranker --> LLM
LLM --> A[回答]
style R1 fill:#1a2030,stroke:#ff4d6d
style R2 fill:#1a2030,stroke:#b794f4
style R3 fill:#1a2030,stroke:#4cc9f0
3 つは相補的:
- BM25:完全一致、固有名詞、稀少語に強い
- Vector:意味的類似、言い換え、概念的近さ
- Graph:構造、関係、多ホップ
LangGraph 等のマルチエージェント枠組みでアンサンブル + rerankingするのが定石。
ハイブリッドストア
ベクトルとグラフを1つのデータストアで持つ選択肢も増えた。
| 製品 | アプローチ |
|---|---|
| Neo4j + LLM Knowledge Graph Builder(2024-06、2025 First Release) | 非構造化テキスト → KG 抽出 + コミュニティサマリのベクトル化 |
| Memgraph + LangGraph + MCP | リアルタイム in-memory、Cypher、AI Toolkit |
| Qdrant + Neo4j | Qdrant でセマンティック検索 + Neo4j で関係 |
| ArangoDB(G2 Fall 2025 #1) | マルチモデル(vector/graph/document/full-text/key-value)を1クエリ言語で統一 |
| Amazon Neptune | RDF + Property Graph + Vector |
いつ GraphRAG を使うか ─ 判断フロー
flowchart TB
Q[要件] --> Q1{グローバル要約 or<br/>多ホップ?}
Q1 -- Yes --> GR[GraphRAG 系]
Q1 -- No --> Q2{単純な事実検索?}
Q2 -- Yes --> VR[ベクトル RAG]
Q2 -- No --> H[ハイブリッド]
GR --> Q3{コスト制約?}
Q3 -- 厳しい --> Lazy[LazyGraphRAG]
Q3 -- 緩い --> Full[Microsoft GraphRAG]
GR --> Q4{多ホップ中心?}
Q4 -- Yes --> Hippo[HippoRAG]
ざっくりの目安:
- PoC / 軽量:ベクトル RAG から始める
- グローバル要約が必要:LazyGraphRAG(コストが許せばフル GraphRAG)
- 多ホップ QA:HippoRAG
- 本番 Production:ハイブリッド(BM25 + Vector + Graph)
LLM 抽出 5 つの品質課題(予告)
GraphRAG は「LLM がテキストから KG を自動生成」を前提とする。だがLLM 抽出には品質課題がある:
- Hallucinated Edges(1.5–1.9% の幻覚率)
- Entity Duplication(“Apple” と “apple” が別ノードになる)
- Incomplete Extraction(重要関係を見落とす)
- Schema Drift(時系列で意味が変わる)
- Domain Mismatch(汎用 LLM がドメイン用語を取り違える)
これらは第8章で詳しく扱う。「GraphRAG を導入したら全部解決」ではなく、観測と継続的検証が必要。
数字で見る GraphRAG 経済学
| 指標 | 数字 |
|---|---|
| KG 市場規模(2024 → 2030 予測) | $1.06B → $6.93B(CAGR 36.6%) |
| Gartner 2025 Hype Cycle | 知識グラフが Slope of Enlightenment 到達 |
| Gartner 予測(2028) | AI ツールの 80% に普及 |
| LazyGraphRAG コスト削減 | 1000分の1 |
| HippoRAG マルチホップ精度 | +20% |
「KG はもう古い」と言われた数年前と、明らかに違う風景。
本章の要点
| # | 要点 |
|---|---|
| 1 | ベクトル RAG はグローバル要約・多ホップ・構造的集計に弱い。これが GraphRAG の動機 |
| 2 | Microsoft GraphRAG(2024-04)は Entity Extraction → Community Detection → Community Summarization の3段階 |
| 3 | 進化系:LightRAG(dual-level)、HippoRAG(Personalized PageRank、海馬モデル)、PathRAG(関係パス)、LazyGraphRAG(コスト1000分の1) |
| 4 | LazyGraphRAG で 5GB データセットのインデキシングが $33,000 → $33 に劇的低減。コスト障壁が解消 |
| 5 | 商用クラウドの取り込み:AWS Bedrock GraphRAG GA(2025-03) / Snowflake Cortex GA(2025-11) / Vertex AI + Spanner Graph |
| 6 | 2026 年の Production Standard はハイブリッド検索(BM25 + Vector + Graph)+ Reranker |
| 7 | ハイブリッドストア:Neo4j + KG Builder / Memgraph / ArangoDB(マルチモデル) |
| 8 | LLM 抽出には 5 つの品質課題:Hallucinated Edges / Duplication / Incomplete / Schema Drift / Domain Mismatch(第8章で詳細) |
効いている根本原理
本章は 原理4(LLM 時代の橋渡し) が真ん中に立った章だった。GraphRAG は「確率的な LLM に 決定的なグラフ構造 を与える」中間層であり、第3章の RDF triple や第4章の Palantir Object Type と同じ哲学(原理1:共通言語、原理3:構造 → 推論)の延長線上にある。次章では、GraphRAG をさらに広げてAIエージェントとオントロジーの接続全般 ─ Memory、Tool、World Model ─ を見ていく。