オントロジー入門 2026 ─ 哲学・Palantir・GraphRAG までの全体像

GraphRAG ─ 知識グラフ × LLM の再注目

2026/05/04

第7章: GraphRAG ─ 知識グラフ × LLM の再注目

GraphRAG 3段階パイプラインと LazyGraphRAG コスト1000分の1

第2部までで「オントロジーは何か」「Palantir / 一般 Semantic Layer はどう動くか」を見た。第3部はLLM時代のオントロジーがテーマ。本章ではその最も技術的に分かりやすい現出 ─ GraphRAG ─ を扱う。「なぜいまオントロジー / 知識グラフが LLM 文脈で再注目されているのか」の核心。

ベクトル RAG の限界 ─ なぜ GraphRAG が必要だったか

2023-2024 で標準化した ベクトル RAG（Retrieval-Augmented Generation）は、以下の流れで動く：

graph LR
    Q[ユーザーの質問] --> E[Embedding]
    E --> S[ベクトル類似検索]
    DB[(Vector DB)] --> S
    S --> Top[Top-K チャンク]
    Top --> LLM
    LLM --> A[回答]
    style S fill:#1a2030,stroke:#4cc9f0

これで**「特定の事実を引いてくる」**は良く解けた。しかし以下のような質問は壊滅的に弱い：

質問タイプ	例	ベクトル RAG の弱さ
グローバル要約	「このデータセット全体のテーマは何か？」	チャンク単位でしか取れない
多ホップ推論	「A の影響で B が起きて C が変わった、の連鎖は？」	関係性が見えない
構造的集計	「研究者ごとの論文数トップ10は？」	集約が苦手
未言及の関係性	「X と Y の隠れた関係は？」	類似度では出ない

Query-Focused Summarization（QFS） と呼ばれるグローバル要約タスクで、ベクトル RAG は失敗する。これが GraphRAG 登場の動機。

★ Microsoft Research GraphRAG（2024-04）

arXiv:2404.16130 “From Local to Global: A Graph RAG Approach to Query-Focused Summarization”。Edge ら Microsoft Research が 2024 年 4 月 24 日に発表、その後 OSS 化。

3 段階アーキテクチャ

graph TB
    Doc[(ドキュメント<br/>非構造化テキスト)]
    Doc --> S1[Stage 1<br/>Entity Extraction]
    S1 --> KG[(Knowledge Graph<br/>エンティティ + 関係)]
    KG --> S2[Stage 2<br/>Community Detection<br/>Leiden algorithm]
    S2 --> C[(Communities<br/>関連エンティティ群)]
    C --> S3[Stage 3<br/>Community Summarization]
    S3 --> Sum[(Pre-generated<br/>Community Summaries)]

    Q[クエリ] --> Map[Map: 各 community に部分回答]
    Sum --> Map
    Map --> Reduce[Reduce: 最終統合]
    Reduce --> A[包括的な回答]
    style S1 fill:#1a2030,stroke:#ff4d6d
    style S2 fill:#1a2030,stroke:#b794f4
    style S3 fill:#1a2030,stroke:#4cc9f0

各段階の中身

Stage 1: Entity Extraction

LLM がチャンクから重要エンティティと関係を抽出
各エンティティに短い説明を生成
結果：ノード（エンティティ）+ エッジ（関係）の Knowledge Graph

Stage 2: Community Detection

Leiden アルゴリズム等で関連エンティティをクラスタリング
階層的な community（小さい → 大きい）

Stage 3: Community Summarization

コミュニティごとに LLM がサマリを事前生成して保存
これが「グローバル要約」の素材になる

クエリ時の Map-Reduce

質問が来たら：

Map：各 community サマリで部分回答を作る（並列）
Reduce：部分回答を統合して最終回答

これにより**「データセット全体のテーマは？」**にもベクトル RAG より遥かに包括的に答えられる。

評価ベンチマーク

論文では QFS タスクで通常のベクトル RAG を包括性・多様性で大幅に上回ることを示した。“RAG vs. GraphRAG: A Systematic Evaluation”（arXiv:2502.11371）も同様の結果。

ただし**「単純な事実検索ではベクトル RAG で十分」**な場合も多い。すべてを GraphRAG に置き換える必要はない。

GraphRAG の進化系（2024-2026）

LightRAG（HKU、2024-10）

arXiv:2410.05779、EMNLP 2025 採択。グラフ構造とベクトル表現を統合、low-level（具体的な関係）と high-level（コミュニティ全体）の二層検索。GraphRAG・Naive RAG を凌駕する SOTA を主張。

HippoRAG（Ohio State、NeurIPS 2024）

arXiv:2405.14831。海馬指標説に着想。LLM でスキーマレス KG を構築 + クエリ概念をシードに Personalized PageRank で多ホップ統合。

指標	結果
マルチホップ QA	+20%
IRCoT 比コスト	10-30倍安い
IRCoT 比速度	6-13倍速い

「生物学的記憶モデルから計算機科学に逆輸入した**」のが面白い。

PathRAG（2025-02）

arXiv:2502.14902。コミュニティ単位ではなく関係パス単位でプロンプトに渡す。冗長性を減らし論理的整合性を担保。

graph LR
    GR[GraphRAG] --> CS[Community 単位<br/>サマリ]
    PR[PathRAG] --> RP[関係パス単位<br/>論理的連鎖]
    style GR fill:#1a2030,stroke:#4cc9f0
    style PR fill:#1a2030,stroke:#b794f4

★ LazyGraphRAG（Microsoft、2024-11）

GraphRAG の最大の弱点 ─ コストを解決した変種。

比較	フル GraphRAG	LazyGraphRAG
5GB データセットインデキシング	$33,000	$33（1000分の1）
事前 community サマリ生成	あり	全廃
ベクトル RAG とのコスト比	数十倍	同等
品質	高	フル版とほぼ同等を維持

「事前サマリを作らず、クエリ時に必要な部分だけ動的に処理する」という発想。これにより GraphRAG のコスト障壁が解消された。第8章で扱う「軽量ベクトル → 必要部分だけ KG 化」の段階的アプローチが現実解になったのは LazyGraphRAG が大きい。

Mem0g（ECAI 2025）

arXiv:2504.19413。Mem0 のグラフ拡張版。ベクトル + KG ハイブリッドメモリ。第8章のエージェントメモリで詳しく扱う。

進化系の比較表

手法	提唱	特徴	コスト	強み
Microsoft GraphRAG	2024-04	3段階 + community サマリ	高	グローバル要約
LightRAG	2024-10	dual-level 検索	中	構造 + ベクトル統合
HippoRAG	2024-05	Personalized PageRank	低	多ホップ QA
PathRAG	2025-02	関係パス	中	論理整合性
LazyGraphRAG	2024-11	事前サマリ全廃	極低	コスト同等で品質維持
Mem0g	2025	ベクトル + KG ハイブリッド	中	エージェントメモリ

商用クラウドの取り込み（2024-2026）

GraphRAG は OSS 研究から始まったが、商用クラウドが急速に取り込んだ。これが「コモディティ化」を意味する。

AWS Bedrock Knowledge Bases GraphRAG（2025-03 GA）

項目	内容
公開	2024-12 preview → 2025-03 GA
統合	Amazon Neptune Analytics
自動化	S3 から自動的に embedding と entity-relation graph を構築

「Bedrock を使っていれば数クリックで GraphRAG が立ち上がる」状態に。

Snowflake Cortex Search / Cortex Agents / Snowflake Intelligence（2025-11-04 一斉GA）

項目	内容
Cortex Search	RAG 用ハイブリッド検索（ベクトル + キーワード）
Cortex Analyst	自然言語 → SQL（構造化データ向け）
Cortex Agents	Analyst + Search + Tools のオーケストレーション
Snowflake Intelligence	NL BI、Mobile App
統合	RelationalAI と統合して GraphRAG 対応

Snowflake が「データ + AI 基盤」として完成形に近づいた象徴。

Google Vertex AI + Spanner Graph

「GraphRAG infrastructure for generative AI」として Spanner Graph をベクトル + グラフの統一データストアとして提示。Vertex AI Search の grounding 機能と連携。

Microsoft Fabric

GQL 言語サポート + Ignite 2025 で「すべてのエンタープライズ AI エージェントにオントロジーが必要」を強調。Fabric の semantic model + Knowledge Graph 化が進行。

ハイブリッド検索 ─ 2026 年の Production Standard

「ベクトル RAG vs GraphRAG」の二項対立は古い。2026 年の現場はハイブリッドが標準：

graph TB
    Q[クエリ] --> R1[BM25<br/>表層キーワード]
    Q --> R2[Vector Search<br/>意味類似]
    Q --> R3[Graph Traversal<br/>関係構造]
    R1 --> Reranker[Reranker / アンサンブル]
    R2 --> Reranker
    R3 --> Reranker
    Reranker --> LLM
    LLM --> A[回答]
    style R1 fill:#1a2030,stroke:#ff4d6d
    style R2 fill:#1a2030,stroke:#b794f4
    style R3 fill:#1a2030,stroke:#4cc9f0

3 つは相補的：

BM25：完全一致、固有名詞、稀少語に強い
Vector：意味的類似、言い換え、概念的近さ
Graph：構造、関係、多ホップ

LangGraph 等のマルチエージェント枠組みでアンサンブル + rerankingするのが定石。

ハイブリッドストア

ベクトルとグラフを1つのデータストアで持つ選択肢も増えた。

製品	アプローチ
Neo4j + LLM Knowledge Graph Builder（2024-06、2025 First Release）	非構造化テキスト → KG 抽出 + コミュニティサマリのベクトル化
Memgraph + LangGraph + MCP	リアルタイム in-memory、Cypher、AI Toolkit
Qdrant + Neo4j	Qdrant でセマンティック検索 + Neo4j で関係
ArangoDB（G2 Fall 2025 #1）	マルチモデル（vector/graph/document/full-text/key-value）を1クエリ言語で統一
Amazon Neptune	RDF + Property Graph + Vector

いつ GraphRAG を使うか ─ 判断フロー

flowchart TB
    Q[要件] --> Q1{グローバル要約 or<br/>多ホップ?}
    Q1 -- Yes --> GR[GraphRAG 系]
    Q1 -- No --> Q2{単純な事実検索?}
    Q2 -- Yes --> VR[ベクトル RAG]
    Q2 -- No --> H[ハイブリッド]
    GR --> Q3{コスト制約?}
    Q3 -- 厳しい --> Lazy[LazyGraphRAG]
    Q3 -- 緩い --> Full[Microsoft GraphRAG]
    GR --> Q4{多ホップ中心?}
    Q4 -- Yes --> Hippo[HippoRAG]

ざっくりの目安：

PoC / 軽量：ベクトル RAG から始める
グローバル要約が必要：LazyGraphRAG（コストが許せばフル GraphRAG）
多ホップ QA：HippoRAG
本番 Production：ハイブリッド（BM25 + Vector + Graph）

LLM 抽出 5 つの品質課題（予告）

GraphRAG は「LLM がテキストから KG を自動生成」を前提とする。だがLLM 抽出には品質課題がある：

Hallucinated Edges（1.5–1.9% の幻覚率）
Entity Duplication（“Apple” と “apple” が別ノードになる）
Incomplete Extraction（重要関係を見落とす）
Schema Drift（時系列で意味が変わる）
Domain Mismatch（汎用 LLM がドメイン用語を取り違える）

これらは第8章で詳しく扱う。「GraphRAG を導入したら全部解決」ではなく、観測と継続的検証が必要。

数字で見る GraphRAG 経済学

指標	数字
KG 市場規模（2024 → 2030 予測）	$1.06B → $6.93B（CAGR 36.6%）
Gartner 2025 Hype Cycle	知識グラフが Slope of Enlightenment 到達
Gartner 予測（2028）	AI ツールの 80% に普及
LazyGraphRAG コスト削減	1000分の1
HippoRAG マルチホップ精度	+20%

「KG はもう古い」と言われた数年前と、明らかに違う風景。

本章の要点

#	要点
1	ベクトル RAG はグローバル要約・多ホップ・構造的集計に弱い。これが GraphRAG の動機
2	Microsoft GraphRAG（2024-04）は Entity Extraction → Community Detection → Community Summarization の3段階
3	進化系：LightRAG（dual-level）、HippoRAG（Personalized PageRank、海馬モデル）、PathRAG（関係パス）、LazyGraphRAG（コスト1000分の1）
4	LazyGraphRAG で 5GB データセットのインデキシングが $33,000 → $33 に劇的低減。コスト障壁が解消
5	商用クラウドの取り込み：AWS Bedrock GraphRAG GA（2025-03） / Snowflake Cortex GA（2025-11） / Vertex AI + Spanner Graph
6	2026 年の Production Standard はハイブリッド検索（BM25 + Vector + Graph）+ Reranker
7	ハイブリッドストア：Neo4j + KG Builder / Memgraph / ArangoDB（マルチモデル）
8	LLM 抽出には 5 つの品質課題：Hallucinated Edges / Duplication / Incomplete / Schema Drift / Domain Mismatch（第8章で詳細）

効いている根本原理

本章は 原理4（LLM 時代の橋渡し） が真ん中に立った章だった。GraphRAG は「確率的な LLM に 決定的なグラフ構造 を与える」中間層であり、第3章の RDF triple や第4章の Palantir Object Type と同じ哲学（原理1：共通言語、原理3：構造 → 推論）の延長線上にある。次章では、GraphRAG をさらに広げてAIエージェントとオントロジーの接続全般 ─ Memory、Tool、World Model ─ を見ていく。