目次を表示する

オントロジー入門 2026 ─ 哲学・Palantir・GraphRAG までの全体像

GraphRAG ─ 知識グラフ × LLM の再注目

第7章: GraphRAG ─ 知識グラフ × LLM の再注目

GraphRAG 3段階パイプラインと LazyGraphRAG コスト1000分の1

第2部までで「オントロジーは何か」「Palantir / 一般 Semantic Layer はどう動くか」を見た。第3部はLLM時代のオントロジーがテーマ。本章ではその最も技術的に分かりやすい現出GraphRAG ─ を扱う。「なぜいまオントロジー / 知識グラフが LLM 文脈で再注目されているのか」の核心。

ベクトル RAG の限界 ─ なぜ GraphRAG が必要だったか

2023-2024 で標準化した ベクトル RAG(Retrieval-Augmented Generation)は、以下の流れで動く:

graph LR
    Q[ユーザーの質問] --> E[Embedding]
    E --> S[ベクトル類似検索]
    DB[(Vector DB)] --> S
    S --> Top[Top-K チャンク]
    Top --> LLM
    LLM --> A[回答]
    style S fill:#1a2030,stroke:#4cc9f0

これで**「特定の事実を引いてくる」**は良く解けた。しかし以下のような質問は壊滅的に弱い:

質問タイプベクトル RAG の弱さ
グローバル要約「このデータセット全体のテーマは何か?」チャンク単位でしか取れない
多ホップ推論「A の影響で B が起きて C が変わった、の連鎖は?」関係性が見えない
構造的集計「研究者ごとの論文数トップ10は?」集約が苦手
未言及の関係性「X と Y の隠れた関係は?」類似度では出ない

Query-Focused Summarization(QFS) と呼ばれるグローバル要約タスクで、ベクトル RAG は失敗する。これが GraphRAG 登場の動機。

★ Microsoft Research GraphRAG(2024-04)

arXiv:2404.16130 “From Local to Global: A Graph RAG Approach to Query-Focused Summarization”。Edge ら Microsoft Research が 2024 年 4 月 24 日に発表、その後 OSS 化。

3 段階アーキテクチャ

graph TB
    Doc[(ドキュメント<br/>非構造化テキスト)]
    Doc --> S1[Stage 1<br/>Entity Extraction]
    S1 --> KG[(Knowledge Graph<br/>エンティティ + 関係)]
    KG --> S2[Stage 2<br/>Community Detection<br/>Leiden algorithm]
    S2 --> C[(Communities<br/>関連エンティティ群)]
    C --> S3[Stage 3<br/>Community Summarization]
    S3 --> Sum[(Pre-generated<br/>Community Summaries)]

    Q[クエリ] --> Map[Map: 各 community に部分回答]
    Sum --> Map
    Map --> Reduce[Reduce: 最終統合]
    Reduce --> A[包括的な回答]
    style S1 fill:#1a2030,stroke:#ff4d6d
    style S2 fill:#1a2030,stroke:#b794f4
    style S3 fill:#1a2030,stroke:#4cc9f0

各段階の中身

Stage 1: Entity Extraction

  • LLM がチャンクから重要エンティティと関係を抽出
  • 各エンティティに短い説明を生成
  • 結果:ノード(エンティティ)+ エッジ(関係)の Knowledge Graph

Stage 2: Community Detection

  • Leiden アルゴリズム等で関連エンティティをクラスタリング
  • 階層的な community(小さい → 大きい)

Stage 3: Community Summarization

  • コミュニティごとに LLM がサマリを事前生成して保存
  • これが「グローバル要約」の素材になる

クエリ時の Map-Reduce

質問が来たら:

  1. Map:各 community サマリで部分回答を作る(並列)
  2. Reduce:部分回答を統合して最終回答

これにより**「データセット全体のテーマは?」**にもベクトル RAG より遥かに包括的に答えられる。

評価ベンチマーク

論文では QFS タスクで通常のベクトル RAG を包括性・多様性で大幅に上回ることを示した。“RAG vs. GraphRAG: A Systematic Evaluation”(arXiv:2502.11371)も同様の結果。

ただし**「単純な事実検索ではベクトル RAG で十分」**な場合も多い。すべてを GraphRAG に置き換える必要はない。

GraphRAG の進化系(2024-2026)

LightRAG(HKU、2024-10)

arXiv:2410.05779、EMNLP 2025 採択。グラフ構造とベクトル表現を統合、low-level(具体的な関係)と high-level(コミュニティ全体)の二層検索。GraphRAG・Naive RAG を凌駕する SOTA を主張。

HippoRAG(Ohio State、NeurIPS 2024)

arXiv:2405.14831海馬指標説に着想。LLM でスキーマレス KG を構築 + クエリ概念をシードに Personalized PageRank で多ホップ統合。

指標結果
マルチホップ QA+20%
IRCoT 比 コスト10-30倍安い
IRCoT 比 速度6-13倍速い

生物学的記憶モデルから計算機科学に逆輸入した**」のが面白い。

PathRAG(2025-02)

arXiv:2502.14902。コミュニティ単位ではなく関係パス単位でプロンプトに渡す。冗長性を減らし論理的整合性を担保。

graph LR
    GR[GraphRAG] --> CS[Community 単位<br/>サマリ]
    PR[PathRAG] --> RP[関係パス単位<br/>論理的連鎖]
    style GR fill:#1a2030,stroke:#4cc9f0
    style PR fill:#1a2030,stroke:#b794f4

★ LazyGraphRAG(Microsoft、2024-11)

GraphRAG の最大の弱点 ─ コストを解決した変種。

比較フル GraphRAGLazyGraphRAG
5GB データセットインデキシング$33,000$331000分の1
事前 community サマリ生成あり全廃
ベクトル RAG とのコスト比数十倍同等
品質フル版とほぼ同等を維持

「事前サマリを作らず、クエリ時に必要な部分だけ動的に処理する」という発想。これにより GraphRAG のコスト障壁が解消された。第8章で扱う「軽量ベクトル → 必要部分だけ KG 化」の段階的アプローチが現実解になったのは LazyGraphRAG が大きい。

Mem0g(ECAI 2025)

arXiv:2504.19413。Mem0 のグラフ拡張版。ベクトル + KG ハイブリッドメモリ。第8章のエージェントメモリで詳しく扱う。

進化系の比較表

手法提唱特徴コスト強み
Microsoft GraphRAG2024-043段階 + community サマリグローバル要約
LightRAG2024-10dual-level 検索構造 + ベクトル統合
HippoRAG2024-05Personalized PageRank多ホップ QA
PathRAG2025-02関係パス論理整合性
LazyGraphRAG2024-11事前サマリ全廃極低コスト同等で品質維持
Mem0g2025ベクトル + KG ハイブリッドエージェントメモリ

商用クラウドの取り込み(2024-2026)

GraphRAG は OSS 研究から始まったが、商用クラウドが急速に取り込んだ。これが「コモディティ化」を意味する。

AWS Bedrock Knowledge Bases GraphRAG(2025-03 GA)

項目内容
公開2024-12 preview → 2025-03 GA
統合Amazon Neptune Analytics
自動化S3 から自動的に embedding と entity-relation graph を構築

「Bedrock を使っていれば数クリックで GraphRAG が立ち上がる」状態に。

Snowflake Cortex Search / Cortex Agents / Snowflake Intelligence(2025-11-04 一斉GA)

項目内容
Cortex SearchRAG 用ハイブリッド検索(ベクトル + キーワード)
Cortex Analyst自然言語 → SQL(構造化データ向け)
Cortex AgentsAnalyst + Search + Tools のオーケストレーション
Snowflake IntelligenceNL BI、Mobile App
統合RelationalAI と統合して GraphRAG 対応

Snowflake が「データ + AI 基盤」として完成形に近づいた象徴。

Google Vertex AI + Spanner Graph

GraphRAG infrastructure for generative AI」として Spanner Graph をベクトル + グラフの統一データストアとして提示。Vertex AI Search の grounding 機能と連携。

Microsoft Fabric

GQL 言語サポート + Ignite 2025 で「すべてのエンタープライズ AI エージェントにオントロジーが必要」を強調。Fabric の semantic model + Knowledge Graph 化が進行。

ハイブリッド検索 ─ 2026 年の Production Standard

ベクトル RAG vs GraphRAG」の二項対立は古い。2026 年の現場はハイブリッドが標準:

graph TB
    Q[クエリ] --> R1[BM25<br/>表層キーワード]
    Q --> R2[Vector Search<br/>意味類似]
    Q --> R3[Graph Traversal<br/>関係構造]
    R1 --> Reranker[Reranker / アンサンブル]
    R2 --> Reranker
    R3 --> Reranker
    Reranker --> LLM
    LLM --> A[回答]
    style R1 fill:#1a2030,stroke:#ff4d6d
    style R2 fill:#1a2030,stroke:#b794f4
    style R3 fill:#1a2030,stroke:#4cc9f0

3 つは相補的

  • BM25:完全一致、固有名詞、稀少語に強い
  • Vector:意味的類似、言い換え、概念的近さ
  • Graph:構造、関係、多ホップ

LangGraph 等のマルチエージェント枠組みでアンサンブル + rerankingするのが定石。

ハイブリッドストア

ベクトルとグラフを1つのデータストアで持つ選択肢も増えた。

製品アプローチ
Neo4j + LLM Knowledge Graph Builder(2024-06、2025 First Release)非構造化テキスト → KG 抽出 + コミュニティサマリのベクトル化
Memgraph + LangGraph + MCPリアルタイム in-memory、Cypher、AI Toolkit
Qdrant + Neo4jQdrant でセマンティック検索 + Neo4j で関係
ArangoDB(G2 Fall 2025 #1)マルチモデル(vector/graph/document/full-text/key-value)を1クエリ言語で統一
Amazon NeptuneRDF + Property Graph + Vector

いつ GraphRAG を使うか ─ 判断フロー

flowchart TB
    Q[要件] --> Q1{グローバル要約 or<br/>多ホップ?}
    Q1 -- Yes --> GR[GraphRAG 系]
    Q1 -- No --> Q2{単純な事実検索?}
    Q2 -- Yes --> VR[ベクトル RAG]
    Q2 -- No --> H[ハイブリッド]
    GR --> Q3{コスト制約?}
    Q3 -- 厳しい --> Lazy[LazyGraphRAG]
    Q3 -- 緩い --> Full[Microsoft GraphRAG]
    GR --> Q4{多ホップ中心?}
    Q4 -- Yes --> Hippo[HippoRAG]

ざっくりの目安:

  • PoC / 軽量:ベクトル RAG から始める
  • グローバル要約が必要:LazyGraphRAG(コストが許せばフル GraphRAG)
  • 多ホップ QA:HippoRAG
  • 本番 Production:ハイブリッド(BM25 + Vector + Graph)

LLM 抽出 5 つの品質課題(予告)

GraphRAG は「LLM がテキストから KG を自動生成」を前提とする。だがLLM 抽出には品質課題がある:

  1. Hallucinated Edges1.5–1.9% の幻覚率
  2. Entity Duplication(“Apple” と “apple” が別ノードになる)
  3. Incomplete Extraction(重要関係を見落とす)
  4. Schema Drift(時系列で意味が変わる)
  5. Domain Mismatch(汎用 LLM がドメイン用語を取り違える)

これらは第8章で詳しく扱う。「GraphRAG を導入したら全部解決」ではなく、観測と継続的検証が必要

数字で見る GraphRAG 経済学

指標数字
KG 市場規模(2024 → 2030 予測)$1.06B → $6.93B(CAGR 36.6%)
Gartner 2025 Hype Cycle知識グラフが Slope of Enlightenment 到達
Gartner 予測(2028)AI ツールの 80% に普及
LazyGraphRAG コスト削減1000分の1
HippoRAG マルチホップ精度+20%

KG はもう古い」と言われた数年前と、明らかに違う風景。

本章の要点

#要点
1ベクトル RAG はグローバル要約・多ホップ・構造的集計に弱い。これが GraphRAG の動機
2Microsoft GraphRAG(2024-04)は Entity Extraction → Community Detection → Community Summarization の3段階
3進化系:LightRAG(dual-level)、HippoRAG(Personalized PageRank、海馬モデル)、PathRAG(関係パス)、LazyGraphRAG(コスト1000分の1)
4LazyGraphRAG で 5GB データセットのインデキシングが $33,000 → $33 に劇的低減。コスト障壁が解消
5商用クラウドの取り込み:AWS Bedrock GraphRAG GA(2025-03) / Snowflake Cortex GA(2025-11) / Vertex AI + Spanner Graph
62026 年の Production Standard はハイブリッド検索(BM25 + Vector + Graph)+ Reranker
7ハイブリッドストア:Neo4j + KG Builder / Memgraph / ArangoDB(マルチモデル)
8LLM 抽出には 5 つの品質課題:Hallucinated Edges / Duplication / Incomplete / Schema Drift / Domain Mismatch(第8章で詳細)

効いている根本原理

本章は 原理4(LLM 時代の橋渡し) が真ん中に立った章だった。GraphRAG は「確率的な LLM決定的なグラフ構造 を与える」中間層であり、第3章の RDF triple や第4章の Palantir Object Type と同じ哲学(原理1:共通言語原理3:構造 → 推論)の延長線上にある。次章では、GraphRAG をさらに広げてAIエージェントとオントロジーの接続全般 ─ Memory、Tool、World Model ─ を見ていく。