エピローグと第3部への伏線 ─ 運用工学編へ
第2部 ch1 で「部品があってもパターンが間違うと業務に乗らない」と問題提起した。ここまでで、その問題に対する地図を渡した。
- 8 つの基本パターン(Augmented LLM / Prompt Chaining / Routing / Parallelization / Orchestrator-Workers / Evaluator-Optimizer / Autonomous Agent Loop / Harness+Sandbox)
- 6 つのトポロジー(Single / Supervisor-Worker / Swarm / Router / Hierarchical / Pipeline)
- 5 つの古典パターン(ReAct / Reflexion / Plan-and-Act / Tree of Thoughts / Voyager)
- HITL 設計の 3 軸(6 箇所 × 6 実装 + 4 リスク)
- 8 つのアンチパターンと 4 つの根因
- 7 製品の解剖マトリクス
これらを使って、自社のエージェントがどんな形で組まれているか、何を諦めるべきかを言語化できるようになっているはずだ。
パターン × トポロジー × HITL の統合チェックリスト
第2部で挙げた語彙を「自社のエージェントを組む前のチェックリスト」として 1 枚に集約する。
✅ パターン選択 (ch2)
□ Workflow か Agent かを最初に決めた
□ Augmented LLM の最小単位(tools + memory + RAG)が組めている
□ Routing / Parallelization / Orchestrator-Workers のどれを使うか根拠を持って選んだ
□ Multi-agent を入れるなら 15× tokens の ROI 条件(重並列・大量情報・多ツール)が満たされている
□ Harness + Sandbox(OpenAI 2026-04 パターン)を被せている
✅ トポロジー選択 (ch3)
□ タスクの性質(前提共有度・並列性)に合ったトポロジーを選んだ
□ Premature multi-agent を避けている(Single で済むなら Single)
□ Swarm を選んでいない(実本番で採用は限定的)
□ ネスト構造の場合、外側→内側で徐々に動的にしている
□ A2A プロトコル / MCP / AGENTS.md / Skill spec の 4 軸で接続を考えている
✅ 古典パターン (ch4)
□ ReAct(Thought / Action / Observation)でログを 3 列分解できる
□ Reflexion 風 CHANGELOG.md で失敗履歴を残している
□ Plan-and-Act で Planner / Executor を分離(Lead に高価モデル、Sub に安価モデル)
□ Voyager 風 Skills で再利用可能なスキルを蓄積
✅ HITL 設計 (ch5)
□ 差し込み 6 箇所のうち、どれを採用するか明確
□ 実装 6 パターン(Sync / Async / Watch / Spot / Tier / Retroactive)を組み合わせている
□ 4 リスク(承認疲れ / Rubber-stamp / ボトルネック / 自動化バイアス)への対処がある
□ 「1 セッション 10 件以下」の承認数を維持できている
□ HITL を「速度」でなく「責任」のために残している
□ audit trail に WHO + WHY を記録
✅ アンチパターン回避 (ch6)
□ 4 根因(複雑性信仰 / 終了条件不在 / モニタリング不在 / リスクティア不在)を意識
□ Pipeline には retry / 各 step 検証 gate がある
□ Reflection / Swarm / Pipeline には終了条件(上限ターン、閾値、改善検知)がある
□ Router は online eval で精度を常時監視
□ Lead 飽和に備えて Sub 並列度を 3〜5 に制限、Compaction を組み込み
✅ 製品比較 (ch7)
□ 自社タスクを 3 軸(前提共有度・範囲・リスク)で分類した
□ 似たタスクの本番製品が「何を諦めたか」を参考にしている
□ 「実行 → 検証 → 訂正」の 3 役を必ず入れている
このチェックリスト全部に ✅ が付いた時、本作の語彙でエージェントを組めている状態だ。
第1部・第2部のシナジー
第1部 ch10 のチェックリスト(6 レイヤ × 業務投入)と本作のチェックリストは重ねて使うことを想定している。
第1部 (技術スタック) 第2部 (パターン)
───────── ─────────
L1 推論・計画 ←→ ch4 古典パターン (ReAct, Plan-and-Act)
L2 ツール接続 ←→ ch3 トポロジー (A2A, MCP)
L3 メモリ ←→ ch4 (Reflexion, Voyager)
L4 実行環境 ←→ ch2 (Harness + Sandbox)
L5 オーケストレ ←→ ch3 (6 トポロジー)
L6 常時稼働 ←→ ch3 (常時稼働適性)
L7 観測 ←→ ch5 (HITL retroactive review, spot check)
つまり第1部の部品をそのまま第2部のパターンで並べるだけで、「業務投入できるエージェント」が組み上がる、という設計の流れになっている。
第3部(運用工学編)への伏線
本作の地図に従って組んだエージェントは、運用フェーズで新しい問題に直面する。第3部では次を扱う:
第3部の章立て予定(暫定)
ch1 プロローグ ─ 動くものから動き続けるものへ
ch2 Drift(ドリフト)── モデル更新で挙動が変わる
ch3 Cost runaway ── 予算の破裂と 85/10/5 split の運用テクニック
ch4 Memory poisoning ── メモリ汚染の温存・浄化・隔離戦略
ch5 Tool failure ── MCP server / API のダウンで連鎖する失敗の遮断
ch6 HITL の SLA 設計 ── 承認遅延でのフォールバック
ch7 Observability の運用パターン ── 何をいつ見るか
ch8 Recovery ── 障害復旧の runbook 化
ch9 エピローグ ─ 三部作の統合
第3部で繰り返し出てくる「運用の壁」
第2部のアンチパターン(ch6)と、第3部で扱う運用の壁は 同じ根因の表裏だ。
| 第2部のアンチパターン | 第3部で扱う運用の壁 |
|---|---|
| Premature multi-agent | デバッグ困難・コスト膨張 |
| HITL 過多 / 放棄 | 承認 SLA、監査ログ、規制対応 |
| Pipeline SPOF | 障害復旧、retry/idempotency |
| Lead 飽和 | Compaction 戦略、メモリ汚染対処 |
| Router silent drift | online eval、入力分布監視 |
つまり本作で扱った**「設計時の罠」が、運用フェーズでは「日常の症状」に変わる**。第3部はその症状にどう対処するかを扱う。
姉妹シリーズとの接続
最後に、本作と既存シリーズの接続を整理する。
Claude Code 自走の作法(claude-code-autonomy-2026)
姉妹シリーズの L1〜L5 自律性レベルを、本作のパターン語彙で読み直すと次のようになる。
| 自律性レベル | 第2部のパターン語彙 |
|---|---|
| L1: Skill / Slash Command | Voyager + Augmented LLM(Skills を再利用可能な tool として呼ぶ) |
| L2: Hooks | Evaluator-Optimizer(自分の挙動を監視して再起動)+ Retroactive review |
| L3: GitHub Actions | Pipeline + Event-driven trigger |
| L4: Scheduled / Routines | Pipeline + Schedule-based trigger + Harness + Sandbox |
| L5: Sub-agent / MCP | Orchestrator-Workers + Hierarchical(A2A プロトコル経由) |
つまり Claude Code の自律性レベルは、8 パターン + 6 トポロジー + HITL 設計の段階的な積み上げとして読み解ける。
ハーネスエンジニアリング(harness-engineering-2026)
本作 ch2 で扱った Harness + Sandbox パターンの理論的・歴史的背景は、姉妹シリーズの「ハーネスエンジニアリング」が深掘りしている。OpenAI が 2026-04 で正式名前付きパターンとして確立する以前から、Anthropic / 学術界で議論されていた経緯を辿りたい人はそちらを参照。
第2部で諦めたこと
本作も何かを諦めていることを正直に書いておく:
- 個別フレームワーク(LangGraph / CrewAI / Microsoft Agent Framework)の SDK チュートリアル:本作はパターン語彙に集中し、実装詳細は外した。各フレームワークの公式ドキュメントを参照
- エンタープライズ統合(SOC2 / GDPR / HIPAA)の詳細:必要に応じて第3部で扱う
- 特定言語(Python / TypeScript / Rust)でのコード例の網羅:擬似コード中心にした。実装は読者の言語環境に合わせてほしい
- 個別 LLM プロバイダ(Anthropic / OpenAI / Google)の比較:本作はベンダ中立に書いた
参考文献
公式パターン
- Anthropic: Building Effective Agents
- Anthropic: Multi-agent Research System
- Anthropic: Effective Harnesses for Long-Running Agents
- Anthropic: Effective Context Engineering
- Anthropic: Claude Code Auto Mode
LangChain / LangGraph
- LangGraph: Hierarchical Agent Teams
- LangGraph Supervisor
- LangChain: Workflows vs Agents
- LangChain: Context Engineering
OpenAI Agents SDK
- OpenAI Agents SDK Handoffs
- OpenAI: The next evolution of the Agents SDK
- OpenAI Agents SDK Sandboxes
- Help Net Security: OpenAI Agents SDK Harness/Sandbox 2026-04
Microsoft Agent Framework
- Microsoft Agent Framework Overview
- Microsoft Agent Framework Workflows
- AutoGen v0.4 Reimagining
- Microsoft Agent Framework v1.0
- Magentic-One Project
CrewAI
A2A Protocol / Linux Foundation AAIF
- Anthropic Project Deal (2026-04) [要検証]
- AAIF (AI Agent Interoperability Foundation) — 2025-12 設立 [要検証]
アカデミック古典
- ReAct (arXiv 2210.03629)
- Reflexion (arXiv 2303.11366)
- Plan-and-Act (arXiv 2503.09572)
- Tree of Thoughts (arXiv 2305.10601)
- Self-Consistency (arXiv 2203.11171)
- Voyager (arXiv 2305.16291)
- Magentic-One (arXiv 2411.04468)
- M-GRPO (arXiv 2511.13288)
HITL / Production
- Cognition: Devin 2025 Performance Review
- Cognition: Devin 2.0
- Manus AI Paper (arXiv 2505.02024)
- Manus Context Engineering
- OpenAI ChatGPT Agent
- OpenAI Operator System Card
- OpenAI alignment Auto-Review
- Replit Agent 3
- Cursor 2.0
- GitHub Copilot Coding Agent
- Sema4.ai Control Room
HITL リスク・運用
- Galileo: HITL Agent Oversight
- Strata: Practicing HITL
- aipatternbook: Approval Fatigue
- Molten.bot: Agent Approval Fatigue
- AstraSync: Human Bottleneck
- Prefactor: Agent Approval Workflows
- Augment Code: Swarm vs Supervisor
横断的整理
- Sitepoint: Definitive Guide to Agentic Design Patterns 2026
- Machine Learning Mastery: Agentic AI Design Patterns
- Addy Osmani: Long-running Agents (Brain/Hands/Session)
姉妹・関連シリーズ
おわりに
「Demo は走るのに、パターンが崩れると業務に乗らない」── 第2部の冒頭で投げかけた問いに、ここまでで一定の答えを出した。業務に乗せるためには、部品(第1部)+ パターン(第2部)の 2 段階の設計が必要だ。
ただし、設計が完成したからといって、運用が始まるとまた新しい問題が起きる。Drift / コスト破裂 / メモリ汚染 / Tool failure / 監視疲れ ── これらは設計の良し悪しと別に、「動かし続けると必ず起きる」現象だ。これを扱うのが次の第3部、運用工学編だ。
それまでに、本作のチェックリストを 1 つ手元のプロジェクトに当てて、自社のエージェントを「8 パターン × 6 トポロジー × HITL」で点検してみてほしい。多くの場合、パターン名で言語化した瞬間に、自分が何を諦めるべきかが見える。
3 部作の最終章でまた会いましょう。
この章のまとめ
- 第2部で渡した地図:8 パターン × 6 トポロジー × 5 古典 × HITL 設計 × 8 アンチパターン × 7 製品解剖
- 第1部 × 第2部のシナジー:部品 × パターンで業務投入できるエージェントが組み上がる
- 第3部は「壊れずに動き続けさせる」:Drift / コスト / メモリ汚染 / Tool failure / SLA / Recovery
- 本作のチェックリストを使って自社エージェントを点検:パターン名で言語化すると、何を諦めるべきかが見える