実例カタログとエピローグ ─ 6 レイヤで Devin / Manus を解剖する

2026/05/10

実例カタログとエピローグ ─ 6 レイヤで Devin / Manus を解剖する

ここまで 6 レイヤ + 観測横串の地図を全部歩いた。地図は持った。今度は、その地図で実在のエージェントを読み解く番だ。

本章では 7 つの代表的な自律エージェント製品を、本シリーズの 6 レイヤで解剖したマトリクスを示す。各製品が「どのレイヤを自前で作り、どのレイヤを借りているか」が分かれば、自社で組むときに何を真似て何を避けるかの判断ができる。最後に、第2部（パターン編）・第3部（運用工学編）への伏線を回収し、参考文献を整理する。

7 製品 × 6 レイヤのマトリクス

製品	L1 推論	L2 ツール	L3 メモリ	L4 実行環境	L5 オーケストレ	L6 常時稼働	L7 観測
Devin (Cognition)	LLM + RL の独自計画器	専用 IDE/shell/browser、MCP 限定	長期 codebase 知識、failed approaches 記録	専用クラウド sandbox（IDE/shell/browser 統合）	journal-replay 風 long-running session	Linear/Jira/Slack ticket 起点（イベント）	内部観測あり、ユーザー側にも一定範囲の trace UI
Manus AI	analyze→plan→execute→observe ループ、CodeAct（Python = action）	Claude を主 LLM、29 tool 使用	内部 multi-agent（planning/retrieval/memory）	E2B Firecracker microVM（150ms 起動、最大 14 日保持）	内部 multi-agent 推定（非公開）	招待制・solo-use、後に Meta Ads Manager 統合	公開情報限定的
ChatGPT Agent / Operator	CUA = GPT-4o vision + RL（GUI 操作）+ Deep Research + ChatGPT 対話能力を統合	first-party connector、Computer Use ベース	永続 virtual computer（state を follow-up で再利用可）	テキスト/visual ブラウザ・ターミナル風ツール・ファイルが同居する unified system	watch mode、prompt injection monitor	Workspace Agents は Codex（クラウド）上、sign-out 後も継続	システムカード公開、最も透明
Claude Code Routines	Claude Opus 4.7 + Adaptive Thinking	MCP + Skills（progressive disclosure）	Memory Tool + 進捗ファイル	（Routines は Anthropic 管理）	Anthropic Managed Agents	Schedule × GitHub event × API endpoint の 3 軸	Managed Agents の outcomes（public beta）
GitHub Copilot Agent / Workspace	LLM + 専用 harness（詳細非公開）	リポジトリ全体走査、IDE 統合	リポジトリ全体を context として保持	GitHub Actions ベース	Agentic code review（2026-03 GA）	issue / PR event 起動、manual dispatch	GitHub の標準 logging
Replit Agent 3	自己修復ループ（生成→実行→エラー→修正）	コンテナ統合（Postgres・ブラウザ・デプロイ）	Stacks（Agent が他の Agent を生成）の階層 state	Replit のクラウド container	200 分連続自律可能	Max Autonomy で長時間 unsupervised	Replit 標準の logging
Sema4.ai	LLM + Runbooks + MCP	Studio で MCP server 接続、業務 SaaS 統合	Semantic Layer で DB / 文書 / シート横断	（SaaS 提供）	Control Room で lifecycle 管理	Work Room 経由で業務側起動	Control Room の audit log（エンプラ要件対応）

各製品から学ぶこと

Devin ── 「junior の置き換え」というポジショニング

Cognition が公開した 18 ヶ月運用 retrospective（2025 末）の数字は印象的だ：

security fix で「組織の総開発時間 5-10% 削減 / 脆弱性対応 30 分→1.5 分（20×）」
modernization で 10-14×
test coverage 50-60% → 80-90%
データ機能リリース 3×

しかし Cognition チーム自身が「曖昧要件・スコープ変更・反復対話が依然として弱い」と認めている。senior エンジニアの置き換えではなく、junior の置き換えとして明確にポジショニングしている点が重要だ。これは業務投入の判断基準になる：「junior 1 人がやれる仕事の代行」を AI エージェントに任せるなら、現状の技術で十分 ROI が出る。

Manus ── E2B が下支えする「general-purpose agent」

Manus の重要な特徴は、実行環境を完全に E2B に外出ししていることだ。つまり、Manus 自身は L1 推論・計画と L3 メモリと L5 オーケストレで勝負している。L4 実行環境は買うべきものという判断だ。

これは業務投入の判断材料になる：自社で 0 から E2B / Daytona 級の sandbox を組む合理性はほぼない。買って借りて、自分は L1 / L3 / L5 で差別化するのが現実解。

ChatGPT Agent ── 「watch mode」と System Card の透明性

ChatGPT Agent の安全装置 4 つは、業務投入の参考になる：

user confirmation：高リスク操作の都度確認
refusal pattern：危険な要求は実行を拒否
prompt injection monitor：Tool Poisoning 検知
watch mode：特定サイトでは人間の常時監視を要求

特に watch mode は、業務に投入する全エージェントに横展開する価値がある設計だ。「自律で動かしていい範囲」と「人間が見ていないと動かさない範囲」を明示的に区別するメタ設計。

Claude Code Routines ── 3 軸トリガと Skills の組み合わせ

ch8 で詳述した通り、Routines は Schedule × GitHub event × API endpoint の 3 軸を全部備える設計だ。さらに Skills の progressive disclosure（metadata → SKILL.md 全体 → bundled files）で context window の肥大を回避している。

**「Skill = 必要なときだけロードされる関数 + ドキュメント」**という抽象は、L1 推論と L2 ツール接続の間にもう 1 段の interface を挟むデザインで、これも業務投入で真似る価値がある。

Copilot Workspace / Replit / Sema4.ai ── 業界の三方向

3 つを並べると、自律エージェント市場が 3 方向に分岐していることが見える。

Copilot Workspace：コード前提・GitHub に密接統合。簡単な bug fix は安定、込み入ったロジックは手戻り多い
Replit Agent 3：全環境込みのクラウドサンドボックス上で何でもやる。プロトタイプから本番デプロイまで
Sema4.ai：エンプラ業務（finance / ops）専用、Control Room の lifecycle 管理と Semantic Layer での DB 横断検索が差別化、finance で 80%+ touchless 実績

「自分の業務がどの方向に近いか」を見極めるとベンダ選定が早く済む。

三部作の伏線回収

このシリーズは三部作の 第1部 だった。第2部・第3部で何を扱うかを明示する。

第2部：アーキテクチャパターン編（予定）

第1部で見た「部品の地図」を、第2部では「形（アーキテクチャ）」として扱う。具体的には次のパターンを比較する：

Single Agent：1 つの強力な LLM がすべてやる
Supervisor / Worker：ch3 の Orchestrator-Worker パターンを骨格として
Swarm：対等なエージェントが情報共有しながら並列に動く
Router：入力に応じて専門エージェントに振り分ける
Hierarchical：階層的に sub-agent を持つ（Replit Stacks 風）
Pipeline：直線的なエージェント鎖（リサーチ → 執筆 → レビュー）
HITL の差し込み箇所：どのパターンに HITL がどう載るか

それぞれの 「常時稼働に向くか」 を本シリーズの 6 レイヤを使って判定する。

第3部：運用工学編（予定）

第3部では「生かし方」を扱う。第1部・第2部で組んだエージェントを壊れずに動き続けさせるための工学的な技法：

Drift（ドリフト）：モデル更新やプロンプト変更で挙動が変わる問題への対処
Cost runaway（コスト破裂）：85/10/5 split 以外の運用テクニック
Memory poisoning（メモリ汚染）：温存・浄化・隔離の戦略
Tool failure：MCP server / API のダウンで連鎖する失敗の遮断
HITL の SLA 設計：承認遅延でのフォールバック
Recovery：障害復旧の runbook 化

第1部の 6 レイヤと第2部のパターンを下敷きに、「実装の壁」を越えた後の運用の壁を掘る。

Claude Code 自走の作法（姉妹シリーズ）との接続

最後に、姉妹シリーズの Claude Code 自走の作法との接続を整理する。あちらは「個別実装側から見た自律性」、本作は「技術全般から見た自律性」だった。

L1〜L5 の自律性レベルを、本作の 6 レイヤと対応させるとこうなる。

自律性レベル（姉妹シリーズ）	本作の 6 レイヤでの対応
L1: Skill / Slash Command	L2 ツール接続（Skill = ローカル MCP 的な抽象）
L2: Hooks	L7 観測（自分の挙動を監視して再起動）
L3: GitHub Actions	L6 常時稼働の駆動（event-driven）
L4: Scheduled / Routines	L6 常時稼働の駆動（schedule）
L5: Sub-agent / MCP	L1 推論・計画（Orchestrator-Worker）+ L2 ツール接続

つまり Claude Code 自走の自律性レベルは、本作 6 レイヤの特定のレイヤを段階的に強化していく道筋として読める。両方を読むと、Claude Code を起点とした自走スタックを組むときに「今どこを強化すべきか」が見える。

業務投入のチェックリスト

最後に、本シリーズで挙げた知見を「自社のエージェントを業務に投入する前のチェックリスト」として一枚に集約する。

✅ 推論・計画 (L1)
□ Extended Thinking のブロックを次ターンに保持している
□ Plan-and-Act パターンで Planner / Executor を分離している
□ 5 ステップ以上のタスクは Orchestrator-Worker
□ 失敗履歴を CHANGELOG.md / journal に永続化

✅ ツール接続 (L2)
□ MCP server は OAuth 2.1 + RFC 8707 を満たす
□ Tool Search Tool でツール定義を動的ロード
□ Programmatic Tool Calling で context 肥大を回避
□ Computer Use は VM + 公式 reference image + MCP gateway 経由

✅ メモリ (L3)
□ 4 レイヤ合成（Checkpointer + Memory Tool + Mem0/Zep + 永続 DB）
□ Compaction + 外部ファイル + Just-in-time の 3 戦略
□ Sleep-time / Dreaming で idle 時に再編成
□ 衝突解決を書き込み前に挟む

✅ 実行環境 (L4)
□ 隔離は Firecracker microVM（or V8 isolate）
□ 短命 sandbox + 外部 state の二段構え
□ Egress は default-deny + allowlist
□ secret は credential broker から短命トークン

✅ オーケストレ (L5)
□ Durable execution（journal + replay）が組まれている
□ HITL は durable な step として書く
□ クラッシュ復旧テストが CI に組み込まれている

✅ 常時稼働 (L6)
□ Schedule × Event × Command の 3 軸を全部備える
□ Event-driven の経路（NATS / Kafka / Webhook）

✅ 観測 (L7)
□ OTel 互換の計装（OpenLLMetry など）
□ 3 層 eval（outcome / trajectory / meta）を production に常時かける
□ 監査ログ 8 要素を必ず残す
□ 「tokens per feature」と 85/10/5 split で週次レビュー

このチェックリスト全部に ✅ が付いた時、あなたのエージェントは業務に投入できる状態だ。

参考文献

Anthropic（公式 engineering / docs）

MCP（仕様 / セキュリティ）

OpenAI

Google / Microsoft

LangChain / LangGraph / LangSmith

Memory 専用基盤

Sandbox / Execution

Durable Execution / Orchestration

Always-on / Triggers

Observability / Eval / Guardrails

Real-world Agents

Papers

姉妹・関連シリーズ

おわりに

「Demo は派手に動くのに、業務には乗らない」── 第1部の冒頭で投げかけた問いに、ここまでで一定の答えを出した。業務に乗せるためには、モデルではなく、その周りの 6 レイヤを自分のコンテキストで組み直す必要がある。地図はこれで揃った。

ただし、地図を持っていることと、現地を歩けることは別の話だ。第2部では「形（アーキテクチャパターン）」を、第3部では「生かし方（運用工学）」を扱う。3 部作を通読すると、自分のチームで使う自律エージェントを最初から最後まで設計する道筋が見えるようになる。

それまでに、本作のチェックリストを 1 つ手元のプロジェクトに当てて、6 レイヤのうち今欠けているのはどこかを点検してみてほしい。多くの場合、Layer 1 / 2 はすでに揃っていて、Layer 5 / 6 / 7 が欠けている。逆もある。自分のスタックを 6 レイヤで点検できること自体が、このシリーズの最初のリターンだ。

それでは、第2部でまた会いましょう。

この章のまとめ

7 製品 × 6 レイヤのマトリクスで「業界の今」を一覧化：Devin / Manus / ChatGPT Agent / Claude Code Routines / Copilot / Replit / Sema4.ai
Devin = 「junior の置き換え」、Manus = E2B 外部依存、ChatGPT Agent = watch mode、Claude = Skills の progressive disclosure
業務投入は 3 方向に分岐：コード（Copilot）/ 全環境（Replit）/ エンプラ業務（Sema4.ai）
第2部はパターン編、第3部は運用工学編として続く
業務投入チェックリストで 6 レイヤすべての必須項目を一枚に集約