実例カタログとエピローグ ─ 6 レイヤで Devin / Manus を解剖する
ここまで 6 レイヤ + 観測横串の地図を全部歩いた。地図は持った。今度は、その地図で実在のエージェントを読み解く番だ。
本章では 7 つの代表的な自律エージェント製品を、本シリーズの 6 レイヤで解剖したマトリクスを示す。各製品が「どのレイヤを自前で作り、どのレイヤを借りているか」が分かれば、自社で組むときに何を真似て何を避けるかの判断ができる。最後に、第2部(パターン編)・第3部(運用工学編)への伏線を回収し、参考文献を整理する。
7 製品 × 6 レイヤのマトリクス
| 製品 | L1 推論 | L2 ツール | L3 メモリ | L4 実行環境 | L5 オーケストレ | L6 常時稼働 | L7 観測 |
|---|---|---|---|---|---|---|---|
| Devin (Cognition) | LLM + RL の独自計画器 | 専用 IDE/shell/browser、MCP 限定 | 長期 codebase 知識、failed approaches 記録 | 専用クラウド sandbox(IDE/shell/browser 統合) | journal-replay 風 long-running session | Linear/Jira/Slack ticket 起点(イベント) | 内部観測あり、ユーザー側にも一定範囲の trace UI |
| Manus AI | analyze→plan→execute→observe ループ、CodeAct(Python = action) | Claude を主 LLM、29 tool 使用 | 内部 multi-agent(planning/retrieval/memory) | E2B Firecracker microVM(150ms 起動、最大 14 日保持) | 内部 multi-agent 推定(非公開) | 招待制・solo-use、後に Meta Ads Manager 統合 | 公開情報限定的 |
| ChatGPT Agent / Operator | CUA = GPT-4o vision + RL(GUI 操作)+ Deep Research + ChatGPT 対話能力を統合 | first-party connector、Computer Use ベース | 永続 virtual computer(state を follow-up で再利用可) | テキスト/visual ブラウザ・ターミナル風ツール・ファイルが同居する unified system | watch mode、prompt injection monitor | Workspace Agents は Codex(クラウド)上、sign-out 後も継続 | システムカード公開、最も透明 |
| Claude Code Routines | Claude Opus 4.7 + Adaptive Thinking | MCP + Skills(progressive disclosure) | Memory Tool + 進捗ファイル | (Routines は Anthropic 管理) | Anthropic Managed Agents | Schedule × GitHub event × API endpoint の 3 軸 | Managed Agents の outcomes(public beta) |
| GitHub Copilot Agent / Workspace | LLM + 専用 harness(詳細非公開) | リポジトリ全体走査、IDE 統合 | リポジトリ全体を context として保持 | GitHub Actions ベース | Agentic code review(2026-03 GA) | issue / PR event 起動、manual dispatch | GitHub の標準 logging |
| Replit Agent 3 | 自己修復ループ(生成→実行→エラー→修正) | コンテナ統合(Postgres・ブラウザ・デプロイ) | Stacks(Agent が他の Agent を生成)の階層 state | Replit のクラウド container | 200 分連続自律可能 | Max Autonomy で長時間 unsupervised | Replit 標準の logging |
| Sema4.ai | LLM + Runbooks + MCP | Studio で MCP server 接続、業務 SaaS 統合 | Semantic Layer で DB / 文書 / シート横断 | (SaaS 提供) | Control Room で lifecycle 管理 | Work Room 経由で業務側起動 | Control Room の audit log(エンプラ要件対応) |
各製品から学ぶこと
Devin ── 「junior の置き換え」というポジショニング
Cognition が公開した 18 ヶ月運用 retrospective(2025 末)の数字は印象的だ:
- security fix で「組織の総開発時間 5-10% 削減 / 脆弱性対応 30 分→1.5 分(20×)」
- modernization で 10-14×
- test coverage 50-60% → 80-90%
- データ機能リリース 3×
しかし Cognition チーム自身が「曖昧要件・スコープ変更・反復対話が依然として弱い」と認めている。senior エンジニアの置き換えではなく、junior の置き換えとして明確にポジショニングしている点が重要だ。これは業務投入の判断基準になる:「junior 1 人がやれる仕事の代行」を AI エージェントに任せるなら、現状の技術で十分 ROI が出る。
Manus ── E2B が下支えする「general-purpose agent」
Manus の重要な特徴は、実行環境を完全に E2B に外出ししていることだ。つまり、Manus 自身は L1 推論・計画と L3 メモリと L5 オーケストレで勝負している。L4 実行環境は買うべきものという判断だ。
これは業務投入の判断材料になる:自社で 0 から E2B / Daytona 級の sandbox を組む合理性はほぼない。買って借りて、自分は L1 / L3 / L5 で差別化するのが現実解。
ChatGPT Agent ── 「watch mode」と System Card の透明性
ChatGPT Agent の安全装置 4 つは、業務投入の参考になる:
- user confirmation:高リスク操作の都度確認
- refusal pattern:危険な要求は実行を拒否
- prompt injection monitor:Tool Poisoning 検知
- watch mode:特定サイトでは人間の常時監視を要求
特に watch mode は、業務に投入する全エージェントに横展開する価値がある設計だ。「自律で動かしていい範囲」と「人間が見ていないと動かさない範囲」を明示的に区別するメタ設計。
Claude Code Routines ── 3 軸トリガと Skills の組み合わせ
ch8 で詳述した通り、Routines は Schedule × GitHub event × API endpoint の 3 軸を全部備える設計だ。さらに Skills の progressive disclosure(metadata → SKILL.md 全体 → bundled files)で context window の肥大を回避している。
**「Skill = 必要なときだけロードされる関数 + ドキュメント」**という抽象は、L1 推論と L2 ツール接続の間にもう 1 段の interface を挟むデザインで、これも業務投入で真似る価値がある。
Copilot Workspace / Replit / Sema4.ai ── 業界の三方向
3 つを並べると、自律エージェント市場が 3 方向に分岐していることが見える。
- Copilot Workspace:コード前提・GitHub に密接統合。簡単な bug fix は安定、込み入ったロジックは手戻り多い
- Replit Agent 3:全環境込みのクラウドサンドボックス上で何でもやる。プロトタイプから本番デプロイまで
- Sema4.ai:エンプラ業務(finance / ops)専用、Control Room の lifecycle 管理と Semantic Layer での DB 横断検索が差別化、finance で 80%+ touchless 実績
「自分の業務がどの方向に近いか」を見極めるとベンダ選定が早く済む。
三部作の伏線回収
このシリーズは三部作の 第1部 だった。第2部・第3部で何を扱うかを明示する。
第2部:アーキテクチャパターン編(予定)
第1部で見た「部品の地図」を、第2部では「形(アーキテクチャ)」として扱う。具体的には次のパターンを比較する:
- Single Agent:1 つの強力な LLM がすべてやる
- Supervisor / Worker:ch3 の Orchestrator-Worker パターンを骨格として
- Swarm:対等なエージェントが情報共有しながら並列に動く
- Router:入力に応じて専門エージェントに振り分ける
- Hierarchical:階層的に sub-agent を持つ(Replit Stacks 風)
- Pipeline:直線的なエージェント鎖(リサーチ → 執筆 → レビュー)
- HITL の差し込み箇所:どのパターンに HITL がどう載るか
それぞれの 「常時稼働に向くか」 を本シリーズの 6 レイヤを使って判定する。
第3部:運用工学編(予定)
第3部では「生かし方」を扱う。第1部・第2部で組んだエージェントを壊れずに動き続けさせるための工学的な技法:
- Drift(ドリフト):モデル更新やプロンプト変更で挙動が変わる問題への対処
- Cost runaway(コスト破裂):85/10/5 split 以外の運用テクニック
- Memory poisoning(メモリ汚染):温存・浄化・隔離の戦略
- Tool failure:MCP server / API のダウンで連鎖する失敗の遮断
- HITL の SLA 設計:承認遅延でのフォールバック
- Recovery:障害復旧の runbook 化
第1部の 6 レイヤと第2部のパターンを下敷きに、「実装の壁」を越えた後の運用の壁を掘る。
Claude Code 自走の作法(姉妹シリーズ)との接続
最後に、姉妹シリーズの Claude Code 自走の作法 との接続を整理する。あちらは「個別実装側から見た自律性」、本作は「技術全般から見た自律性」だった。
L1〜L5 の自律性レベルを、本作の 6 レイヤと対応させるとこうなる。
| 自律性レベル(姉妹シリーズ) | 本作の 6 レイヤでの対応 |
|---|---|
| L1: Skill / Slash Command | L2 ツール接続(Skill = ローカル MCP 的な抽象) |
| L2: Hooks | L7 観測(自分の挙動を監視して再起動) |
| L3: GitHub Actions | L6 常時稼働の駆動(event-driven) |
| L4: Scheduled / Routines | L6 常時稼働の駆動(schedule) |
| L5: Sub-agent / MCP | L1 推論・計画(Orchestrator-Worker)+ L2 ツール接続 |
つまり Claude Code 自走の自律性レベルは、本作 6 レイヤの特定のレイヤを段階的に強化していく道筋として読める。両方を読むと、Claude Code を起点とした自走スタックを組むときに「今どこを強化すべきか」が見える。
業務投入のチェックリスト
最後に、本シリーズで挙げた知見を「自社のエージェントを業務に投入する前のチェックリスト」として一枚に集約する。
✅ 推論・計画 (L1)
□ Extended Thinking のブロックを次ターンに保持している
□ Plan-and-Act パターンで Planner / Executor を分離している
□ 5 ステップ以上のタスクは Orchestrator-Worker
□ 失敗履歴を CHANGELOG.md / journal に永続化
✅ ツール接続 (L2)
□ MCP server は OAuth 2.1 + RFC 8707 を満たす
□ Tool Search Tool でツール定義を動的ロード
□ Programmatic Tool Calling で context 肥大を回避
□ Computer Use は VM + 公式 reference image + MCP gateway 経由
✅ メモリ (L3)
□ 4 レイヤ合成(Checkpointer + Memory Tool + Mem0/Zep + 永続 DB)
□ Compaction + 外部ファイル + Just-in-time の 3 戦略
□ Sleep-time / Dreaming で idle 時に再編成
□ 衝突解決を書き込み前に挟む
✅ 実行環境 (L4)
□ 隔離は Firecracker microVM(or V8 isolate)
□ 短命 sandbox + 外部 state の二段構え
□ Egress は default-deny + allowlist
□ secret は credential broker から短命トークン
✅ オーケストレ (L5)
□ Durable execution(journal + replay)が組まれている
□ HITL は durable な step として書く
□ クラッシュ復旧テストが CI に組み込まれている
✅ 常時稼働 (L6)
□ Schedule × Event × Command の 3 軸を全部備える
□ Event-driven の経路(NATS / Kafka / Webhook)
✅ 観測 (L7)
□ OTel 互換の計装(OpenLLMetry など)
□ 3 層 eval(outcome / trajectory / meta)を production に常時かける
□ 監査ログ 8 要素を必ず残す
□ 「tokens per feature」と 85/10/5 split で週次レビュー
このチェックリスト全部に ✅ が付いた時、あなたのエージェントは業務に投入できる状態だ。
参考文献
Anthropic(公式 engineering / docs)
- Multi-agent Research System
- Effective Harnesses for Long-Running Agents
- Effective Context Engineering for AI Agents
- Long-running Claude Research
- Building Effective Agents
- Advanced Tool Use
- Extended Thinking docs
- Tool Use docs
- Programmatic Tool Calling
- Memory Tool
- Context Editing
- Computer Use
- Claude Sonnet 4.5
- Agent Capabilities API
- Equipping Agents with Skills
- Claude Code Routines
MCP(仕様 / セキュリティ)
- MCP Specification 2025-11-25
- 2026 MCP Roadmap
- MCP Repository
- Tool Poisoning Attacks
- MCP Authentication and Authorization
- Auth0: MCP Specs Update
- Cloudflare Enterprise MCP
OpenAI
- Responses API
- Migrate to Responses API
- Agents SDK
- The next evolution of the Agents SDK
- Codex Sandboxing
- Introducing ChatGPT Agent
- Operator
- Computer-Using Agent
- ChatGPT Agent System Card
- Memory and new controls for ChatGPT
Google / Microsoft
- Gemini Deep Research
- Gemini Deep Research API
- AutoGen v0.4
- Microsoft Agent Framework
- Microsoft AI Red Teaming Agent
- Neo4j Agent Memory (MS Agent Framework)
LangChain / LangGraph / LangSmith
- LangGraph 1.0 GA
- Durable Execution
- LangSmith Observability
- LangSmith Evaluation
- LLM Evaluation Framework: Trajectories vs Outputs
- agentevals (Trajectory Eval)
- LangMem SDK Launch
- LangMem Docs
Memory 専用基盤
- Mem0 ECAI 2025 paper
- Mem0 Repository
- Mem0 State of AI Agent Memory 2026
- Letta Context Repositories
- Letta Code
- Letta Repository
- Zep / Graphiti paper
- Zep
- Graphiti Repository
- Sleep-time Compute
Sandbox / Execution
- E2B Pricing
- E2B: Firecracker vs QEMU
- How Manus uses E2B
- Daytona Cloud
- Modal Sandboxes
- Modal: Top Code Agent Sandbox Products
- Anthropic Code Execution Tool
- Vercel Sandbox
- Cloudflare Project Think
- Cloudflare Sandbox SDK
- Manus Context Engineering
- NVIDIA: Practical Security Guidance for Sandboxing Agentic Workflows
- Browserbase
- Anchor Browser
Durable Execution / Orchestration
- Temporal for AI
- OpenAI Agents SDK + Temporal Integration GA
- Inngest: Durable Execution for AI Agents
- Restate Durable Agents
- Vercel: Introducing Workflow
- Vercel: New Programming Model for Durable Execution
- Cloudflare Agents Docs
- Cloudflare Workflows Durable AI Agent
- Bedrock AgentCore Overview
- Long-running Agents with AgentCore Runtime
Always-on / Triggers
- GitHub Agentic Workflows
- GitHub Agentic Workflows Technical Preview
- ChatGPT Tasks
- AWS Prescriptive Guidance: Event-driven Architecture
Observability / Eval / Guardrails
- OpenTelemetry GenAI Semconv
- GenAI Agent Spans
- Datadog: LLM OTel Semantic Convention
- Langfuse vs LangSmith
- Arize Phoenix
- Braintrust
- NVIDIA NeMo Guardrails
- Guardrails AI + NeMo Integration
- DeepTeam
- LangWatch Scenario
- FinOps for AI Token Costs
Real-world Agents
- Cognition: Devin Annual Performance Review 2025
- Cognition: Devin 2.0
- Manus AI arxiv analysis
- Replit Agent 3
- Sema4.ai
- Sema4.ai Semantic Layer GA
Papers
姉妹・関連シリーズ
- Claude Code 自走の作法(claude-code-autonomy-2026)
- ハーネスエンジニアリング(harness-engineering-2026)
- プラットフォームエンジニアリング実践(platform-engineering-practices-2026)
おわりに
「Demo は派手に動くのに、業務には乗らない」── 第1部の冒頭で投げかけた問いに、ここまでで一定の答えを出した。業務に乗せるためには、モデルではなく、その周りの 6 レイヤを自分のコンテキストで組み直す必要がある。地図はこれで揃った。
ただし、地図を持っていることと、現地を歩けることは別の話だ。第2部では「形(アーキテクチャパターン)」を、第3部では「生かし方(運用工学)」を扱う。3 部作を通読すると、自分のチームで使う自律エージェントを最初から最後まで設計する道筋が見えるようになる。
それまでに、本作のチェックリストを 1 つ手元のプロジェクトに当てて、6 レイヤのうち今欠けているのはどこかを点検してみてほしい。多くの場合、Layer 1 / 2 はすでに揃っていて、Layer 5 / 6 / 7 が欠けている。逆もある。自分のスタックを 6 レイヤで点検できること自体が、このシリーズの最初のリターンだ。
それでは、第2部でまた会いましょう。
この章のまとめ
- 7 製品 × 6 レイヤのマトリクスで「業界の今」を一覧化:Devin / Manus / ChatGPT Agent / Claude Code Routines / Copilot / Replit / Sema4.ai
- Devin = 「junior の置き換え」、Manus = E2B 外部依存、ChatGPT Agent = watch mode、Claude = Skills の progressive disclosure
- 業務投入は 3 方向に分岐:コード(Copilot)/ 全環境(Replit)/ エンプラ業務(Sema4.ai)
- 第2部はパターン編、第3部は運用工学編として続く
- 業務投入チェックリストで 6 レイヤすべての必須項目を一枚に集約