目次を表示する

AI エージェントを業務に乗せる ─ 技術スタックの地図

実例カタログとエピローグ ─ 6 レイヤで Devin / Manus を解剖する

実例カタログとエピローグ ─ 6 レイヤで Devin / Manus を解剖する

ここまで 6 レイヤ + 観測横串の地図を全部歩いた。地図は持った。今度は、その地図で実在のエージェントを読み解く番だ。

本章では 7 つの代表的な自律エージェント製品を、本シリーズの 6 レイヤで解剖したマトリクスを示す。各製品が「どのレイヤを自前で作り、どのレイヤを借りているか」が分かれば、自社で組むときに何を真似て何を避けるかの判断ができる。最後に、第2部(パターン編)・第3部(運用工学編)への伏線を回収し、参考文献を整理する。

7 製品 × 6 レイヤのマトリクス

製品L1 推論L2 ツールL3 メモリL4 実行環境L5 オーケストレL6 常時稼働L7 観測
Devin (Cognition)LLM + RL の独自計画器専用 IDE/shell/browser、MCP 限定長期 codebase 知識、failed approaches 記録専用クラウド sandbox(IDE/shell/browser 統合)journal-replay 風 long-running sessionLinear/Jira/Slack ticket 起点(イベント)内部観測あり、ユーザー側にも一定範囲の trace UI
Manus AIanalyze→plan→execute→observe ループ、CodeAct(Python = action)Claude を主 LLM、29 tool 使用内部 multi-agent(planning/retrieval/memory)E2B Firecracker microVM(150ms 起動、最大 14 日保持)内部 multi-agent 推定(非公開)招待制・solo-use、後に Meta Ads Manager 統合公開情報限定的
ChatGPT Agent / OperatorCUA = GPT-4o vision + RL(GUI 操作)+ Deep Research + ChatGPT 対話能力を統合first-party connector、Computer Use ベース永続 virtual computer(state を follow-up で再利用可)テキスト/visual ブラウザ・ターミナル風ツール・ファイルが同居する unified systemwatch mode、prompt injection monitorWorkspace Agents は Codex(クラウド)上、sign-out 後も継続システムカード公開、最も透明
Claude Code RoutinesClaude Opus 4.7 + Adaptive ThinkingMCP + Skills(progressive disclosure)Memory Tool + 進捗ファイル(Routines は Anthropic 管理)Anthropic Managed AgentsSchedule × GitHub event × API endpoint の 3 軸Managed Agents の outcomes(public beta)
GitHub Copilot Agent / WorkspaceLLM + 専用 harness(詳細非公開)リポジトリ全体走査、IDE 統合リポジトリ全体を context として保持GitHub Actions ベースAgentic code review(2026-03 GA)issue / PR event 起動、manual dispatchGitHub の標準 logging
Replit Agent 3自己修復ループ(生成→実行→エラー→修正)コンテナ統合(Postgres・ブラウザ・デプロイ)Stacks(Agent が他の Agent を生成)の階層 stateReplit のクラウド container200 分連続自律可能Max Autonomy で長時間 unsupervisedReplit 標準の logging
Sema4.aiLLM + Runbooks + MCPStudio で MCP server 接続、業務 SaaS 統合Semantic Layer で DB / 文書 / シート横断(SaaS 提供)Control Room で lifecycle 管理Work Room 経由で業務側起動Control Room の audit log(エンプラ要件対応)

各製品から学ぶこと

Devin ── 「junior の置き換え」というポジショニング

Cognition が公開した 18 ヶ月運用 retrospective(2025 末)の数字は印象的だ:

  • security fix で「組織の総開発時間 5-10% 削減 / 脆弱性対応 30 分→1.5 分(20×)
  • modernization で 10-14×
  • test coverage 50-60% → 80-90%
  • データ機能リリース

しかし Cognition チーム自身が「曖昧要件・スコープ変更・反復対話が依然として弱い」と認めている。senior エンジニアの置き換えではなく、junior の置き換えとして明確にポジショニングしている点が重要だ。これは業務投入の判断基準になる:「junior 1 人がやれる仕事の代行」を AI エージェントに任せるなら、現状の技術で十分 ROI が出る。

Manus ── E2B が下支えする「general-purpose agent」

Manus の重要な特徴は、実行環境を完全に E2B に外出ししていることだ。つまり、Manus 自身は L1 推論・計画と L3 メモリと L5 オーケストレで勝負している。L4 実行環境は買うべきものという判断だ。

これは業務投入の判断材料になる:自社で 0 から E2B / Daytona 級の sandbox を組む合理性はほぼない。買って借りて、自分は L1 / L3 / L5 で差別化するのが現実解。

ChatGPT Agent ── 「watch mode」と System Card の透明性

ChatGPT Agent の安全装置 4 つは、業務投入の参考になる:

  1. user confirmation:高リスク操作の都度確認
  2. refusal pattern:危険な要求は実行を拒否
  3. prompt injection monitor:Tool Poisoning 検知
  4. watch mode:特定サイトでは人間の常時監視を要求

特に watch mode は、業務に投入する全エージェントに横展開する価値がある設計だ。「自律で動かしていい範囲」と「人間が見ていないと動かさない範囲」を明示的に区別するメタ設計。

Claude Code Routines ── 3 軸トリガと Skills の組み合わせ

ch8 で詳述した通り、Routines は Schedule × GitHub event × API endpoint の 3 軸を全部備える設計だ。さらに Skills の progressive disclosure(metadata → SKILL.md 全体 → bundled files)で context window の肥大を回避している。

**「Skill = 必要なときだけロードされる関数 + ドキュメント」**という抽象は、L1 推論と L2 ツール接続の間にもう 1 段の interface を挟むデザインで、これも業務投入で真似る価値がある。

Copilot Workspace / Replit / Sema4.ai ── 業界の三方向

3 つを並べると、自律エージェント市場が 3 方向に分岐していることが見える。

  • Copilot Workspaceコード前提・GitHub に密接統合。簡単な bug fix は安定、込み入ったロジックは手戻り多い
  • Replit Agent 3全環境込みのクラウドサンドボックス上で何でもやる。プロトタイプから本番デプロイまで
  • Sema4.aiエンプラ業務(finance / ops)専用、Control Room の lifecycle 管理と Semantic Layer での DB 横断検索が差別化、finance で 80%+ touchless 実績

自分の業務がどの方向に近いか」を見極めるとベンダ選定が早く済む。

三部作の伏線回収

このシリーズは三部作の 第1部 だった。第2部・第3部で何を扱うかを明示する。

第2部:アーキテクチャパターン編(予定)

第1部で見た「部品の地図」を、第2部では「形(アーキテクチャ)」として扱う。具体的には次のパターンを比較する:

  • Single Agent:1 つの強力な LLM がすべてやる
  • Supervisor / Worker:ch3 の Orchestrator-Worker パターンを骨格として
  • Swarm:対等なエージェントが情報共有しながら並列に動く
  • Router:入力に応じて専門エージェントに振り分ける
  • Hierarchical:階層的に sub-agent を持つ(Replit Stacks 風)
  • Pipeline:直線的なエージェント鎖(リサーチ → 執筆 → レビュー)
  • HITL の差し込み箇所:どのパターンに HITL がどう載るか

それぞれの 「常時稼働に向くか」 を本シリーズの 6 レイヤを使って判定する。

第3部:運用工学編(予定)

第3部では「生かし方」を扱う。第1部・第2部で組んだエージェントを壊れずに動き続けさせるための工学的な技法:

  • Drift(ドリフト):モデル更新やプロンプト変更で挙動が変わる問題への対処
  • Cost runaway(コスト破裂):85/10/5 split 以外の運用テクニック
  • Memory poisoning(メモリ汚染):温存・浄化・隔離の戦略
  • Tool failure:MCP server / API のダウンで連鎖する失敗の遮断
  • HITL の SLA 設計:承認遅延でのフォールバック
  • Recovery:障害復旧の runbook 化

第1部の 6 レイヤと第2部のパターンを下敷きに、「実装の壁」を越えた後の運用の壁を掘る。

Claude Code 自走の作法(姉妹シリーズ)との接続

最後に、姉妹シリーズの Claude Code 自走の作法 との接続を整理する。あちらは「個別実装側から見た自律性」、本作は「技術全般から見た自律性」だった。

L1〜L5 の自律性レベルを、本作の 6 レイヤと対応させるとこうなる。

自律性レベル(姉妹シリーズ)本作の 6 レイヤでの対応
L1: Skill / Slash CommandL2 ツール接続(Skill = ローカル MCP 的な抽象)
L2: HooksL7 観測(自分の挙動を監視して再起動)
L3: GitHub ActionsL6 常時稼働の駆動(event-driven)
L4: Scheduled / RoutinesL6 常時稼働の駆動(schedule)
L5: Sub-agent / MCPL1 推論・計画(Orchestrator-Worker)+ L2 ツール接続

つまり Claude Code 自走の自律性レベルは、本作 6 レイヤの特定のレイヤを段階的に強化していく道筋として読める。両方を読むと、Claude Code を起点とした自走スタックを組むときに「今どこを強化すべきか」が見える。

業務投入のチェックリスト

最後に、本シリーズで挙げた知見を「自社のエージェントを業務に投入する前のチェックリスト」として一枚に集約する。

✅ 推論・計画 (L1)
□ Extended Thinking のブロックを次ターンに保持している
□ Plan-and-Act パターンで Planner / Executor を分離している
□ 5 ステップ以上のタスクは Orchestrator-Worker
□ 失敗履歴を CHANGELOG.md / journal に永続化

✅ ツール接続 (L2)
□ MCP server は OAuth 2.1 + RFC 8707 を満たす
□ Tool Search Tool でツール定義を動的ロード
□ Programmatic Tool Calling で context 肥大を回避
□ Computer Use は VM + 公式 reference image + MCP gateway 経由

✅ メモリ (L3)
□ 4 レイヤ合成(Checkpointer + Memory Tool + Mem0/Zep + 永続 DB)
□ Compaction + 外部ファイル + Just-in-time の 3 戦略
□ Sleep-time / Dreaming で idle 時に再編成
□ 衝突解決を書き込み前に挟む

✅ 実行環境 (L4)
□ 隔離は Firecracker microVM(or V8 isolate)
□ 短命 sandbox + 外部 state の二段構え
□ Egress は default-deny + allowlist
□ secret は credential broker から短命トークン

✅ オーケストレ (L5)
□ Durable execution(journal + replay)が組まれている
□ HITL は durable な step として書く
□ クラッシュ復旧テストが CI に組み込まれている

✅ 常時稼働 (L6)
□ Schedule × Event × Command の 3 軸を全部備える
□ Event-driven の経路(NATS / Kafka / Webhook)

✅ 観測 (L7)
□ OTel 互換の計装(OpenLLMetry など)
□ 3 層 eval(outcome / trajectory / meta)を production に常時かける
□ 監査ログ 8 要素を必ず残す
□ 「tokens per feature」と 85/10/5 split で週次レビュー

このチェックリスト全部に ✅ が付いた時、あなたのエージェントは業務に投入できる状態だ。

参考文献

Anthropic(公式 engineering / docs)

MCP(仕様 / セキュリティ)

OpenAI

Google / Microsoft

LangChain / LangGraph / LangSmith

Memory 専用基盤

Sandbox / Execution

Durable Execution / Orchestration

Always-on / Triggers

Observability / Eval / Guardrails

Real-world Agents

Papers

姉妹・関連シリーズ


おわりに

「Demo は派手に動くのに、業務には乗らない」── 第1部の冒頭で投げかけた問いに、ここまでで一定の答えを出した。業務に乗せるためには、モデルではなく、その周りの 6 レイヤを自分のコンテキストで組み直す必要がある。地図はこれで揃った。

ただし、地図を持っていることと、現地を歩けることは別の話だ。第2部では「形(アーキテクチャパターン)」を、第3部では「生かし方(運用工学)」を扱う。3 部作を通読すると、自分のチームで使う自律エージェントを最初から最後まで設計する道筋が見えるようになる。

それまでに、本作のチェックリストを 1 つ手元のプロジェクトに当てて、6 レイヤのうち今欠けているのはどこかを点検してみてほしい。多くの場合、Layer 1 / 2 はすでに揃っていて、Layer 5 / 6 / 7 が欠けている。逆もある。自分のスタックを 6 レイヤで点検できること自体が、このシリーズの最初のリターンだ。

それでは、第2部でまた会いましょう。


この章のまとめ

  • 7 製品 × 6 レイヤのマトリクスで「業界の今」を一覧化:Devin / Manus / ChatGPT Agent / Claude Code Routines / Copilot / Replit / Sema4.ai
  • Devin = 「junior の置き換え」、Manus = E2B 外部依存、ChatGPT Agent = watch mode、Claude = Skills の progressive disclosure
  • 業務投入は 3 方向に分岐:コード(Copilot)/ 全環境(Replit)/ エンプラ業務(Sema4.ai)
  • 第2部はパターン編、第3部は運用工学編として続く
  • 業務投入チェックリストで 6 レイヤすべての必須項目を一枚に集約