AI エージェントを業務に乗せる ─ 技術スタックの地図
自律的に動く / 常時稼働する AI エージェントを業務遂行に投入するために必要な技術を、6 レイヤの「スタック地図」として蒸留する。三部作の第1部。
AI エージェントを業務に乗せる ─ 技術スタックの地図
「Demo は派手に動くのに、業務には一向に乗ってこない」── これが 2025 から 2026 に持ち越された AI エージェントの最大の宿題だった。
世の中には魅力的なエージェント・デモが溢れている。Cognition の Devin が GitHub issue から PR を作る動画。OpenAI の ChatGPT Agent がブラウザを自動運転する動画。Anthropic の Claude Code Routines が朝の 9 時に勝手にレビューを書いている画面。だが、いざ自社の業務に投入しようとすると、突然「なぜか自分の現場では動かない」という壁にぶつかる。
その理由は、見えているデモがモデルだけの話ではないからだ。実際には、モデルの周りに 推論・ツール接続・メモリ・実行環境・オーケストレーション・観測 という 6 つのレイヤが積み上がっていて、デモはその全部が嚙み合った瞬間を切り取って見せている。自社で再現するには、6 レイヤすべてを自分のコンテキストに合わせて組み直さないといけない。
この記事は、その 6 レイヤを地図化した「スタック」を最短経路で読み解くためのシリーズだ。
対象読者
- MCP / Tool Use API / Computer Use を一度は触ったことがあるソフトウェアエンジニア
- 「Cursor / Claude Code を一通り使ってみた」が、自社の業務に組み込もうとしたときに何から手を付ければいいか分からないテックリード
- AI エージェント関連プロダクト(Devin / Manus / Routines / Operator など)の名前は知っているが、「中身がどう違うのか」を一覧で押さえたい人
- すでに小さい自律スクリプトは書いたが、それが「常時稼働の業務基盤」に育つ道筋が見えない人
前提知識:LLM API のコール、Function Calling、async プログラミング、コンテナの基本。LangChain / LangGraph などのフレームワーク経験は不要(むしろこの記事はフレームワーク非依存に書く)。
| 項目 | 値 |
|---|---|
| 難易度 | ★★★★☆ |
| 読了時間 | 約 3 時間 |
| 対象バージョン | MCP 2025-11-25 / Claude Opus 4.7 / OpenAI Agents SDK 2026-04 update / OTel GenAI semconv v1.37 |
| シリーズ構成 | 10 章 |
読み終わったときに何ができるようになるか
このシリーズを読み終えると、次の 3 つができるようになる。
- 業務に AI エージェントを投入したいとき、どの 6 レイヤから手を付けるべきかを判断できる
- Devin / Manus / ChatGPT Agent / Claude Code Routines / Copilot Workspace を「6 レイヤのどこをどう作っているか」で読み解ける
- 自分のチームで使うエージェント基盤を組むとき、ベンダロックインを避けつつ、どこを自前で・どこを SaaS でを判断する材料を持てる
逆に、このシリーズでやらないこと:
- 個別フレームワーク(LangGraph / Pydantic AI など)のチュートリアル
- プロンプトエンジニアリングのテクニック集
- 個別ベンダ製品(Anthropic / OpenAI など)の機能網羅
これらは別シリーズや一次情報のドキュメントに譲る。スタック全体の地図と判断軸だけを、この記事で渡す。
三部作のうちの第1部
このシリーズは三部作の 第1部 にあたる。
第1部 [本作] 技術スタック編 ──「何があるか」を地図化する
↓
第2部 アーキテクチャパターン編 ──「どう組み合わせるか」を設計する
↓
第3部 運用工学編 ──「壊れずに動き続けさせる」を実装する
各部は独立して読めるが、通読すると「自律エージェントを業務に投入する」工程の全体像が立ち上がる。第1部の本作は 部品の地図、第2部は 形(アーキテクチャ)、第3部は 生かし方(運用) を扱う。
また、姉妹シリーズである Claude Code 自走の作法 は「個別実装側から見た自律性」を扱った続編として位置付けられる。本作は「技術全般から見た自律性」を扱う。両方を読むと、L1〜L5 の自律性レベル(Skill → Hooks → GitHub Actions → Routines → Multi-agent)が、本作の 6 レイヤの上にどう載るかが分かる。
読み方
- A. 通読:ch1 → ch10 を順に。地図を端から端まで歩く
- B. 関心領域からつまみ食い:MCP / Tool Use の最新を知りたい →
ch4/ メモリ製品の比較 →ch5/ sandbox 選定 →ch6/ durable execution の理屈 →ch7 - C. リファレンス:6 レイヤの観点で個別エージェント(Devin など)を解剖したい →
ch10のマトリクスを起点に逆引き
シリーズ構成
このシリーズの立ち位置
世の中には AI エージェントを扱う情報が溢れているが、両極端に振れがちだ。
- 片極:「全自動で月 100 万を稼ぐ AI エージェントの作り方」のような、前提条件と再現性が抜け落ちた煽り
- もう一極:個別フレームワーク(LangGraph・AutoGen・CrewAI など)のチュートリアルを並べただけで、「それぞれが 6 レイヤのどこを担当しているのか」が見えないドキュメント網羅型
このシリーズはその中間を目指す。「技術スタックの地図」という抽象を出発点にし、各レイヤで具体的な製品・数値・引用元を示す。読み終わった時に「明日から自分のスタックを 6 レイヤで点検できる」状態になっていることが目標だ。
それでは、まず「Demo は動くのに業務には乗らない」のはなぜかを解き明かすところから始めよう。
目次
- プロローグ ─ Demo は動くのに、業務には乗らない 「派手なエージェント・デモは沢山あるのに、自社業務には何故か乗らない」という 2025-2026 の最大の宿題を解体する。原因はモデルではなく、その周りの 6 レイヤにある。
- 6 レイヤモデル ─ Agent = モデル + ハーネス 自律エージェントの技術を「推論・ツール・メモリ・実行環境・オーケストレ・常時稼働・観測」の 6 レイヤ + 観測横串で読み解く地図を提示し、各章への入り口を作る。
- 推論と計画 ─ Extended Thinking と Orchestrator-Worker 業務投入できるエージェントの最上層「推論・計画」を解剖する。Extended Thinking、Plan-and-Act、Orchestrator-Worker、Deep Research 4 系統、Effective Harness の 5 つの軸で整理する。
- ツール接続 ─ MCP・Computer Use・Advanced Tool Use エージェントを「外の世界」に繋ぐ Layer 2 を解剖する。MCP 2025-11-25 仕様、Advanced Tool Use 三種、Computer Use のベンチ推移、Browser 自動化 3 系統、Tool Poisoning 対策を実装の解像度で扱う。
- メモリとコンテキスト ─ 4 種のメモリと Sleep-time エージェントが「思い出せる」ようにするための Layer 3 を解剖する。Working / Episodic / Semantic / Procedural の 4 種、Compaction、Mem0/Letta/Zep/Memory Tool の使い分け、Sleep-time Compute と Dreaming を扱う。
- 実行環境 ─ Firecracker・永続性・Egress エージェントが「コードを実行する」「ブラウザを操作する」ための Layer 4 を解剖する。隔離技術、E2B/Daytona/Modal/Vercel/Cloudflare の住み分け、永続 sandbox の二段構え、Egress policy を実装の解像度で扱う。
- オーケストレーションと durable execution 「クラッシュしても続きから動く」エージェントの根幹である Layer 5 を解剖する。LangGraph 1.0 / Temporal / Restate / Vercel Workflow / AgentCore の設計、journal+replay の原理、HITL の差し込み箇所を実装の解像度で扱う。
- 常時稼働の駆動 ─ schedule × event × command の 3 軸 エージェントを「最初に動き始めさせる」Layer 6 を解剖する。Claude Code Routines の 3 階層、ChatGPT Tasks、GitHub Agentic Workflows、event-driven (NATS / Kafka)、event chaining を扱う。
- 観測とガバナンス ─ Eval・OTel・OWASP Agentic Top 10 「動いているエージェントを、外から見える状態に保つ」横串の Layer 7 を解剖する。観測ツール 6 製品、OTel GenAI semconv、3 層 eval、ガードレール、OWASP Agentic Top 10、コスト観測を扱う。
- 実例カタログとエピローグ ─ 6 レイヤで Devin / Manus を解剖する 第1部の最終章。Devin / Manus / ChatGPT Agent / Claude Code Routines / GitHub Copilot Workspace / Replit Agent 3 / Sema4.ai を 6 レイヤで解剖したマトリクスで「業界の今」を一覧化し、第2部・第3部への伏線を回収する。参考文献付き。