AI エージェントを業務に乗せる ─ 技術スタックの地図

「Demo は派手に動くのに、業務には一向に乗ってこない」── これが 2025 から 2026 に持ち越された AI エージェントの最大の宿題だった。

世の中には魅力的なエージェント・デモが溢れている。Cognition の Devin が GitHub issue から PR を作る動画。OpenAI の ChatGPT Agent がブラウザを自動運転する動画。Anthropic の Claude Code Routines が朝の 9 時に勝手にレビューを書いている画面。だが、いざ自社の業務に投入しようとすると、突然「なぜか自分の現場では動かない」という壁にぶつかる。

その理由は、見えているデモがモデルだけの話ではないからだ。実際には、モデルの周りに 推論・ツール接続・メモリ・実行環境・オーケストレーション・観測 という 6 つのレイヤが積み上がっていて、デモはその全部が嚙み合った瞬間を切り取って見せている。自社で再現するには、6 レイヤすべてを自分のコンテキストに合わせて組み直さないといけない。

この記事は、その 6 レイヤを地図化した「スタック」を最短経路で読み解くためのシリーズだ。

対象読者

MCP / Tool Use API / Computer Use を一度は触ったことがあるソフトウェアエンジニア
「Cursor / Claude Code を一通り使ってみた」が、自社の業務に組み込もうとしたときに何から手を付ければいいか分からないテックリード
AI エージェント関連プロダクト（Devin / Manus / Routines / Operator など）の名前は知っているが、「中身がどう違うのか」を一覧で押さえたい人
すでに小さい自律スクリプトは書いたが、それが「常時稼働の業務基盤」に育つ道筋が見えない人

前提知識：LLM API のコール、Function Calling、async プログラミング、コンテナの基本。LangChain / LangGraph などのフレームワーク経験は不要（むしろこの記事はフレームワーク非依存に書く）。

項目	値
難易度	★★★★☆
読了時間	約 3 時間
対象バージョン	MCP 2025-11-25 / Claude Opus 4.7 / OpenAI Agents SDK 2026-04 update / OTel GenAI semconv v1.37
シリーズ構成	10 章

読み終わったときに何ができるようになるか

このシリーズを読み終えると、次の 3 つができるようになる。

業務に AI エージェントを投入したいとき、どの 6 レイヤから手を付けるべきかを判断できる
Devin / Manus / ChatGPT Agent / Claude Code Routines / Copilot Workspace を「6 レイヤのどこをどう作っているか」で読み解ける
自分のチームで使うエージェント基盤を組むとき、ベンダロックインを避けつつ、どこを自前で・どこを SaaS でを判断する材料を持てる

逆に、このシリーズでやらないこと：

個別フレームワーク（LangGraph / Pydantic AI など）のチュートリアル
プロンプトエンジニアリングのテクニック集
個別ベンダ製品（Anthropic / OpenAI など）の機能網羅

これらは別シリーズや一次情報のドキュメントに譲る。スタック全体の地図と判断軸だけを、この記事で渡す。

三部作のうちの第1部

このシリーズは三部作の 第1部 にあたる。

第1部 [本作] 技術スタック編   ──「何があるか」を地図化する
       ↓
第2部 アーキテクチャパターン編 ──「どう組み合わせるか」を設計する
       ↓
第3部 運用工学編              ──「壊れずに動き続けさせる」を実装する

各部は独立して読めるが、通読すると「自律エージェントを業務に投入する」工程の全体像が立ち上がる。第1部の本作は 部品の地図、第2部は 形（アーキテクチャ）、第3部は 生かし方（運用） を扱う。

また、姉妹シリーズである Claude Code 自走の作法は「個別実装側から見た自律性」を扱った続編として位置付けられる。本作は「技術全般から見た自律性」を扱う。両方を読むと、L1〜L5 の自律性レベル（Skill → Hooks → GitHub Actions → Routines → Multi-agent）が、本作の 6 レイヤの上にどう載るかが分かる。

読み方

A. 通読：ch1 → ch10 を順に。地図を端から端まで歩く
B. 関心領域からつまみ食い：MCP / Tool Use の最新を知りたい → ch4 / メモリ製品の比較 → ch5 / sandbox 選定 → ch6 / durable execution の理屈 → ch7
C. リファレンス：6 レイヤの観点で個別エージェント（Devin など）を解剖したい → ch10 のマトリクスを起点に逆引き

シリーズ構成

章	テーマ
1	プロローグ ─ Demo は動くのに、業務には乗らない
2	6 レイヤモデル ─ Agent ＝モデル + ハーネス
3	推論と計画 ─ Extended Thinking と Orchestrator-Worker
4	ツール接続 ─ MCP・Computer Use・Advanced Tool Use
5	メモリとコンテキスト ─ 4 種のメモリと Sleep-time
6	実行環境 ─ Firecracker・永続性・Egress
7	オーケストレーションと durable execution
8	常時稼働の駆動 ─ schedule × event × command の 3 軸
9	観測とガバナンス ─ Eval・OTel・OWASP Agentic Top 10
10	実例カタログとエピローグ ─ 6 レイヤで Devin / Manus を解剖する

このシリーズの立ち位置

世の中には AI エージェントを扱う情報が溢れているが、両極端に振れがちだ。

片極：「全自動で月 100 万を稼ぐ AI エージェントの作り方」のような、前提条件と再現性が抜け落ちた煽り
もう一極：個別フレームワーク（LangGraph・AutoGen・CrewAI など）のチュートリアルを並べただけで、「それぞれが 6 レイヤのどこを担当しているのか」が見えないドキュメント網羅型

このシリーズはその中間を目指す。「技術スタックの地図」という抽象を出発点にし、各レイヤで具体的な製品・数値・引用元を示す。読み終わった時に「明日から自分のスタックを 6 レイヤで点検できる」状態になっていることが目標だ。

それでは、まず「Demo は動くのに業務には乗らない」のはなぜかを解き明かすところから始めよう。

AI エージェントを業務に乗せる ─ 技術スタックの地図

対象読者

読み終わったときに何ができるようになるか

三部作のうちの第1部

読み方

シリーズ構成

このシリーズの立ち位置

目次