プロローグ ─ Demo は動くのに、業務には乗らない
2025 年は「エージェントの年」と呼ばれた。Cognition の Devin が SWE-bench を 13.86% で解き、Manus AI が招待制ながら 50 万人の待機リストを集め、OpenAI が ChatGPT Agent と Operator を統合し、Anthropic が Claude Code Routines をクラウドで動かし始めた。Computer Use は OSWorld(arXiv:2404.07972)で 人間ベースライン 72.36% を超え、Mythos Preview が 79.6% を出した。
それなのに、自社の業務に AI エージェントを投入しようとすると、ほぼ全員がどこかで詰まる。
- ローカルで動く Cursor のエージェントを、社内ナレッジ検索エージェントとして移植したら、長いセッションでメモリが破綻する
- Computer Use を社内ポータルの自動化に使ったら、CAPTCHA とサンドボックス escape リスクで本番に出せない
- LangGraph で組んだマルチエージェントが、5 ステップ中の 3 ステップ目でクラッシュした瞬間に最初からやり直しになる
- Claude Code Routines を試したら動いたが、社内データを連携させる安全な経路が見つからない
これらは「LLM の精度が足りない」という問題ではない。モデルの周りに積み上げる「ハーネス」が、自社の業務文脈に合っていないという問題だ。
「Demo」と「業務投入」の間にある 6 つの壁
Anthropic の Engineering ブログは、2025 年から繰り返しこう書いている。
Agent = Model + Harness
2025 はモデル性能の年だった。2026 はハーネス設計の年になる。
「ハーネス」とは、モデルがセッションを跨いで業務を完遂するために必要な、モデル外側の枠組みのことだ。具体的には次の 6 つの層からなる。
graph TD
A[<b>推論・計画</b><br/>Extended Thinking / Orchestrator-Worker]
B[<b>ツール接続</b><br/>MCP / Computer Use / Advanced Tool Use]
C[<b>メモリ・コンテキスト</b><br/>4 種のメモリ / Compaction / Sleep-time]
D[<b>実行環境</b><br/>Firecracker / 永続 sandbox / Egress 制御]
E[<b>オーケストレーション</b><br/>Durable Execution / Journal+Replay]
F[<b>常時稼働の駆動</b><br/>Schedule × Event × Command]
G[<b>観測・ガバナンス</b><br/>OTel / 3 層 Eval / OWASP Agentic Top 10]
M[Model] --> A
A --> B
B --> C
C --> D
D --> E
E --> F
F --> G
G -.observe.-> M
デモは、この 6 レイヤすべてを「都合よく組まれた状態」で見せている。だから、自社で再現するには、自分のコンテキストで 6 レイヤすべてを組み直す必要がある。
6 つの壁、それぞれの正体
それぞれの壁が何を意味するか、先取りで一覧する。これがそのままこのシリーズの章立てになる。
| 壁 | 症状(業務側で起きる現象) | 根本原因 |
|---|---|---|
| 推論・計画 | 5 ステップ目で計画が破綻する/ツール選択が頻繁に間違う | Extended Thinking のブロックを保持していない、Plan-and-Act の分離ができていない |
| ツール接続 | Function Calling は動くが、20 個以上のツールで精度が落ちる/MCP server が信用できない | Tool Search / Programmatic Tool Calling を使っていない、MCP の OAuth 2.1 + RFC 8707 を満たしていない |
| メモリ・コンテキスト | 長セッションで context window が破綻する/前回会話を覚えていない | Compaction なし、外部メモリなし、4 種メモリの分離なし |
| 実行環境 | Computer Use が本番に出せない/Code Interpreter のコストが破裂する | Firecracker microVM の隔離なし、egress policy なし、永続 sandbox の二段構えなし |
| オーケストレーション | クラッシュ時に最初からやり直しになる/HITL が組み込めない | Durable Execution の journal+replay なし |
| 常時稼働の駆動 | cron で動かしたいが、event-driven にもしたい/Routines を試したが社内データを渡せない | Schedule × Event × Command の 3 軸トリガがない |
「業務に投入する」とはどういうことか
このシリーズで言う「業務投入」とは、次の 4 条件を満たすことだ。
- 再現可能:同じ入力で同じ品質の出力が、運によらず出る
- 耐故障:途中でクラッシュしても、完了済みの作業をやり直さない
- 観測可能:失敗の原因を、コードを読み返さずに特定できる
- 管理可能:誰が・いつ・どの権限で・何を実行したか、監査ログで追える
この 4 条件は「サービス運用」の世界では当たり前のものだ。AI エージェントを「サービス」として扱うなら、これを満たさない選択肢はない。逆に、この 4 条件を満たさないものを「自律エージェント」と呼ぶのは、どれほど派手に動いても、デモ以上にならない。
なぜ 2026-05 がこの記事を書く適切なタイミングなのか
2025 年末から 2026 年 5 月にかけて、技術スタックの主要レイヤがほぼ同時に GA を打った。
- MCP 仕様 2025-11-25 版で OAuth Resource Server 化と RFC 8707 必須化
- LangGraph 1.0 GA(2025-10-22)と OpenAI Agents SDK + Temporal 統合 GA(2026-03-23)
- Cloudflare Sandboxes / Workflows GA(2026-04)と Vercel Workflow DevKit GA
- Anthropic Memory Tool Public Beta + Adaptive Thinking + Compaction API(Opus 4.6, 2026-02 リリース)
- Claude Code Routines 公開(2026-04-14)
- OpenTelemetry GenAI semconv v1.37(agent spans は Development、その他は Stable)
つまり「選択肢が出揃った直後」が今だ。これより前は実験段階で技術選定が早すぎ、これより後は新技術の議論ばかりで地図が描きにくくなる。この瞬間に、地図を描く価値がある。
このシリーズで使う言葉の整理
混乱を避けるために、前提の用語を 3 つだけ揃えておく。
「エージェント」:このシリーズでは、Anthropic の定義に従う。「LLM が自律的にツールを選択・実行し、ループで自分の出力を評価しながら目標達成に向かうシステム」。固定ワークフローのチェーン(事前に定義された LLM 呼び出し列)は workflow と呼んで区別する。
「ハーネス」:モデルの外側で、セッション間の状態・計画・進捗・失敗履歴を保つ枠組み。ファイル、メモリ、scratchpad、checkpointer などが含まれる。
「常時稼働」:このシリーズでは「ユーザーの対話セッションを離れて、scheduler / event / webhook を起点に独立して動き続ける」状態を指す。/loop のようにセッション内で連続実行するものは「半常駐」として区別する。
このシリーズの読み方
ch2 で 6 レイヤモデルの全体像を確定させる。それ以降の章は、各レイヤを順に深堀りする。
- 「先に地図を見たい」人は ch2 だけで十分に役に立つ
- 「特定のレイヤで詰まっている」人は、症状から逆引きして該当章だけ読む
- 「通しで世界観を作りたい」人は ch1 → ch10 の順に読む
各章は独立して読めるように書いた。ただし ch3 → ch4 → ch5 の順序だけは依存関係がある(推論レイヤがツール接続を呼び、ツール出力がメモリに溜まる、という流れ)。
それでは、6 レイヤの地図を ch2 で広げよう。
この章のまとめ
- AI エージェントが業務に乗らない原因はモデルではなく、周辺の 6 レイヤ:推論・計画、ツール接続、メモリ、実行環境、オーケストレーション、常時稼働、観測の 7 領域に整理できる(最後の 1 つは横串)
- 「業務投入」の 4 条件:再現可能・耐故障・観測可能・管理可能
- 2026-05 は地図を描くのに最適なタイミング:MCP / LangGraph / Memory Tool / Routines / OTel GenAI が同時期に GA
- このシリーズはフレームワーク非依存に書く:6 レイヤの判断軸を渡し、ベンダ選定の枠組みを残す