プロローグ ─ Demo は動くのに、業務には乗らない

2026/05/10

プロローグ ─ Demo は動くのに、業務には乗らない

2025 年は「エージェントの年」と呼ばれた。Cognition の Devin が SWE-bench を 13.86% で解き、Manus AI が招待制ながら 50 万人の待機リストを集め、OpenAI が ChatGPT Agent と Operator を統合し、Anthropic が Claude Code Routines をクラウドで動かし始めた。Computer Use は OSWorld（arXiv:2404.07972）で 人間ベースライン 72.36% を超え、Mythos Preview が 79.6% を出した。

それなのに、自社の業務に AI エージェントを投入しようとすると、ほぼ全員がどこかで詰まる。

ローカルで動く Cursor のエージェントを、社内ナレッジ検索エージェントとして移植したら、長いセッションでメモリが破綻する
Computer Use を社内ポータルの自動化に使ったら、CAPTCHA とサンドボックス escape リスクで本番に出せない
LangGraph で組んだマルチエージェントが、5 ステップ中の 3 ステップ目でクラッシュした瞬間に最初からやり直しになる
Claude Code Routines を試したら動いたが、社内データを連携させる安全な経路が見つからない

これらは「LLM の精度が足りない」という問題ではない。モデルの周りに積み上げる「ハーネス」が、自社の業務文脈に合っていないという問題だ。

「Demo」と「業務投入」の間にある 6 つの壁

Anthropic の Engineering ブログは、2025 年から繰り返しこう書いている。

Agent ＝ Model + Harness

2025 はモデル性能の年だった。2026 はハーネス設計の年になる。

「ハーネス」とは、モデルがセッションを跨いで業務を完遂するために必要な、モデル外側の枠組みのことだ。具体的には次の 6 つの層からなる。

graph TD
    A[<b>推論・計画</b><br/>Extended Thinking / Orchestrator-Worker]
    B[<b>ツール接続</b><br/>MCP / Computer Use / Advanced Tool Use]
    C[<b>メモリ・コンテキスト</b><br/>4 種のメモリ / Compaction / Sleep-time]
    D[<b>実行環境</b><br/>Firecracker / 永続 sandbox / Egress 制御]
    E[<b>オーケストレーション</b><br/>Durable Execution / Journal+Replay]
    F[<b>常時稼働の駆動</b><br/>Schedule × Event × Command]
    G[<b>観測・ガバナンス</b><br/>OTel / 3 層 Eval / OWASP Agentic Top 10]

    M[Model] --> A
    A --> B
    B --> C
    C --> D
    D --> E
    E --> F
    F --> G
    G -.observe.-> M

デモは、この 6 レイヤすべてを「都合よく組まれた状態」で見せている。だから、自社で再現するには、自分のコンテキストで 6 レイヤすべてを組み直す必要がある。

6 つの壁、それぞれの正体

それぞれの壁が何を意味するか、先取りで一覧する。これがそのままこのシリーズの章立てになる。

壁	症状（業務側で起きる現象）	根本原因
推論・計画	5 ステップ目で計画が破綻する／ツール選択が頻繁に間違う	Extended Thinking のブロックを保持していない、Plan-and-Act の分離ができていない
ツール接続	Function Calling は動くが、20 個以上のツールで精度が落ちる／MCP server が信用できない	Tool Search / Programmatic Tool Calling を使っていない、MCP の OAuth 2.1 + RFC 8707 を満たしていない
メモリ・コンテキスト	長セッションで context window が破綻する／前回会話を覚えていない	Compaction なし、外部メモリなし、4 種メモリの分離なし
実行環境	Computer Use が本番に出せない／Code Interpreter のコストが破裂する	Firecracker microVM の隔離なし、egress policy なし、永続 sandbox の二段構えなし
オーケストレーション	クラッシュ時に最初からやり直しになる／HITL が組み込めない	Durable Execution の journal+replay なし
常時稼働の駆動	cron で動かしたいが、event-driven にもしたい／Routines を試したが社内データを渡せない	Schedule × Event × Command の 3 軸トリガがない

「業務に投入する」とはどういうことか

このシリーズで言う「業務投入」とは、次の 4 条件を満たすことだ。

再現可能：同じ入力で同じ品質の出力が、運によらず出る
耐故障：途中でクラッシュしても、完了済みの作業をやり直さない
観測可能：失敗の原因を、コードを読み返さずに特定できる
管理可能：誰が・いつ・どの権限で・何を実行したか、監査ログで追える

この 4 条件は「サービス運用」の世界では当たり前のものだ。AI エージェントを「サービス」として扱うなら、これを満たさない選択肢はない。逆に、この 4 条件を満たさないものを「自律エージェント」と呼ぶのは、どれほど派手に動いても、デモ以上にならない。

なぜ 2026-05 がこの記事を書く適切なタイミングなのか

2025 年末から 2026 年 5 月にかけて、技術スタックの主要レイヤがほぼ同時に GA を打った。

MCP 仕様 2025-11-25 版で OAuth Resource Server 化と RFC 8707 必須化
LangGraph 1.0 GA（2025-10-22）と OpenAI Agents SDK + Temporal 統合 GA（2026-03-23）
Cloudflare Sandboxes / Workflows GA（2026-04）と Vercel Workflow DevKit GA
Anthropic Memory Tool Public Beta + Adaptive Thinking + Compaction API（Opus 4.6, 2026-02 リリース）
Claude Code Routines 公開（2026-04-14）
OpenTelemetry GenAI semconv v1.37（agent spans は Development、その他は Stable）

つまり「選択肢が出揃った直後」が今だ。これより前は実験段階で技術選定が早すぎ、これより後は新技術の議論ばかりで地図が描きにくくなる。この瞬間に、地図を描く価値がある。

このシリーズで使う言葉の整理

混乱を避けるために、前提の用語を 3 つだけ揃えておく。

「エージェント」：このシリーズでは、Anthropic の定義に従う。「LLM が自律的にツールを選択・実行し、ループで自分の出力を評価しながら目標達成に向かうシステム」。固定ワークフローのチェーン（事前に定義された LLM 呼び出し列）は workflow と呼んで区別する。

「ハーネス」：モデルの外側で、セッション間の状態・計画・進捗・失敗履歴を保つ枠組み。ファイル、メモリ、scratchpad、checkpointer などが含まれる。

「常時稼働」：このシリーズでは「ユーザーの対話セッションを離れて、scheduler / event / webhook を起点に独立して動き続ける」状態を指す。/loop のようにセッション内で連続実行するものは「半常駐」として区別する。

このシリーズの読み方

ch2 で 6 レイヤモデルの全体像を確定させる。それ以降の章は、各レイヤを順に深堀りする。

「先に地図を見たい」人は ch2 だけで十分に役に立つ
「特定のレイヤで詰まっている」人は、症状から逆引きして該当章だけ読む
「通しで世界観を作りたい」人は ch1 → ch10 の順に読む

各章は独立して読めるように書いた。ただし ch3 → ch4 → ch5 の順序だけは依存関係がある（推論レイヤがツール接続を呼び、ツール出力がメモリに溜まる、という流れ）。

それでは、6 レイヤの地図を ch2 で広げよう。

この章のまとめ

AI エージェントが業務に乗らない原因はモデルではなく、周辺の 6 レイヤ：推論・計画、ツール接続、メモリ、実行環境、オーケストレーション、常時稼働、観測の 7 領域に整理できる（最後の 1 つは横串）
「業務投入」の 4 条件：再現可能・耐故障・観測可能・管理可能
2026-05 は地図を描くのに最適なタイミング：MCP / LangGraph / Memory Tool / Routines / OTel GenAI が同時期に GA
このシリーズはフレームワーク非依存に書く：6 レイヤの判断軸を渡し、ベンダ選定の枠組みを残す