目次を表示する

AI エージェントを業務に乗せる ─ 技術スタックの地図

プロローグ ─ Demo は動くのに、業務には乗らない

プロローグ ─ Demo は動くのに、業務には乗らない

2025 年は「エージェントの年」と呼ばれた。Cognition の Devin が SWE-bench を 13.86% で解き、Manus AI が招待制ながら 50 万人の待機リストを集め、OpenAI が ChatGPT Agent と Operator を統合し、Anthropic が Claude Code Routines をクラウドで動かし始めた。Computer Use は OSWorld(arXiv:2404.07972)で 人間ベースライン 72.36% を超え、Mythos Preview が 79.6% を出した。

それなのに、自社の業務に AI エージェントを投入しようとすると、ほぼ全員がどこかで詰まる

  • ローカルで動く Cursor のエージェントを、社内ナレッジ検索エージェントとして移植したら、長いセッションでメモリが破綻する
  • Computer Use を社内ポータルの自動化に使ったら、CAPTCHA とサンドボックス escape リスクで本番に出せない
  • LangGraph で組んだマルチエージェントが、5 ステップ中の 3 ステップ目でクラッシュした瞬間に最初からやり直しになる
  • Claude Code Routines を試したら動いたが、社内データを連携させる安全な経路が見つからない

これらは「LLM の精度が足りない」という問題ではない。モデルの周りに積み上げる「ハーネス」が、自社の業務文脈に合っていないという問題だ。

「Demo」と「業務投入」の間にある 6 つの壁

Anthropic の Engineering ブログは、2025 年から繰り返しこう書いている。

Agent = Model + Harness

2025 はモデル性能の年だった。2026 はハーネス設計の年になる。

「ハーネス」とは、モデルがセッションを跨いで業務を完遂するために必要な、モデル外側の枠組みのことだ。具体的には次の 6 つの層からなる。

graph TD
    A[<b>推論・計画</b><br/>Extended Thinking / Orchestrator-Worker]
    B[<b>ツール接続</b><br/>MCP / Computer Use / Advanced Tool Use]
    C[<b>メモリ・コンテキスト</b><br/>4 種のメモリ / Compaction / Sleep-time]
    D[<b>実行環境</b><br/>Firecracker / 永続 sandbox / Egress 制御]
    E[<b>オーケストレーション</b><br/>Durable Execution / Journal+Replay]
    F[<b>常時稼働の駆動</b><br/>Schedule × Event × Command]
    G[<b>観測・ガバナンス</b><br/>OTel / 3 層 Eval / OWASP Agentic Top 10]

    M[Model] --> A
    A --> B
    B --> C
    C --> D
    D --> E
    E --> F
    F --> G
    G -.observe.-> M

デモは、この 6 レイヤすべてを「都合よく組まれた状態」で見せている。だから、自社で再現するには、自分のコンテキストで 6 レイヤすべてを組み直す必要がある

6 つの壁、それぞれの正体

それぞれの壁が何を意味するか、先取りで一覧する。これがそのままこのシリーズの章立てになる。

症状(業務側で起きる現象)根本原因
推論・計画5 ステップ目で計画が破綻する/ツール選択が頻繁に間違うExtended Thinking のブロックを保持していない、Plan-and-Act の分離ができていない
ツール接続Function Calling は動くが、20 個以上のツールで精度が落ちる/MCP server が信用できないTool Search / Programmatic Tool Calling を使っていない、MCP の OAuth 2.1 + RFC 8707 を満たしていない
メモリ・コンテキスト長セッションで context window が破綻する/前回会話を覚えていないCompaction なし、外部メモリなし、4 種メモリの分離なし
実行環境Computer Use が本番に出せない/Code Interpreter のコストが破裂するFirecracker microVM の隔離なし、egress policy なし、永続 sandbox の二段構えなし
オーケストレーションクラッシュ時に最初からやり直しになる/HITL が組み込めないDurable Execution の journal+replay なし
常時稼働の駆動cron で動かしたいが、event-driven にもしたい/Routines を試したが社内データを渡せないSchedule × Event × Command の 3 軸トリガがない

「業務に投入する」とはどういうことか

このシリーズで言う「業務投入」とは、次の 4 条件を満たすことだ。

  1. 再現可能:同じ入力で同じ品質の出力が、運によらず出る
  2. 耐故障:途中でクラッシュしても、完了済みの作業をやり直さない
  3. 観測可能:失敗の原因を、コードを読み返さずに特定できる
  4. 管理可能:誰が・いつ・どの権限で・何を実行したか、監査ログで追える

この 4 条件は「サービス運用」の世界では当たり前のものだ。AI エージェントを「サービス」として扱うなら、これを満たさない選択肢はない。逆に、この 4 条件を満たさないものを「自律エージェント」と呼ぶのは、どれほど派手に動いても、デモ以上にならない。

なぜ 2026-05 がこの記事を書く適切なタイミングなのか

2025 年末から 2026 年 5 月にかけて、技術スタックの主要レイヤがほぼ同時に GA を打った

  • MCP 仕様 2025-11-25 版で OAuth Resource Server 化と RFC 8707 必須化
  • LangGraph 1.0 GA(2025-10-22)と OpenAI Agents SDK + Temporal 統合 GA(2026-03-23)
  • Cloudflare Sandboxes / Workflows GA(2026-04)と Vercel Workflow DevKit GA
  • Anthropic Memory Tool Public Beta + Adaptive Thinking + Compaction API(Opus 4.6, 2026-02 リリース)
  • Claude Code Routines 公開(2026-04-14)
  • OpenTelemetry GenAI semconv v1.37(agent spans は Development、その他は Stable)

つまり「選択肢が出揃った直後」が今だ。これより前は実験段階で技術選定が早すぎ、これより後は新技術の議論ばかりで地図が描きにくくなる。この瞬間に、地図を描く価値がある

このシリーズで使う言葉の整理

混乱を避けるために、前提の用語を 3 つだけ揃えておく。

「エージェント」:このシリーズでは、Anthropic の定義に従う。「LLM が自律的にツールを選択・実行し、ループで自分の出力を評価しながら目標達成に向かうシステム」。固定ワークフローのチェーン(事前に定義された LLM 呼び出し列)は workflow と呼んで区別する。

「ハーネス」:モデルの外側で、セッション間の状態・計画・進捗・失敗履歴を保つ枠組み。ファイル、メモリ、scratchpad、checkpointer などが含まれる。

「常時稼働」:このシリーズでは「ユーザーの対話セッションを離れて、scheduler / event / webhook を起点に独立して動き続ける」状態を指す。/loop のようにセッション内で連続実行するものは「半常駐」として区別する。

このシリーズの読み方

ch2 で 6 レイヤモデルの全体像を確定させる。それ以降の章は、各レイヤを順に深堀りする。

  • 先に地図を見たい」人は ch2 だけで十分に役に立つ
  • 特定のレイヤで詰まっている」人は、症状から逆引きして該当章だけ読む
  • 通しで世界観を作りたい」人は ch1 → ch10 の順に読む

各章は独立して読めるように書いた。ただし ch3 → ch4 → ch5 の順序だけは依存関係がある(推論レイヤがツール接続を呼び、ツール出力がメモリに溜まる、という流れ)。

それでは、6 レイヤの地図を ch2 で広げよう。


この章のまとめ

  • AI エージェントが業務に乗らない原因はモデルではなく、周辺の 6 レイヤ:推論・計画、ツール接続、メモリ、実行環境、オーケストレーション、常時稼働、観測の 7 領域に整理できる(最後の 1 つは横串)
  • 「業務投入」の 4 条件:再現可能・耐故障・観測可能・管理可能
  • 2026-05 は地図を描くのに最適なタイミング:MCP / LangGraph / Memory Tool / Routines / OTel GenAI が同時期に GA
  • このシリーズはフレームワーク非依存に書く:6 レイヤの判断軸を渡し、ベンダ選定の枠組みを残す