AI エージェントを動かし続ける ─ 運用工学の地図

自律的に動く / 常時稼働する AI エージェントを「壊れずに動き続けさせる」ための運用工学を、SRE / Drift / Cost / Memory / Tool failure / HITL SLA / Continuous eval / Incident response の 8 領域で地図化する。三部作の第3部。

AI エージェントを動かし続ける ─ 運用工学の地図

第1部6 レイヤの技術スタックを渡し、第2部8 パターン × 6 トポロジー × HITL 設計でその並べ方を整理した。部品は揃った。

それでもエージェントは壊れる。

  • 月曜の朝、評価指標が突然 15% 落ちている。LLM プロバイダのモデルが checkpoint 更新でドリフトした
  • 朝 7 時に出社すると、夜中に同じツールを 8 時間 retry し続けた agent が $437 のトークンを焼いていた
  • ユーザーから「先週言ったことを覚えていない」とクレームが来る。メモリが汚染されて古い事実が混在している
  • MCP server がダウンした瞬間、すべての agent が同時に retry を始めて トークン破裂
  • HITL の承認 queue に 200 件溜まっていて、業務側が全部 yes を押すようになっている

これらは設計の良し悪しと別の問題だ。動かし続けると必ず起きる現象。これを解くのが運用工学だ。

対象読者

  • 第1部・第2部を読み終えた人(必読)
  • 業務エージェントを 本番で 6 ヶ月以上動かしているソフトウェアエンジニア / SRE
  • 「インシデントが起きると runbook が無い」現状を改善したい運用責任者
  • AI エージェントの error budget を初めて設計するプラットフォームチーム

前提知識:第1部の 6 レイヤ、第2部の 8 パターン × 6 トポロジー × HITL。SRE の基本概念(SLO / SLI / error budget)を一度は読んだことがあると望ましい。

項目
難易度★★★★★
読了時間約 3 時間
対象バージョンAnthropic Sonnet 4.6 / Opus 4.7 / GPT-5.5 / Gemini 3.1 Pro / MCP 2025-11-25 / OTel GenAI semconv v1.37
シリーズ構成10 章

読み終わったときに何ができるようになるか

このシリーズを読み終えると、次の 5 つができるようになる。

  1. AI エージェント向けの SLO / SLI を設計できる。古典的な SRE の概念を AI 文脈に翻訳できる
  2. Drift(モデル / プロンプト / データ)を検出・対応できる。モデル退役・プロンプト退行・データ分布変化に備えられる
  3. コスト破裂を kill switch で防ぐ。alert ではなく enforcement の設計ができる
  4. メモリ汚染・Tool failure・連鎖崩壊を遮断する設計ができる
  5. インシデントを runbook 化し、on-call ローテーションを回せる。「Agent が暴走している」を 5 分で止められる

逆に、このシリーズでやらないこと:

  • 個別フレームワーク(LangGraph / Temporal / Datadog)の SDK チュートリアル
  • ML の eval 数学(カバレッジ・分散・統計検定)の深い解説
  • 個別ベンダ製品の選定基準(第1部 ch9 で扱った)

三部作の最終部

第1部 [完結] 技術スタック編          ──「何があるか」
第2部 [完結] アーキテクチャパターン編   ──「どう組み合わせるか」
第3部 [本作] 運用工学編              ──「壊れずに動き続けさせる」

第1部は部品、第2部は、第3部は生かし方。3 つを合わせて読むと、自社で自律エージェントを業務に投入する全工程の地図が完成する。

既存シリーズとの伏線

本作は次の既存シリーズと接続している:

読み方

  • A. 通読:ch1 → ch10 を順に。SRE 観点でエージェント運用の全体像を構築する
  • B. 関心領域からつまみ食い:Drift → ch3 / コスト → ch4 / メモリ → ch5 / Tool failure → ch6 / HITL → ch7 / eval → ch8 / インシデント → ch9
  • C. リファレンス:ch9 の Runbook 集と ch10 の三部作チェックリストを起点に逆引き

シリーズ構成

テーマ
1プロローグ ─ 動くものから動き続けるものへ
2SRE for AI agents ─ SLO / SLI と error budget
3Drift ─ モデル / プロンプト / データの 3 種
4Cost runaway ─ alert ではなく kill switch
5Memory poisoning ─ 温存・浄化・隔離の 3 戦略
6Tool failure と連鎖遮断 ─ Circuit Breaker と Bulkhead
7HITL の SLA 設計 ─ 承認遅延・エスカレーション・フォールバック
8Continuous evaluation in production ─ tail-based sampling と judge drift
9Incident response & Runbook ─ 6 種のインシデントを 5 分で止める
10エピローグ ─ 三部作統合と参考文献

このシリーズの立ち位置

世の中には「LLMOps」「AgentOps」「FinOps for AI」など、運用系の言葉が氾濫している。だが、**自律エージェント特有の「動き続けると起きること」**を体系的に整理した日本語のリファレンスは少ない。

このシリーズは、SRE / DevOps の古典(Google SRE 本、Site Reliability Workbook)を AI エージェント文脈に翻訳して提示する。さらに、2025-2026 年に観測された $47,000 の暴走事故、cache TTL silent regression、memory poisoning の 50 件の実例 ── これらの現実の事件から、運用工学の知見を蒸留する。

読み終わった時、自分のチームで動かしているエージェントの運用習慣が変わっていることが目標だ。「動いている」と「動き続ける」の違いに、明確な意識を持てるようになる。

それでは、まず「動くもの」から「動き続けるもの」へ、何が必要かを ch1 で確認しよう。

目次

  1. プロローグ ─ 動くものから動き続けるものへ 第1部・第2部を前提に、第3部の問題提起をする。「動くもの」と「動き続けるもの」の間にある壁を、$47,000 の暴走事故・cache TTL 退行・memory poisoning 50 件などの実例で示す。
  2. SRE for AI agents ─ SLO / SLI と error budget 古典 SRE(Google SRE 本)を AI エージェント文脈に翻訳する。古典 SLI に加えて、Task Completion Rate / Tool Invocation Efficiency / Decision Quality / Cost per Task の 4 つの agentic SLI を導入し、「動き続けながら壊れる」前提の SLO 設計を示す。
  3. Drift ─ モデル / プロンプト / データの 3 種 AI エージェントが時間経過で挙動を変える 3 種類のドリフトを実例で整理する。Sonnet 4 / Opus 4 の 6/15 retire、prompt cache TTL silent regression、RAG コーパス更新による invisible decay。検知と対処を実装の解像度で扱う。
  4. Cost runaway ─ alert ではなく kill switch $47,000 / $437 暴走の実例から、トークン予算管理を「alert」ではなく「kill switch」として実装する設計を扱う。85/10/5 split のモデルルーティング、prompt cache の運用(5 分 vs 1 時間)、Batch API(50% 引き)の組み合わせを実装の解像度で。
  5. Memory poisoning ─ 温存・浄化・隔離の 3 戦略 長期メモリを持つエージェント特有の故障である Memory poisoning を扱う。Microsoft 観測の 50 件キャンペーン、Manus の sibling task 漏れ、3 戦略(温存・浄化・隔離)と検知(AgentDojo)を実装の解像度で。
  6. Tool failure と連鎖遮断 ─ Circuit Breaker と Bulkhead 外部依存(MCP server / API / DB)が落ちたとき、エージェントが retry ループでコストを焼く現象を扱う。Circuit Breaker / Bulkhead / Saga / Idempotency / Cheap-model-first の連鎖遮断パターンを実装の解像度で。
  7. HITL の SLA 設計 ─ 承認遅延・エスカレーション・フォールバック 承認 queue overflow / 承認疲れの運用問題を SLA で設計する。Tier-based escalation、SLA 違反時のフォールバック、queue overflow の検知・対処を実装の解像度で。第2部 ch5 の HITL 設計を運用フェーズで深掘りする。
  8. Continuous evaluation in production ─ tail-based sampling と judge drift Production traffic 上で品質を継続検証する設計を扱う。tail-based sampling、judge drift、capability-based canary、shadow deployment、CI と production の二層 eval を実装の解像度で。
  9. Incident response & Runbook ─ 6 種のインシデントを 5 分で止める AI エージェント特有のインシデント 6 種を分類し、Runbook 化する。「Agent が暴走している」を 5 分で止める手順、on-call ローテーション、audit log の運用を実装の解像度で。
  10. エピローグ ─ 三部作統合と参考文献 三部作(技術スタック / アーキテクチャパターン / 運用工学)を統合する。総合チェックリスト、姉妹シリーズとの接続、次のステップ、参考文献を整理する。