AI エージェントを動かし続ける ─ 運用工学の地図
自律的に動く / 常時稼働する AI エージェントを「壊れずに動き続けさせる」ための運用工学を、SRE / Drift / Cost / Memory / Tool failure / HITL SLA / Continuous eval / Incident response の 8 領域で地図化する。三部作の第3部。
AI エージェントを動かし続ける ─ 運用工学の地図
第1部 で 6 レイヤの技術スタックを渡し、第2部 で 8 パターン × 6 トポロジー × HITL 設計でその並べ方を整理した。部品と形は揃った。
それでもエージェントは壊れる。
- 月曜の朝、評価指標が突然 15% 落ちている。LLM プロバイダのモデルが checkpoint 更新でドリフトした
- 朝 7 時に出社すると、夜中に同じツールを 8 時間 retry し続けた agent が $437 のトークンを焼いていた
- ユーザーから「先週言ったことを覚えていない」とクレームが来る。メモリが汚染されて古い事実が混在している
- MCP server がダウンした瞬間、すべての agent が同時に retry を始めて トークン破裂
- HITL の承認 queue に 200 件溜まっていて、業務側が全部 yes を押すようになっている
これらは設計の良し悪しと別の問題だ。動かし続けると必ず起きる現象。これを解くのが運用工学だ。
対象読者
- 第1部・第2部を読み終えた人(必読)
- 業務エージェントを 本番で 6 ヶ月以上動かしているソフトウェアエンジニア / SRE
- 「インシデントが起きると runbook が無い」現状を改善したい運用責任者
- AI エージェントの error budget を初めて設計するプラットフォームチーム
前提知識:第1部の 6 レイヤ、第2部の 8 パターン × 6 トポロジー × HITL。SRE の基本概念(SLO / SLI / error budget)を一度は読んだことがあると望ましい。
| 項目 | 値 |
|---|---|
| 難易度 | ★★★★★ |
| 読了時間 | 約 3 時間 |
| 対象バージョン | Anthropic Sonnet 4.6 / Opus 4.7 / GPT-5.5 / Gemini 3.1 Pro / MCP 2025-11-25 / OTel GenAI semconv v1.37 |
| シリーズ構成 | 10 章 |
読み終わったときに何ができるようになるか
このシリーズを読み終えると、次の 5 つができるようになる。
- AI エージェント向けの SLO / SLI を設計できる。古典的な SRE の概念を AI 文脈に翻訳できる
- Drift(モデル / プロンプト / データ)を検出・対応できる。モデル退役・プロンプト退行・データ分布変化に備えられる
- コスト破裂を kill switch で防ぐ。alert ではなく enforcement の設計ができる
- メモリ汚染・Tool failure・連鎖崩壊を遮断する設計ができる
- インシデントを runbook 化し、on-call ローテーションを回せる。「Agent が暴走している」を 5 分で止められる
逆に、このシリーズでやらないこと:
- 個別フレームワーク(LangGraph / Temporal / Datadog)の SDK チュートリアル
- ML の eval 数学(カバレッジ・分散・統計検定)の深い解説
- 個別ベンダ製品の選定基準(第1部 ch9 で扱った)
三部作の最終部
第1部 [完結] 技術スタック編 ──「何があるか」
第2部 [完結] アーキテクチャパターン編 ──「どう組み合わせるか」
第3部 [本作] 運用工学編 ──「壊れずに動き続けさせる」
第1部は部品、第2部は形、第3部は生かし方。3 つを合わせて読むと、自社で自律エージェントを業務に投入する全工程の地図が完成する。
既存シリーズとの伏線
本作は次の既存シリーズと接続している:
- 第1部 AI エージェントを業務に乗せる ─ 技術スタックの地図
- 第2部 AI エージェントを業務に組む ─ アーキテクチャパターンの地図
- 姉妹シリーズ Claude Code 自走の作法:本作 ch10 で三部作の地図と統合する
- 関連シリーズ ハーネスエンジニアリング
読み方
- A. 通読:ch1 → ch10 を順に。SRE 観点でエージェント運用の全体像を構築する
- B. 関心領域からつまみ食い:Drift → ch3 / コスト → ch4 / メモリ → ch5 / Tool failure → ch6 / HITL → ch7 / eval → ch8 / インシデント → ch9
- C. リファレンス:ch9 の Runbook 集と ch10 の三部作チェックリストを起点に逆引き
シリーズ構成
このシリーズの立ち位置
世の中には「LLMOps」「AgentOps」「FinOps for AI」など、運用系の言葉が氾濫している。だが、**自律エージェント特有の「動き続けると起きること」**を体系的に整理した日本語のリファレンスは少ない。
このシリーズは、SRE / DevOps の古典(Google SRE 本、Site Reliability Workbook)を AI エージェント文脈に翻訳して提示する。さらに、2025-2026 年に観測された $47,000 の暴走事故、cache TTL silent regression、memory poisoning の 50 件の実例 ── これらの現実の事件から、運用工学の知見を蒸留する。
読み終わった時、自分のチームで動かしているエージェントの運用習慣が変わっていることが目標だ。「動いている」と「動き続ける」の違いに、明確な意識を持てるようになる。
それでは、まず「動くもの」から「動き続けるもの」へ、何が必要かを ch1 で確認しよう。
目次
- プロローグ ─ 動くものから動き続けるものへ 第1部・第2部を前提に、第3部の問題提起をする。「動くもの」と「動き続けるもの」の間にある壁を、$47,000 の暴走事故・cache TTL 退行・memory poisoning 50 件などの実例で示す。
- SRE for AI agents ─ SLO / SLI と error budget 古典 SRE(Google SRE 本)を AI エージェント文脈に翻訳する。古典 SLI に加えて、Task Completion Rate / Tool Invocation Efficiency / Decision Quality / Cost per Task の 4 つの agentic SLI を導入し、「動き続けながら壊れる」前提の SLO 設計を示す。
- Drift ─ モデル / プロンプト / データの 3 種 AI エージェントが時間経過で挙動を変える 3 種類のドリフトを実例で整理する。Sonnet 4 / Opus 4 の 6/15 retire、prompt cache TTL silent regression、RAG コーパス更新による invisible decay。検知と対処を実装の解像度で扱う。
- Cost runaway ─ alert ではなく kill switch $47,000 / $437 暴走の実例から、トークン予算管理を「alert」ではなく「kill switch」として実装する設計を扱う。85/10/5 split のモデルルーティング、prompt cache の運用(5 分 vs 1 時間)、Batch API(50% 引き)の組み合わせを実装の解像度で。
- Memory poisoning ─ 温存・浄化・隔離の 3 戦略 長期メモリを持つエージェント特有の故障である Memory poisoning を扱う。Microsoft 観測の 50 件キャンペーン、Manus の sibling task 漏れ、3 戦略(温存・浄化・隔離)と検知(AgentDojo)を実装の解像度で。
- Tool failure と連鎖遮断 ─ Circuit Breaker と Bulkhead 外部依存(MCP server / API / DB)が落ちたとき、エージェントが retry ループでコストを焼く現象を扱う。Circuit Breaker / Bulkhead / Saga / Idempotency / Cheap-model-first の連鎖遮断パターンを実装の解像度で。
- HITL の SLA 設計 ─ 承認遅延・エスカレーション・フォールバック 承認 queue overflow / 承認疲れの運用問題を SLA で設計する。Tier-based escalation、SLA 違反時のフォールバック、queue overflow の検知・対処を実装の解像度で。第2部 ch5 の HITL 設計を運用フェーズで深掘りする。
- Continuous evaluation in production ─ tail-based sampling と judge drift Production traffic 上で品質を継続検証する設計を扱う。tail-based sampling、judge drift、capability-based canary、shadow deployment、CI と production の二層 eval を実装の解像度で。
- Incident response & Runbook ─ 6 種のインシデントを 5 分で止める AI エージェント特有のインシデント 6 種を分類し、Runbook 化する。「Agent が暴走している」を 5 分で止める手順、on-call ローテーション、audit log の運用を実装の解像度で。
- エピローグ ─ 三部作統合と参考文献 三部作(技術スタック / アーキテクチャパターン / 運用工学)を統合する。総合チェックリスト、姉妹シリーズとの接続、次のステップ、参考文献を整理する。