AI エージェントを動かし続ける ─ 運用工学の地図

第1部で 6 レイヤの技術スタックを渡し、第2部で 8 パターン × 6 トポロジー × HITL 設計でその並べ方を整理した。部品と形は揃った。

それでもエージェントは壊れる。

月曜の朝、評価指標が突然 15% 落ちている。LLM プロバイダのモデルが checkpoint 更新でドリフトした
朝 7 時に出社すると、夜中に同じツールを 8 時間 retry し続けた agent が $437 のトークンを焼いていた
ユーザーから「先週言ったことを覚えていない」とクレームが来る。メモリが汚染されて古い事実が混在している
MCP server がダウンした瞬間、すべての agent が同時に retry を始めて トークン破裂
HITL の承認 queue に 200 件溜まっていて、業務側が全部 yes を押すようになっている

これらは設計の良し悪しと別の問題だ。動かし続けると必ず起きる現象。これを解くのが運用工学だ。

対象読者

第1部・第2部を読み終えた人（必読）
業務エージェントを 本番で 6 ヶ月以上動かしているソフトウェアエンジニア / SRE
「インシデントが起きると runbook が無い」現状を改善したい運用責任者
AI エージェントの error budget を初めて設計するプラットフォームチーム

前提知識：第1部の 6 レイヤ、第2部の 8 パターン × 6 トポロジー × HITL。SRE の基本概念（SLO / SLI / error budget）を一度は読んだことがあると望ましい。

項目	値
難易度	★★★★★
読了時間	約 3 時間
対象バージョン	Anthropic Sonnet 4.6 / Opus 4.7 / GPT-5.5 / Gemini 3.1 Pro / MCP 2025-11-25 / OTel GenAI semconv v1.37
シリーズ構成	10 章

読み終わったときに何ができるようになるか

このシリーズを読み終えると、次の 5 つができるようになる。

AI エージェント向けの SLO / SLI を設計できる。古典的な SRE の概念を AI 文脈に翻訳できる
Drift（モデル / プロンプト / データ）を検出・対応できる。モデル退役・プロンプト退行・データ分布変化に備えられる
コスト破裂を kill switch で防ぐ。alert ではなく enforcement の設計ができる
メモリ汚染・Tool failure・連鎖崩壊を遮断する設計ができる
インシデントを runbook 化し、on-call ローテーションを回せる。「Agent が暴走している」を 5 分で止められる

逆に、このシリーズでやらないこと：

個別フレームワーク（LangGraph / Temporal / Datadog）の SDK チュートリアル
ML の eval 数学（カバレッジ・分散・統計検定）の深い解説
個別ベンダ製品の選定基準（第1部 ch9 で扱った）

三部作の最終部

第1部 [完結] 技術スタック編          ──「何があるか」
第2部 [完結] アーキテクチャパターン編   ──「どう組み合わせるか」
第3部 [本作] 運用工学編              ──「壊れずに動き続けさせる」

第1部は部品、第2部は形、第3部は生かし方。3 つを合わせて読むと、自社で自律エージェントを業務に投入する全工程の地図が完成する。

既存シリーズとの伏線

本作は次の既存シリーズと接続している：

第1部 AI エージェントを業務に乗せる ─ 技術スタックの地図
第2部 AI エージェントを業務に組む ─ アーキテクチャパターンの地図
姉妹シリーズ Claude Code 自走の作法：本作 ch10 で三部作の地図と統合する
関連シリーズ ハーネスエンジニアリング

読み方

A. 通読：ch1 → ch10 を順に。SRE 観点でエージェント運用の全体像を構築する
B. 関心領域からつまみ食い：Drift → ch3 / コスト → ch4 / メモリ → ch5 / Tool failure → ch6 / HITL → ch7 / eval → ch8 / インシデント → ch9
C. リファレンス：ch9 の Runbook 集と ch10 の三部作チェックリストを起点に逆引き

シリーズ構成

章	テーマ
1	プロローグ ─ 動くものから動き続けるものへ
2	SRE for AI agents ─ SLO / SLI と error budget
3	Drift ─ モデル / プロンプト / データの 3 種
4	Cost runaway ─ alert ではなく kill switch
5	Memory poisoning ─ 温存・浄化・隔離の 3 戦略
6	Tool failure と連鎖遮断 ─ Circuit Breaker と Bulkhead
7	HITL の SLA 設計 ─ 承認遅延・エスカレーション・フォールバック
8	Continuous evaluation in production ─ tail-based sampling と judge drift
9	Incident response & Runbook ─ 6 種のインシデントを 5 分で止める
10	エピローグ ─ 三部作統合と参考文献

このシリーズの立ち位置

世の中には「LLMOps」「AgentOps」「FinOps for AI」など、運用系の言葉が氾濫している。だが、**自律エージェント特有の「動き続けると起きること」**を体系的に整理した日本語のリファレンスは少ない。

このシリーズは、SRE / DevOps の古典（Google SRE 本、Site Reliability Workbook）を AI エージェント文脈に翻訳して提示する。さらに、2025-2026 年に観測された $47,000 の暴走事故、cache TTL silent regression、memory poisoning の 50 件の実例 ── これらの現実の事件から、運用工学の知見を蒸留する。

読み終わった時、自分のチームで動かしているエージェントの運用習慣が変わっていることが目標だ。「動いている」と「動き続ける」の違いに、明確な意識を持てるようになる。

それでは、まず「動くもの」から「動き続けるもの」へ、何が必要かを ch1 で確認しよう。

AI エージェントを動かし続ける ─ 運用工学の地図

対象読者

読み終わったときに何ができるようになるか

三部作の最終部

既存シリーズとの伏線

読み方

シリーズ構成

このシリーズの立ち位置

目次