第6章 Level 4：ガードレール付き自律型 ── ポリシーが監視する、人間は境界を設定する

2026/04/26

第6章 Level 4：ガードレール付き自律型 ── ポリシーが監視する、人間は境界を設定する

Level 3 との断絶

Level 3では、人間はタスクの「開始と終了」に関与した。計画を承認し、結果をレビューする。

Level 4では、人間は「境界の設定」にのみ関与する。「こういう範囲で・こういうポリシーに従って・こういう場合はエスカレーションせよ」を定義する。その後は、タスク単位での人間承認なしにAIが継続的に稼働する。

Level 3：
  タスクA → 承認 → 実行 → 確認
  タスクB → 承認 → 実行 → 確認    （タスクごとに人間が関与）

Level 4：
  ポリシー設定 → エージェントが継続稼働
                    ├─ タスクA（自律処理）
                    ├─ タスクB（自律処理）
                    ├─ タスクC（自律処理）
                    └─ タスクD（ポリシー範囲外 → エスカレーション）

この変化は「信頼の単位」を変える。Level 3では「このタスクをこのエージェントに任せてよいか」を毎回判断する。Level 4では「このポリシーはこのエージェントを適切に制御できるか」という一段抽象度の高い信頼を持てるかどうかが鍵だ。

代表的なプロダクト

Sierra（Sierra AI）

コンセプト：企業向けのカスタマーサービスエージェントプラットフォーム。ブランド・ポリシー・ナレッジベースを与えることで、そのブランドになりきって顧客の問い合わせを24時間365日自律処理する。

AIの動き：

顧客が問い合わせを入力すると、Sierraのエージェントがトリアージ・情報検索・回答を自律実行
注文変更・返金申請・アカウント設定変更などのアクションをシステムAPIを通じて実行
ポリシー違反・感情的な escalation・高難易度ケースを検出して人間エージェントに引き継ぐ

事例数字：

1日に何百万件もの会話を処理
Sierraを使った一企業では、AIが会話の84%を解決、人間エスカレーションは2%

設計の工夫（Sierra独自のアーキテクチャ）：

Sierraが「Enterprise-grade agent」を実現するために採用しているのが「コンステレーションアーキテクチャ」だ。単一の大きなLLMを使うのではなく、複数の専門モデルが協調して動く。

graph TD
    subgraph Sierra["Sierra コンステレーションアーキテクチャ"]
        IN["インプット<br/>フィルタリング層<br/>（プロンプトインジェクション検知）"]
        TA["タスク実行<br/>エージェント<br/>（主エージェント）"]
        SU["スーパーバイザー<br/>エージェント<br/>（品質監視）"]
        KN["ナレッジ<br/>検索エージェント<br/>（RAG）"]
        AC["アクション<br/>実行層<br/>（API呼び出し）"]
        OU["アウトプット<br/>フィルタリング層<br/>（有害コンテンツ検知）"]
    end

    IN --> TA
    TA <--> SU
    TA <--> KN
    TA --> AC
    AC --> OU

    SU -.->|"ポリシー違反検知"| ESC["人間エージェントへ<br/>エスカレーション"]

四層のガードレール：

システム層：入力のフィルタリング（プロンプトインジェクション・ジェイルブレイク検知）
スーパーバイザー層：主エージェントの出力を別モデルが監視・修正
Adversarial Testing：レッドチームによる事前の攻撃テスト
自動化された行動QM：本番会話の継続的サンプリングと品質検証

Intercom Fin（Intercom）

コンセプト：カスタマーサポート特化のAIエージェント。既存のヘルプセンター・FAQ・ドキュメントを知識源として、顧客の問い合わせを自律処理する。

AIの動き：

顧客の問い合わせを受け取り、ナレッジベースから関連情報を検索・統合
自信度スコアを計算し、閾値を超えた場合のみ自律で回答
解決できない場合・感情的なケースを人間エージェントに引き継ぐ

設計の工夫：

信頼度スコアによる二段階ルーティング：

高信頼度 → Finが自律回答
低信頼度 → 人間エージェントに転送
           （全会話履歴・抽出エンティティ・試みた解決策・推奨アクション付きで）

ハンドオフ時に顧客が「また最初から説明しなければならない」摩擦を排除する設計だ。人間エージェントが引き継ぐときは、AIが何を試みたかが完全に把握できる状態で始まる。

Proceduresによる決定木の自然言語化：従来のif-this-then-thatのルール定義（コーディングが必要）を、自然言語で「もしユーザーが〇〇を言ったら、まず△△を確認し、それでも解決しなければ人間に転送せよ」と書けるようにした。技術者以外がポリシーを定義できる。

Zendesk AI Agent（Zendesk）

コンセプト：チケットベースのカスタマーサポート業務に統合されたAIエージェント。チケットの分類・優先度付け・自動回答・エスカレーションを一元管理する。

AIの動き：

チケット受信時に内容を分析し、カテゴリ・感情・緊急度を自動判断
ナレッジベースと照合し、自信度スコアが閾値以上であれば自律回答
自動回答後に「この回答は役立ちましたか？」のFBを収集し、モデルを継続改善

設計の工夫：

信頼度閾値の管理：デフォルト閾値は60（0-100スケール）。閾値を上げると精度が上がるが、Finが対応できるケースが減る。各組織がビジネスリスクに応じて閾値を調整できる。

閾値調整の考え方

高閾値（80+): 精度優先
  → AIが答える比率が下がる
  → 人間コスト増だが、誤回答リスク低

低閾値(40-): カバレッジ優先
  → AIが答える比率が上がる
  → コスト効率高だが、誤回答リスク増

適切な閾値は業種・チケット種類によって異なる

Glean Agents（Glean）

コンセプト：エンタープライズ全体のデータ（Slack・メール・Confluence・Salesforce・GitHub等100+システム）を組織コンテキストとして持ち、部門横断の業務プロセスをエージェントが自律実行する。

AIの動き：

営業レポートの自動生成（CRM・会議メモ・メールを統合）
新入社員のオンボーディング質問対応（社内ドキュメントをナレッジソースとして）
定例業務（週次サマリー・ステータスレポート）の自動化

設計の工夫：

ガバナンスフレームワーク：どのデータにどのエージェントがアクセスできるかを既存のACLに基づいて制御（人事データは人事担当のみ参照できるエージェントのみが見られる）
自己評価ループ：エージェントが出力を生成する前に、「この出力がガバナンスポリシーに準拠しているか」を自分で評価する
エンタープライズコンテキスト：組織図・役割・チーム関係を理解した上での推論（「このメールを誰に転送すべきか」の判断など）

Level 4 の設計原則

原則1：ポリシーを階層化する

すべての指示に同じ強度のガードレールをかけることはできない。Sierraが採用した「許容レベル別の分類」が実践的な回答だ。

ガードレール階層の例

🔴 絶対遵守（完全制約）
   - 個人情報の外部送信禁止
   - 反社的な回答の禁止
   - 法的に問題のある情報の提供禁止

🟡 強い制約（判断を要する）
   - ブランドガイドラインの遵守
   - 競合他社への言及方法
   - 返金ポリシーの適用範囲

🟢 柔軟な実行（精神を守る）
   - トーン・言葉遣いの調整
   - 回答の詳細度
   - 文化的なニュアンス

原則2：エスカレーション設計を最初に行う

Level 4でよく起きる失敗は、「エスカレーション設計」を後回しにすることだ。AIが対応できないケースが発生したとき、どうするかを事前に決めておかないと、AIが誤った回答を出し続けたり、顧客が解決策なしに迷子になったりする。

flowchart TD
    A["顧客の問い合わせ受信"]
    B{"意図の理解<br/>可能か？"}
    C{"ナレッジベースに<br/>回答があるか？"}
    D{"信頼度スコア<br/>閾値を超えるか？"}
    E["自律回答"]
    F{"顧客が解決<br/>したか？"}
    G["会話終了"]
    H["人間エージェントへ転送<br/>（全履歴・コンテキスト付き）"]

    A --> B
    B -- No --> H
    B -- Yes --> C
    C -- No --> H
    C -- Yes --> D
    D -- No --> H
    D -- Yes --> E
    E --> F
    F -- Yes --> G
    F -- No --> H

    style H fill:#f8d7da,stroke:#721c24

エスカレーション時に何を渡すかの設計も重要だ。「会話全文」「抽出されたエンティティ」「試みた解決策」「推奨される次のアクション」——これらがセットで渡されて初めて、人間エージェントが「最初から説明し直し」を顧客に求めずに済む。

原則3：継続的な品質監視と改善ループ

Level 4のエージェントは「デプロイして終わり」ではない。本番稼働中の会話を継続的にサンプリングし、品質を評価し、問題を発見し、改善するループが不可欠だ。

Sierraは「Post-conversation Analysis」として、高速な検出モデルと精密な推論モデルを組み合わせて、本番会話の品質を継続的に評価している。

継続的改善ループ

本番会話 → サンプリング → 品質評価
                              ↓
                 ポリシー・ナレッジベース更新
                              ↓
                    次の本番会話の品質向上

原則4：「1万件に1件のハルシネーション」を前提として設計する

Sierraのブログが指摘するように、「1万件に1件のハルシネーション率」はL4では許容できない。1日100万件の会話を処理する場合、毎日100件の誤回答が出ることを意味するからだ。

Level 4の設計は「エラーをゼロにする」ではなく「エラー率を許容範囲内に維持し続ける」という工学的アプローチをとる。確率の問題をエンジニアリングの問題に変換する。

Level 4 の価値と限界

価値：

スケーラビリティ：人間エージェントを増やさずに対応量を増やせる
24/365稼働：深夜・休日の問い合わせも即時対応
一貫性：人間のコンディション変動（疲れ・感情）に影響されない回答品質

限界：

ドメイン範囲の制約：ポリシーで定義された範囲外の問題は対応できない
新しいタイプの問題への対応遅れ：学習データにない状況への適応が遅い
高い初期設定コスト：ポリシー定義・ナレッジベース整備・ガードレール設計に相当な工数がかかる

次章では、これらのレベルを横断するデザインパターンと実装の工夫を整理する。