第9章 エピローグ ── 問うべきは「どのレベルか」ではなく「なぜそのレベルか」
整理のための地図
本シリーズが提示した4レベルの分類と代表プロダクトを最後に一枚の地図として整理する。
graph TD
subgraph L1["Level 1:補完・提案型"]
direction LR
L1P["Gmail Smart Reply<br/>GitHub Copilot補完<br/>Grammarly<br/>Perplexity"]
L1C["AIが候補生成<br/>人間が選択・実行<br/>失敗のコストゼロ"]
end
subgraph L2["Level 2:コパイロット型"]
direction LR
L2P["Notion AI<br/>GitHub Copilot Chat<br/>Figma AI<br/>M365 Copilot"]
L2C["AIがコンテキスト理解して能動的提案<br/>人間が承認・修正・棄却<br/>広いコンテキスト管理が品質を決める"]
end
subgraph L3["Level 3:監督付き自律実行型"]
direction LR
L3P["Claude Code<br/>Devin<br/>GitHub Copilot Agent<br/>Agentforce"]
L3C["AIが計画→自律実行<br/>人間が計画承認・結果確認<br/>サンドボックス+観測可能性が必須"]
end
subgraph L4["Level 4:ガードレール付き自律型"]
direction LR
L4P["Sierra<br/>Intercom Fin<br/>Zendesk AI<br/>Glean Agents"]
L4C["AIがポリシー内で継続稼働<br/>人間が境界設定・例外対応<br/>エスカレーション設計が生命線"]
end
L1 --> L2 --> L3 --> L4
style L1 fill:#d4edda,stroke:#28a745
style L2 fill:#cce5ff,stroke:#004085
style L3 fill:#fff3cd,stroke:#856404
style L4 fill:#f8d7da,stroke:#721c24
「高いレベルほど良い」は誤りだ
レベル分類を見ると「Level 4が最も高度で優れており、目指すべきゴールだ」と解釈しがちだ。しかしこれは誤りだ。
自動運転で言えば、すべての車がLevel 5である必要がない。山道を楽しみながら運転したいドライバーにとって、Level 5は価値を生まない。必要なのは「その文脈で、その目的に最適なレベル」だ。
AIプロダクトも同じだ。
- Google検索の「次の単語の補完」はLevel 1で十分だ。Level 4の自律エージェントにする必要はない
- プロのデザイナーが使うFigma AIは、デザイン決定の最終権限をデザイナーが持つLevel 2が適切だ
- カスタマーサービスの標準的な問い合わせ対応はLevel 4が有効だが、法的・医療的な問い合わせはLevel 4にしてはいけない
問うべき問いは「最高のレベルを目指せるか」ではなく「このユースケースに最適なレベルはどれか」だ。
レベル選択の意思決定フレームワーク
flowchart TD
Q1{"失敗したとき<br/>実世界に副作用が<br/>起きるか?"}
Q2{"ユーザーは毎回<br/>結果を確認する<br/>時間があるか?"}
Q3{"タスクの繰り返し頻度は<br/>高いか?"}
Q4{"失敗の影響が<br/>限定的で<br/>ロールバック可能か?"}
L1["Level 1<br/>補完・提案型"]
L2["Level 2<br/>コパイロット型"]
L3["Level 3<br/>監督付き自律実行型"]
L4["Level 4<br/>ガードレール付き自律型"]
Q1 -- No --> L1
Q1 -- Yes --> Q2
Q2 -- Yes かつ 影響小 --> L2
Q2 -- Yes かつ 影響大 --> L3
Q2 -- No --> Q3
Q3 -- No --> L3
Q3 -- Yes --> Q4
Q4 -- Yes --> L4
Q4 -- No --> L3
制御の委譲は段階的に
レベルを上げる(自律性を高める)際の最も重要な原則は「段階的に信頼を構築する」ことだ。
Cursor(Level 2)を起点にした開発者は、エージェントとの信頼関係を積み重ね、Level 3への移行のタイミングを自分で判断できる。最初から完全自律エージェントを導入した企業の多くが、予期しない失敗を経験している。
Sierraが「コンステレーション型アーキテクチャ」でスーパーバイザーを置いているのも、「AIが絶対に正しい」という前提を採用しないからだ。Level 4においても、AIは「常に監視される存在」だ。監視の主体が人間からスーパーバイザーモデルに変わっただけだ。
設計者の責任
最後に、AIプロダクトを設計する者の責任について触れたい。
Level 3・4のエージェントが「実世界でアクションを実行する」ようになった今、設計者の責任範囲は広がっている。コードが正しく動くことだけでなく、「AIがどんな判断をするか」の設計がユーザー・顧客・社会に対する影響を持つ。
エスカレーション設計を省いたカスタマーサービスエージェントは、解決策のない顧客を生む。ガードレールなしで公開されたチャットボットは、ブランドを傷つける発言をする。セキュリティ検証なしで採用されたAI生成コードは、脆弱性を生む。
これらは「AIの失敗」ではなく「設計の失敗」だ。
参考文献
- Andrej Karpathy: Software 1.0, 2.0, 3.0
- Tessl (AI Native Dev): The 5 Levels of AI Agent Autonomy
- Microsoft Learn: Introduction to the Agentic AI Adoption Maturity Model
- Swarmia: Five Levels of AI Coding Agent Autonomy
- Martin Fowler.com: Emerging Patterns in Building GenAI Products
- Sierra AI Blog: From LLMs to Enterprise-Grade Agents
- Sierra AI Blog: Constellation of Models
- Zendesk: About Confidence Thresholds for Advanced AI Agents
- GitHub Blog: Agent Mode 101
- Glean: Autonomous Agents Built on Glean Enterprise Context
- Salesforce: Agentforce
- Gartner: 40% of Enterprise Apps Will Feature Task-Specific AI Agents by 2026
- Clutch.co: Blind Trust in AI: Most Devs Use AI-Generated Code They Don’t Understand
- ISACA: Avoiding AI Pitfalls in 2026
本シリーズは 2026年3月30日時点の情報を元に執筆しました。