Bedrockで Production Ready な AI 機能を作る ── 設計・運用・現場の知恵

プロローグ：Bedrock で Production Ready な AI を作る地図を手にする

2026/06/04

プロローグ：Bedrock で Production Ready な AI を作る地図を手にする

Bedrockシリーズ ── Production Ready の地図。3つの壁、4 Part 構成、helpdesk-ai の進化を 1 枚に集約

「AI 機能を入れたい」と言われた、ある朝

上司に呼ばれて、こう言われた、と仮定してほしい。

「うちのプロダクトに AI 機能を入れたい。要件はまだ詰めていない。何でもいいから、まず動くものを見せてくれ。インフラは AWS だから、たぶん Bedrock でいけるよね」

たぶん、いける。あなたは AWS の中級者で、IAM も VPC も Lambda も、まあ仕事で読み書きできる。OpenAI の API は遊びで叩いたことがある。RAG というキーワードも知っている。

その日の昼休みに、Bedrock のドキュメントを開く。1 時間後、ブラウザのタブは 17 個になっている。Foundation Models、Knowledge Bases、Bedrock Agents、AgentCore、Guardrails、Model Evaluation、Prompt Management、Application Inference Profiles、Cross-Region Inference、Provisioned Throughput、Bedrock IDE …。

便利そうだ。だが、何から手を付ければいいのかが、よくわからない。

どのモデルを選べばいいのか
Knowledge Bases と Bedrock Agents と AgentCore、どれを使うのが正解なのか
Guardrails はいつ入れるべきか
コストは「PoC のまま本番に出す」とどれくらい膨らむのか
OpenAI 直叩きと比べて、何が嬉しくて、何が困るのか

このシリーズは、その「何をどの順で考えればいいか」を、設計から運用まで貫通させて答えるためのものだ。

Production Ready の 3 つの壁

「動く」と「本番に置ける」の間には、3 つの壁がある。

壁 1：機能カタログと設計判断の壁

Bedrock の機能は多い。多すぎる。公式ドキュメントは「機能 X はこういうもの」を説明するが、「いつ X を選ぶべきか」は教えてくれない。

InvokeModel で済む話なのか、Knowledge Bases を使うべきか、Bedrock Agents が必要か、AgentCore に行くべきか。これは「機能の理解」ではなく「設計判断」の問題だ。

壁 2：「動く」と「正しく動く」の壁

PoC は動いた。デモも通った。本番に出したら、ある日突然「ハルシネーション」「プロンプトインジェクション」「想定外のコスト」が来る。

これは Bedrock 特有の問題ではなく、LLM をプロダクションで運用するときに必ず通る道だ。Bedrock には Guardrails・Model Evaluation・LLM-as-a-Judge という道具があるが、これを「いつ・どう・どこまで」入れるかが設計の核心になる。

壁 3：公式ドキュメントと現場の知恵の壁

公式ドキュメントは正しい。だが、現場で実際に起きていることは別の場所に書いてある。

「Provisioned Throughput を 1 か月コミットで買って失敗した」「max_tokens を未設定にしてスロットルが多発した」「Mask モードで PII を消したつもりが、Model Invocation Logs に原文が残っていた」── これらは公式 docs には書かれていない（または、書かれているが目立たない）。現場の知恵は、事例と失敗から集めるしかない。

このシリーズが解こうとしている問題

上の 3 つの壁を、Bedrock の機能と現場の事例を使って、順番に壊していく。具体的には、4 つの Part に分けて進める。

Part 1（5 章）：Bedrock を理解する ── 位置付け、他社比較、機能カタログ、モデル選定。壁 1 を壊す
Part 2（5 章）：動くものを作る ── Converse API → Streaming → Tool Use → RAG → Agents → AgentCore。素朴な実装から始めて、段階的に増築する
Part 3（5 章）：Production Ready に仕上げる ── Guardrails、評価、観測、セキュリティ、コスト。壁 2 を壊す
Part 4（3 章）：現場から学ぶ ── 国内・海外の事例、9 つのアンチパターン、エピローグ。壁 3 を壊す

シリーズを貫通する 架空のサンプルアプリ を 1 つ用意した。「helpdesk-ai」── 社内ヘルプデスクの問い合わせに答える AI アシスタント、というよくある題材だ。Part 2 でこれを段階的に作り、Part 3 で本番要件を順次重ねていく。

このシリーズが提供しないこと

公平のため、提供しないことも先に言っておく。

AWS の入門ではない。IAM・VPC・Lambda・CloudWatch を仕事で読み書きできる前提
LLM の入門ではない。OpenAI 等で「動くものは作ったことがある」前提
特定モデルの深堀りではない。「Claude Sonnet のプロンプトテクニック完全版」のような専門書とは別物
完全網羅型のリファレンスではない。Bedrock の全機能を等しく扱うのではなく、「Production Ready に至る道筋」に必要なものを選択している

なぜ「設計→実装→本番化→事例」の順なのか

ネットワーク・コンピューティングと違って、LLM の本番運用は 「動かしてから直す」アプローチが極めて不利な領域だ。理由は 3 つ。

コストが想定の 10 倍になることが日常的に起きる（事例：とあるサードパーティ調査では PT 無駄買いで月 30〜50% 余計に払うケースが多い）
ハルシネーションは事後で気付くことが多い。気付いた頃にはユーザーの信頼を失っている
観測を後付けすると、何が問題か再現すらできない

だから、Day 1 から評価・観測・ガードレールを設計に組み込む。それを Production Ready と呼ぶ。

このシリーズは、PoC で満足しないで本番に出したい人のためのものだ。

旅の地図

部	章	何を扱うか
Part 1 理解する	第 2 〜 5 章	Bedrock の位置付け、他社比較、機能カタログ、モデル選定
Part 2 作る	第 6 〜 10 章	Converse → Tool Use → RAG → Agents → AgentCore（helpdesk-ai を育てる）
Part 3 本番化する	第 11 〜 15 章	Guardrails、評価、観測、セキュリティ、コスト
Part 4 現場から学ぶ	第 16 〜 18 章	事例、アンチパターン、エピローグ
付録	A / B	マルチリージョン設計 / コスト見積もりワークシート

それでは、第 2 章で「Bedrock の位置付け」から始めよう。AWS の 3 階層 Generative AI Stack の中で、Bedrock がどこに置かれているのか ── ここを押さえることが、シリーズ全体の地図を読むための最初の鍵になる。

章末まとめ

Production Ready には 3 つの壁がある：機能カタログと設計判断の壁・「動く」と「正しく動く」の壁・公式と現場の壁

本シリーズは「理解 → 作る → 本番化 → 現場から学ぶ」の 4 部構成

シリーズを貫く架空アプリ「helpdesk-ai」を Part 2 で段階的に作り、Part 3 で本番要件を重ねる

Day 1 から評価・観測・ガードレールを設計に組み込むのが本シリーズの中心思想

次章では Bedrock の位置付けを AWS Generative AI Stack の中で整理する