Bedrockで Production Ready な AI 機能を作る ── 設計・運用・現場の知恵
「LLM API を遊びで触ったがProduction 未経験」の AWS エンジニアが、Bedrock を使って本番品質の AI 機能を作れるようになるための、設計・実装・運用・事例を網羅したシリーズ。
Bedrockで Production Ready な AI 機能を作る ── 設計・運用・現場の知恵
このシリーズが解決すること
LLM API を「叩いたことはある」。OpenAI で雑なチャットボットを作って、RAG もちょっと試した。便利だなと思った。
そこへ上司から「うちのプロダクトに AI 機能を入れたい。Bedrock でやってくれ」と言われる。AWS は仕事で使っている。IAM も VPC も読める。だけど、いざ Bedrock を触ろうとすると、よくわからない問いが次々に出てくる。
- 「どのモデルを選べばいいのか」
- 「Knowledge Bases と Bedrock Agents と AgentCore、何を使うのが正解なのか」
- 「Guardrails はいつ入れるべきか」
- 「コストは PoC のままだとどれくらい膨らむのか」
- 「OpenAI 直叩きからの移行は、何が嬉しくて何が困るのか」
このシリーズは、その「Bedrock で本番に出すには、何をどの順で考えればいいか」を、設計から運用まで貫通させて答えるためのものです。
読み終えるとできるようになること
- Bedrock の主要機能を「設計の選択肢」として比較評価できる
- 自分のユースケースに対して、**モデル選定・コンテキスト戦略・呼び出し方式(同期 / streaming / async)**を設計できる
- Day 1 から評価・観測・コスト・セキュリティを組み込んだ設計ができる
- 既存の企業事例から「自分の現場で再現可能なパターン」を抽出できる
- 自社で「AI 機能を作って」と言われたとき、設計書 1 枚 で何をどう組み立てるか説明できる
このシリーズの対象
| 項目 | 内容 |
|---|---|
| 対象読者 | AWS を実務で設計・運用できる Web / バックエンドエンジニア。LLM API は触ったことがあるが Production 未経験 |
| 前提知識 | IAM / VPC / Lambda / CloudWatch を仕事で使える、TypeScript / Node.js が読める |
| 難易度 | ★★★★☆(中〜上級) |
| 読了時間 | 本編 約 5 時間 / 付録含め 約 6 時間 |
| 対象バージョン | AWS SDK v3、Bedrock 2026 年 6 月時点、Node.js 22+ / TypeScript 5+ |
| 構成 | 本編 18 章 + 付録 2 本 |
シリーズ構成
プロセス対応型で組み立てています。Part 1 で 設計の選択肢の地図を渡し、Part 2 で 動くものを作り、Part 3 で 本番に出すための要件を重ね、Part 4 で 他社事例とアンチパターンから学ぶ。
Part 1 ── Bedrock を理解する
| 章 | タイトル | 何をするか |
|---|---|---|
| 1 | プロローグ:Bedrock で Production Ready な AI を作る地図を手にする | シリーズ全体のゴールと読み方 |
| 2 | Bedrock の位置付けを理解する | AWS Generative AI Stack(Q / Bedrock / SageMaker)の棲み分け |
| 3 | 他社サービスとの設計差を読み解く | OpenAI 直叩き / Azure OpenAI / Vertex AI / Anthropic 直叩きとの比較 |
| 4 | 機能カタログ 2026 を俯瞰する | Foundation Models から AgentCore までの全体像 |
| 5 | モデルを選ぶ | Claude / Nova / Llama / Mistral / Cohere の使い分け |
Part 2 ── 動くものを作る
| 章 | タイトル | 何をするか |
|---|---|---|
| 6 | Converse API で最初のリクエストを送る | TypeScript / AWS SDK v3 で 10 行から始める |
| 7 | Streaming と Tool Use を組み込む | チャット UI の基礎を作る |
| 8 | Knowledge Bases で RAG を組み立てる | ベクトルストア選定・チャンキング戦略・引用 |
| 9 | Bedrock Agents で多段ステップタスクを実行する | Action Groups と Trace で動作を可視化する |
| 10 | AgentCore へ移行する | Runtime / Memory / Identity / Gateway / Observability の 9 機能 |
Part 3 ── Production Ready に仕上げる
| 章 | タイトル | 何をするか |
|---|---|---|
| 11 | Guardrails で安全性を組み込む | Detect モードから段階的に有効化する |
| 12 | Day 1 から評価を組み込む | Model Evaluation・LLM-as-a-Judge・AgentCore Evaluations |
| 13 | 観測を設計する | CloudWatch メトリクスと Model Invocation Logging の落とし穴 |
| 14 | セキュリティを設計する | IAM 強制パターンと VPC Endpoint と KMS |
| 15 | コストを設計する | PT・Intelligent Prompt Routing・Prompt Caching を使い分ける |
Part 4 ── 現場から学ぶ
| 章 | タイトル | 何をするか |
|---|---|---|
| 16 | 国内・海外の事例から読み解く | 住信 SBI / セゾン / Toyota / Pfizer の設計を分解する |
| 17 | 9 つのアンチパターンを避ける | PT 無駄買い・max_tokens 未設定など、現場の失敗から学ぶ |
| 18 | エピローグ:Production Ready の 15 の判断ポイントを携える | シリーズ全体の振り返りと次のステップ |
付録
| 付録 | タイトル | 何をするか |
|---|---|---|
| A | マルチリージョン設計を Cross-Region Inference Profile で実装する | Geographic / Global CRIS の使い分け |
| B | コスト見積もりワークシートを作る | CUR と Application Inference Profile で実測する |
読み方ガイド
- 「Bedrock を初めて使う」読者:第 1 章から順に読むのがおすすめです。Part 2 で実装、Part 3 で本番化の流れに沿うのが、Production Ready への最短ルートです
- 「すでに Bedrock を触っている」読者:Part 3(Production Ready 化)から読むと、自分の実装に何が足りないかが見えやすいです
- 「設計判断の整理だけしたい」読者:第 3 章(他社比較)・第 4 章(機能カタログ)・第 16 章(事例)・第 17 章(アンチパターン)を読むだけでも、設計の地図を持てます
- 「コストが知りたい」読者:第 15 章と付録 B が中心。第 17 章「9 つのアンチパターン」のコスト関連項目(PT・max_tokens・見積もり)もセットで
参考にしたソース
主要な一次情報は最終章(第 18 章)でまとめて掲載します。本シリーズは AWS 公式ドキュメント・AWS 公式ブログ・AWS Case Studies・各企業の公式テックブログを一次情報として参照し、必要に応じて re:Invent / AWS Summit のセッション資料から引用しています。
それでは、第 1 章から始めましょう。
目次
- プロローグ:Bedrock で Production Ready な AI を作る地図を手にする シリーズの読み方とゴールを共有する導入章。「Production Ready の壁」を可視化し、本編 18 章の地図を渡す。
- Bedrock の位置付けを理解する ── AWS Generative AI Stack の中で何を担うか AWS の Generative AI Stack 3 階層の中で Bedrock が担う役割を、Amazon Q・SageMaker AI との棲み分け基準とともに整理する章。
- 他社サービスとの設計差を読み解く ── OpenAI / Azure OpenAI / Vertex AI / Anthropic 直叩き Bedrock を選ぶ前に、選ばない場合の選択肢を理解する。4 社の API と Bedrock を 7 軸で比較し、「PoC は OpenAI、本番は Bedrock」というパターンの根拠を設計の観点から読み解く。
- 機能カタログ 2026 を俯瞰する ── Foundation Models から AgentCore まで 2026 年 6 月時点の Bedrock の機能を 6 グループに整理し、「何があるか・いつ使うか」を一枚の地図にまとめる。
- モデルを選ぶ ── Claude / Nova / Llama / Mistral / Cohere を使い分ける 16 プロバイダー・100+ モデルから「どのファミリーを、どの世代で、いつ使うか」を決めるための判断軸を提示する。世代単位でとらえ、単一モデル運用・階層運用・自動ルーティングの 3 パターンを整理する。
- Converse API で最初のリクエストを送る ── TypeScript / AWS SDK v3 で 10 行から helpdesk-ai の最小版を TypeScript / AWS SDK v3 で動かす。Converse API の基本と、Day 1 から徹底すべき max_tokens 設計を身につける。
- Streaming と Tool Use を組み込む ── チャット UI の基礎を作る ch06 の最小版に ConverseStream と Tool Use を追加し、typing 表示と外部 API 呼び出しを備えた helpdesk-ai を組み立てる実装ハンズオン章。
- Knowledge Bases で RAG を組み立てる ── ベクトルストア・チャンキング・引用 helpdesk-ai に Knowledge Bases for Bedrock を組み込み、社内規程 PDF を引用付きで答える RAG を完成させる。ベクトルストア 8 種・チャンキング 4 種の選び方と「Default チャンキングという罠」を実装ベースで掘り下げる。
- Bedrock Agents で多段ステップタスクを実行する ── Action Groups と Trace 手書き Tool Use ループの限界を Bedrock Agents で抽象化する。Action Groups で人事 API を統合し、Trace で実行履歴をデバッグ・観測する実装ハンズオン。
- AgentCore へ移行する ── Runtime / Memory / Identity / Gateway / Observability ch09 で動いた Bedrock Agents 版 helpdesk-ai を、2025-10 GA の AgentCore 9 コンポーネントに乗せ替えて Production 級に仕上げる。マネージドな ReAct から、本番運用のためのインフラへの進化を体得する。
- Guardrails で安全性を組み込む ── Detect モードから段階的に有効化する Bedrock Guardrails の 6 ポリシーを Detect モードから段階導入し、helpdesk-ai に Day 1 から安全性を組み込む実装ハンズオン。Mask モードの落とし穴と日本語サポート現実までを含む。
- Day 1 から評価を組み込む ── Model Evaluation・LLM-as-a-Judge・AgentCore Evaluations Bedrock の 5 評価モードを使い分け、helpdesk-ai を Day 1 から評価可能にする。Model Evaluation だけでは Agent の 4 分の 3 が見えないという落とし穴と、AgentCore Evaluations による解決策を示す。
- 観測を設計する ── CloudWatch メトリクスと Model Invocation Logging の落とし穴 helpdesk-ai の観測を Day 1 から組み込む。CloudWatch メトリクス・Model Invocation Logging・X-Ray・サードパーティ統合の使い分けと、Mask モードでも原文ログが残るという落とし穴の回避策を示す。
- セキュリティを設計する ── IAM 強制パターンと VPC Endpoint と KMS helpdesk-ai のセキュリティ設計を IAM 強制パターン・VPC Endpoint(PrivateLink)・KMS CMK・SCP の 4 層で完成させる。「Production Ready の本気度はセキュリティに出る」というメッセージを、Guardrail 強制条件キー・confused deputy 対策・データレジデンシー・Cross-Account Safeguards まで含めて実装ベースで掘り下げる。
- コストを設計する ── PT・Intelligent Prompt Routing・Prompt Caching を使い分ける helpdesk-ai のコストを設計レベルで最適化する章。PT 損益分岐 80-85%、Prompt Caching ヒット率 30%、Intelligent Prompt Routing の実測 63.6% 削減を基に、課金モデルの使い分けと「4 段ロケット」を体系化する。
- 国内・海外の事例から読み解く ── 住信 SBI・セゾン・Toyota・Pfizer は何をしたか 国内 4 件・海外 3 件の Bedrock 採用事例を深堀りし、採用理由・技術スタック・数値・教訓を構造化。「自分の現場で再現可能なパターン」として 5 つの共通項を抽出する。
- 9 つのアンチパターンを避ける ── PT 無駄買いから max_tokens 未設定まで ch11〜ch15 で各論的に予告してきたアンチパターンを集約する。9 つのアンチパターンを「症状 / 根本原因 / 脱出法」の 3 段構成で整理し、設計段階で避けるための判断材料にする。
- エピローグ:Production Ready の 15 の判断ポイントを携える シリーズ全体を振り返り、Production Ready に至るための 15 の判断ポイントを 1 ページに集約する。プロローグの 3 つの壁を回収し、helpdesk-ai の軌跡をたどり、次に読むべきものへ橋を渡す。
- 付録 A:マルチリージョン設計を Cross-Region Inference Profile で実装する helpdesk-ai を東京・大阪・ソウルの 3 リージョン active-active で動かす設計。Geographic / Global CRIS の使い分けから DynamoDB Global Tables と Route53 ヘルスチェックまでを通しで解説する。
- 付録 B:コスト見積もりワークシートを作る ── CUR と Application Inference Profile で実測する 「PoC で月数千円が本番で月数百万円」を防ぐ、Bedrock の月額コストを実測ベースで見積もるためのワークシートと CUR クエリ集。