Bedrockで Production Ready な AI 機能を作る ── 設計・運用・現場の知恵

「LLM API を遊びで触ったがProduction 未経験」の AWS エンジニアが、Bedrock を使って本番品質の AI 機能を作れるようになるための、設計・実装・運用・事例を網羅したシリーズ。

Bedrockで Production Ready な AI 機能を作る ── 設計・運用・現場の知恵

このシリーズが解決すること

LLM API を「叩いたことはある」。OpenAI で雑なチャットボットを作って、RAG もちょっと試した。便利だなと思った。

そこへ上司から「うちのプロダクトに AI 機能を入れたい。Bedrock でやってくれ」と言われる。AWS は仕事で使っている。IAM も VPC も読める。だけど、いざ Bedrock を触ろうとすると、よくわからない問いが次々に出てくる。

  • 「どのモデルを選べばいいのか」
  • 「Knowledge Bases と Bedrock Agents と AgentCore、何を使うのが正解なのか」
  • 「Guardrails はいつ入れるべきか」
  • 「コストは PoC のままだとどれくらい膨らむのか」
  • 「OpenAI 直叩きからの移行は、何が嬉しくて何が困るのか」

このシリーズは、その「Bedrock で本番に出すには、何をどの順で考えればいいか」を、設計から運用まで貫通させて答えるためのものです。

読み終えるとできるようになること

  • Bedrock の主要機能を「設計の選択肢」として比較評価できる
  • 自分のユースケースに対して、**モデル選定・コンテキスト戦略・呼び出し方式(同期 / streaming / async)**を設計できる
  • Day 1 から評価・観測・コスト・セキュリティを組み込んだ設計ができる
  • 既存の企業事例から「自分の現場で再現可能なパターン」を抽出できる
  • 自社で「AI 機能を作って」と言われたとき、設計書 1 枚 で何をどう組み立てるか説明できる

このシリーズの対象

項目内容
対象読者AWS を実務で設計・運用できる Web / バックエンドエンジニア。LLM API は触ったことがあるが Production 未経験
前提知識IAM / VPC / Lambda / CloudWatch を仕事で使える、TypeScript / Node.js が読める
難易度★★★★☆(中〜上級)
読了時間本編 約 5 時間 / 付録含め 約 6 時間
対象バージョンAWS SDK v3、Bedrock 2026 年 6 月時点、Node.js 22+ / TypeScript 5+
構成本編 18 章 + 付録 2 本

シリーズ構成

プロセス対応型で組み立てています。Part 1 で 設計の選択肢の地図を渡し、Part 2 で 動くものを作り、Part 3 で 本番に出すための要件を重ね、Part 4 で 他社事例とアンチパターンから学ぶ

Part 1 ── Bedrock を理解する

タイトル何をするか
1プロローグ:Bedrock で Production Ready な AI を作る地図を手にするシリーズ全体のゴールと読み方
2Bedrock の位置付けを理解するAWS Generative AI Stack(Q / Bedrock / SageMaker)の棲み分け
3他社サービスとの設計差を読み解くOpenAI 直叩き / Azure OpenAI / Vertex AI / Anthropic 直叩きとの比較
4機能カタログ 2026 を俯瞰するFoundation Models から AgentCore までの全体像
5モデルを選ぶClaude / Nova / Llama / Mistral / Cohere の使い分け

Part 2 ── 動くものを作る

タイトル何をするか
6Converse API で最初のリクエストを送るTypeScript / AWS SDK v3 で 10 行から始める
7Streaming と Tool Use を組み込むチャット UI の基礎を作る
8Knowledge Bases で RAG を組み立てるベクトルストア選定・チャンキング戦略・引用
9Bedrock Agents で多段ステップタスクを実行するAction Groups と Trace で動作を可視化する
10AgentCore へ移行するRuntime / Memory / Identity / Gateway / Observability の 9 機能

Part 3 ── Production Ready に仕上げる

タイトル何をするか
11Guardrails で安全性を組み込むDetect モードから段階的に有効化する
12Day 1 から評価を組み込むModel Evaluation・LLM-as-a-Judge・AgentCore Evaluations
13観測を設計するCloudWatch メトリクスと Model Invocation Logging の落とし穴
14セキュリティを設計するIAM 強制パターンと VPC Endpoint と KMS
15コストを設計するPT・Intelligent Prompt Routing・Prompt Caching を使い分ける

Part 4 ── 現場から学ぶ

タイトル何をするか
16国内・海外の事例から読み解く住信 SBI / セゾン / Toyota / Pfizer の設計を分解する
179 つのアンチパターンを避けるPT 無駄買い・max_tokens 未設定など、現場の失敗から学ぶ
18エピローグ:Production Ready の 15 の判断ポイントを携えるシリーズ全体の振り返りと次のステップ

付録

付録タイトル何をするか
Aマルチリージョン設計を Cross-Region Inference Profile で実装するGeographic / Global CRIS の使い分け
Bコスト見積もりワークシートを作るCUR と Application Inference Profile で実測する

読み方ガイド

  • 「Bedrock を初めて使う」読者:第 1 章から順に読むのがおすすめです。Part 2 で実装、Part 3 で本番化の流れに沿うのが、Production Ready への最短ルートです
  • 「すでに Bedrock を触っている」読者:Part 3(Production Ready 化)から読むと、自分の実装に何が足りないかが見えやすいです
  • 「設計判断の整理だけしたい」読者:第 3 章(他社比較)・第 4 章(機能カタログ)・第 16 章(事例)・第 17 章(アンチパターン)を読むだけでも、設計の地図を持てます
  • 「コストが知りたい」読者:第 15 章と付録 B が中心。第 17 章「9 つのアンチパターン」のコスト関連項目(PT・max_tokens・見積もり)もセットで

参考にしたソース

主要な一次情報は最終章(第 18 章)でまとめて掲載します。本シリーズは AWS 公式ドキュメント・AWS 公式ブログ・AWS Case Studies・各企業の公式テックブログを一次情報として参照し、必要に応じて re:Invent / AWS Summit のセッション資料から引用しています。


それでは、第 1 章から始めましょう。

目次

  1. プロローグ:Bedrock で Production Ready な AI を作る地図を手にする シリーズの読み方とゴールを共有する導入章。「Production Ready の壁」を可視化し、本編 18 章の地図を渡す。
  2. Bedrock の位置付けを理解する ── AWS Generative AI Stack の中で何を担うか AWS の Generative AI Stack 3 階層の中で Bedrock が担う役割を、Amazon Q・SageMaker AI との棲み分け基準とともに整理する章。
  3. 他社サービスとの設計差を読み解く ── OpenAI / Azure OpenAI / Vertex AI / Anthropic 直叩き Bedrock を選ぶ前に、選ばない場合の選択肢を理解する。4 社の API と Bedrock を 7 軸で比較し、「PoC は OpenAI、本番は Bedrock」というパターンの根拠を設計の観点から読み解く。
  4. 機能カタログ 2026 を俯瞰する ── Foundation Models から AgentCore まで 2026 年 6 月時点の Bedrock の機能を 6 グループに整理し、「何があるか・いつ使うか」を一枚の地図にまとめる。
  5. モデルを選ぶ ── Claude / Nova / Llama / Mistral / Cohere を使い分ける 16 プロバイダー・100+ モデルから「どのファミリーを、どの世代で、いつ使うか」を決めるための判断軸を提示する。世代単位でとらえ、単一モデル運用・階層運用・自動ルーティングの 3 パターンを整理する。
  6. Converse API で最初のリクエストを送る ── TypeScript / AWS SDK v3 で 10 行から helpdesk-ai の最小版を TypeScript / AWS SDK v3 で動かす。Converse API の基本と、Day 1 から徹底すべき max_tokens 設計を身につける。
  7. Streaming と Tool Use を組み込む ── チャット UI の基礎を作る ch06 の最小版に ConverseStream と Tool Use を追加し、typing 表示と外部 API 呼び出しを備えた helpdesk-ai を組み立てる実装ハンズオン章。
  8. Knowledge Bases で RAG を組み立てる ── ベクトルストア・チャンキング・引用 helpdesk-ai に Knowledge Bases for Bedrock を組み込み、社内規程 PDF を引用付きで答える RAG を完成させる。ベクトルストア 8 種・チャンキング 4 種の選び方と「Default チャンキングという罠」を実装ベースで掘り下げる。
  9. Bedrock Agents で多段ステップタスクを実行する ── Action Groups と Trace 手書き Tool Use ループの限界を Bedrock Agents で抽象化する。Action Groups で人事 API を統合し、Trace で実行履歴をデバッグ・観測する実装ハンズオン。
  10. AgentCore へ移行する ── Runtime / Memory / Identity / Gateway / Observability ch09 で動いた Bedrock Agents 版 helpdesk-ai を、2025-10 GA の AgentCore 9 コンポーネントに乗せ替えて Production 級に仕上げる。マネージドな ReAct から、本番運用のためのインフラへの進化を体得する。
  11. Guardrails で安全性を組み込む ── Detect モードから段階的に有効化する Bedrock Guardrails の 6 ポリシーを Detect モードから段階導入し、helpdesk-ai に Day 1 から安全性を組み込む実装ハンズオン。Mask モードの落とし穴と日本語サポート現実までを含む。
  12. Day 1 から評価を組み込む ── Model Evaluation・LLM-as-a-Judge・AgentCore Evaluations Bedrock の 5 評価モードを使い分け、helpdesk-ai を Day 1 から評価可能にする。Model Evaluation だけでは Agent の 4 分の 3 が見えないという落とし穴と、AgentCore Evaluations による解決策を示す。
  13. 観測を設計する ── CloudWatch メトリクスと Model Invocation Logging の落とし穴 helpdesk-ai の観測を Day 1 から組み込む。CloudWatch メトリクス・Model Invocation Logging・X-Ray・サードパーティ統合の使い分けと、Mask モードでも原文ログが残るという落とし穴の回避策を示す。
  14. セキュリティを設計する ── IAM 強制パターンと VPC Endpoint と KMS helpdesk-ai のセキュリティ設計を IAM 強制パターン・VPC Endpoint(PrivateLink)・KMS CMK・SCP の 4 層で完成させる。「Production Ready の本気度はセキュリティに出る」というメッセージを、Guardrail 強制条件キー・confused deputy 対策・データレジデンシー・Cross-Account Safeguards まで含めて実装ベースで掘り下げる。
  15. コストを設計する ── PT・Intelligent Prompt Routing・Prompt Caching を使い分ける helpdesk-ai のコストを設計レベルで最適化する章。PT 損益分岐 80-85%、Prompt Caching ヒット率 30%、Intelligent Prompt Routing の実測 63.6% 削減を基に、課金モデルの使い分けと「4 段ロケット」を体系化する。
  16. 国内・海外の事例から読み解く ── 住信 SBI・セゾン・Toyota・Pfizer は何をしたか 国内 4 件・海外 3 件の Bedrock 採用事例を深堀りし、採用理由・技術スタック・数値・教訓を構造化。「自分の現場で再現可能なパターン」として 5 つの共通項を抽出する。
  17. 9 つのアンチパターンを避ける ── PT 無駄買いから max_tokens 未設定まで ch11〜ch15 で各論的に予告してきたアンチパターンを集約する。9 つのアンチパターンを「症状 / 根本原因 / 脱出法」の 3 段構成で整理し、設計段階で避けるための判断材料にする。
  18. エピローグ:Production Ready の 15 の判断ポイントを携える シリーズ全体を振り返り、Production Ready に至るための 15 の判断ポイントを 1 ページに集約する。プロローグの 3 つの壁を回収し、helpdesk-ai の軌跡をたどり、次に読むべきものへ橋を渡す。
  19. 付録 A:マルチリージョン設計を Cross-Region Inference Profile で実装する helpdesk-ai を東京・大阪・ソウルの 3 リージョン active-active で動かす設計。Geographic / Global CRIS の使い分けから DynamoDB Global Tables と Route53 ヘルスチェックまでを通しで解説する。
  20. 付録 B:コスト見積もりワークシートを作る ── CUR と Application Inference Profile で実測する 「PoC で月数千円が本番で月数百万円」を防ぐ、Bedrock の月額コストを実測ベースで見積もるためのワークシートと CUR クエリ集。