Bedrockで Production Ready な AI 機能を作る ── 設計・運用・現場の知恵

モデルを選ぶ ── Claude / Nova / Llama / Mistral / Cohere を使い分ける

2026/06/04

モデルを選ぶ ── Claude / Nova / Llama / Mistral / Cohere を使い分ける

対象読者：「結局どのモデルを使えばいいのか」で止まっている、選定軸が欲しい読者難易度：★★☆☆☆（Tips）想定読了時間：約 25 分関連章：第 6 章（Converse API での呼び出し）/ 第 15 章（コスト最適化と Prompt Routing）

全部を覚えなくていい、判断軸を持つ

2026 年 6 月時点で、Bedrock には 16 プロバイダー・100 を超える Foundation Model が並んでいる¹。Anthropic の Claude、Amazon の Nova、Meta の Llama、Mistral、Cohere、AI21、DeepSeek、Google Gemma、Moonshot、MiniMax、NVIDIA Nemotron、OpenAI GPT、Qwen、TwelveLabs、Writer、Z.AI ── マネジメントコンソールの「Model catalog」を初めて開いた人は、ここでブラウザを閉じたくなるはずだ。

そのまま閉じていい。全部を覚える必要はない。重要なのは「自分のユースケースに対して、どのモデルファミリーを、どの世代で、いつ使うか」を決められる判断軸を持つことだ。世代が上がってバージョン番号が 4.5 から 4.6 に変わっても、判断軸が同じならモデル ID を 1 行差し替えるだけで済む。

この章の目的は 3 つ。

実務でほぼ全部の用途をカバーできる 5 つのモデルファミリー を世代単位で頭に入れる
ユースケース別の 「第一候補・コスト最適化候補」 の対応表を持ち帰る
単一モデル運用・階層運用・自動ルーティング という 3 つの使い分けパターンから、自分の現場に合うものを選ぶ

具体的なバージョン番号（Claude Opus 4.7 か 4.8 か、Sonnet 4.5 か 4.6 か）は本文では追わない。世代単位でとらえれば十分で、最新版は AWS の model-cards ページで都度確認するのが正しい運用だ。

5 つのモデルファミリーを世代単位で押さえる

100+ モデルのうち、実務で第一候補にあがるのは Anthropic Claude・Amazon Nova・Meta Llama・Mistral・Cohere の 5 ファミリーで、ほぼすべての用途がカバーできる。それ以外（DeepSeek・GPT-OSS・Qwen・Z.AI など）は「特定の文脈で強い駒」として後から検討する位置付けで構わない。

ファミリーごとの特徴を、世代単位で整理する。

Anthropic Claude ── Opus / Sonnet / Haiku の 3 階層

Claude は Opus（最上位）・Sonnet（中位）・Haiku（軽量） の 3 階層²で提供されている。3 階層という事実そのものが、Anthropic からの「使い分けてください」というメッセージだ。

graph TD
  subgraph "Claude 4 系（2026年6月時点）"
    O[Opus 系<br/>最高難度の推論・コーディング<br/>価格：高]
    S[Sonnet 系<br/>汎用 / agent planning / 1M context<br/>価格：中]
    H[Haiku 系<br/>低レイテンシ / 高スループット / ワーカー<br/>価格：低]
  end
  O -. 一段安い .-> S
  S -. 一段安い .-> H

Opus 系：最高難度の推論・コーディング・長文処理。価格は最も高い。「ここぞ」の意思決定や、長文の難しい要約・分析で第一候補
Sonnet 系：汎用チャット・コーディング・エージェントの「主役」。1M トークンの長文も扱える。価格と性能のバランスが取れていて、多くのプロダクションシステムの中核を担う
Haiku 系：低レイテンシ・高スループット・低価格。マルチエージェントのワーカー役として、また分類・要約・抽出のような 「数を捌く」タスク の第一候補

Claude 4 系は Cross-Region Inference Profile（後述）と Prompt Caching・Computer Use に対応しており、Bedrock の本番運用機能との相性が良い。本シリーズの架空アプリ helpdesk-ai も、中核モデルとして Sonnet 系を採用し、軽量タスクは Haiku 系に振る構成で進めていく。

Amazon Nova ── Understanding / Creative / Speech の 7 種

Amazon 純正の Nova は、3 カテゴリ・7 モデル の構成になっている³。

graph LR
  subgraph "Understanding（理解）"
    NP[Nova Premier<br/>1M context]
    NPr[Nova Pro<br/>300K context]
    NL[Nova Lite<br/>300K context・低価格]
    NM[Nova Micro<br/>テキストのみ・最安]
  end
  subgraph "Creative（生成）"
    NC[Nova Canvas<br/>画像生成]
    NR[Nova Reel<br/>動画生成]
  end
  subgraph "Speech（音声）"
    NS[Nova Sonic<br/>双方向音声]
  end

Understanding（4 種）：Premier / Pro / Lite / Micro。テキスト・画像・動画入力に対応（Micro はテキストのみ）。価格は Claude より一段安く、特に Lite と Micro はトークン単価で圧倒的に安い
Creative（2 種）：Canvas で画像生成、Reel で動画生成
Speech（1 種）：Sonic は双方向ストリーミング専用の音声会話モデル。電話オペレーターや IVR の置き換えで強い

Nova の強みは 「Amazon 純正であること」 から来る統合の良さで、Knowledge Bases・Agents・Guardrails・Evaluations のすべてに対応している。Provisioned Throughput と Fine-tuning は Pro / Lite / Micro で利用可能（Premier は対象外）で、Model Distillation で Premier から Pro/Lite/Micro へ蒸留もできる。

Meta Llama ── OSS で持ち込み可能

Llama は OSS（オープンウェイト）で配布されているため、Bedrock では マネージドな On-Demand 利用（Llama 3.x / 4 系）に加えて、Custom Model Import で自分でファインチューンしたモデルを Bedrock 上に持ち込める選択肢がある⁴。

Llama を採用する典型的な動機は次の 3 つ。

OSS 互換性：他社環境（オンプレ・Azure・GCP）と同じモデルを Bedrock 上でも動かしたい
ファインチューン済みモデルの持ち込み：自社データで継続学習したモデルを、推論基盤だけ Bedrock に任せたい
コスト：mid-tier 価格帯で、Claude Sonnet 系の代替を探したい

逆に「ただ性能が高いものを使いたい」だけなら、Bedrock 上では Claude Sonnet 系または Nova Pro が最初の候補になることが多い。Llama は 「持ち込みやポータビリティを重視する場面」 で本領を発揮する。

Mistral ── 言語・コード・推論・マルチモーダル・音声の専門家集団

Mistral は 領域特化モデルの引き出しが豊富 なファミリーだ。

領域	代表モデル系統	想定用途
汎用言語	Mistral Large 系・Ministral 系	mid-tier の汎用チャット・要約
コード	Devstral 系	コーディングアシスタント
推論特化	Magistral 系	数学・論理推論
マルチモーダル	Pixtral 系	画像入力
音声	Voxtral 系	音声書き起こし・理解

「特定領域に強いモデルを ピンポイントで 採用したい」場合の選択肢として有力で、特に コード生成や音声理解 の領域では Mistral のラインナップが厚い。汎用チャットの中核に据えるよりは、特定タスクの裏側で使うイメージが合っている。

Cohere ── Command + Embed + Rerank の RAG 3 点セット

Cohere は RAG の文脈で最も使われる モデルファミリーだ。

Command R / R+：チャット・RAG 用途。R+ は 128K context で、長文の引用ベース回答に強い
Embed：埋め込みモデル。多言語版（Embed Multilingual / Embed v4）は日本語の検索精度に直結する
Rerank 3.5：検索結果の再ランキング専用モデル。「ベクトル検索の上位 100 件を、ユーザークエリとの関連度で並べ直す」用途で 1000 クエリあたり数ドルの定額課金

Cohere の Embed と Rerank は、Knowledge Bases で RAG を組むときの 「検索品質を一段引き上げるための専門コンポーネント」 として登場する場面が多い。8 章の Knowledge Bases 編で、Bedrock 標準の埋め込みモデルと並んで具体的に検討する。

5 ファミリーを 1 枚にまとめる

quadrantChart
  title モデルファミリーのざっくり位置取り
  x-axis "汎用" --> "特化"
  y-axis "コスト重視" --> "性能重視"
  quadrant-1 "性能・特化"
  quadrant-2 "性能・汎用"
  quadrant-3 "コスト・汎用"
  quadrant-4 "コスト・特化"
  "Claude Opus": [0.3, 0.95]
  "Claude Sonnet": [0.25, 0.7]
  "Claude Haiku": [0.2, 0.35]
  "Nova Pro": [0.35, 0.55]
  "Nova Lite/Micro": [0.3, 0.2]
  "Llama 系": [0.45, 0.5]
  "Mistral 領域特化": [0.75, 0.55]
  "Cohere Embed/Rerank": [0.85, 0.4]

このマップが頭に入っていれば、要件を聞いた瞬間に「Sonnet を中核、Haiku をワーカー、Embed/Rerank で RAG 品質を底上げ」のような構成が即座に組み立てられるようになる。

ユースケース別の指針表

ファミリーごとの特徴を抽象的に押さえたうえで、実務で頻出するユースケースに対しての 「第一候補・コスト最適化候補」 を表にまとめる。research 02 §3.8 のサマリをベースにしている。

ユースケース	第一候補	コスト最適化候補
汎用チャット / カスタマーサポート	Claude Sonnet 系 / Nova Pro	Claude Haiku 系 / Nova Lite
コーディング / Agent / Computer Use	Claude Sonnet 系 / Opus 系	—
大規模・長文ドキュメント要約	Claude Sonnet 系（1M）/ AI21 Jamba	—
高スループット・低レイテンシ	Claude Haiku 系 / Nova Micro	Nova Micro
画像入力理解	Claude Sonnet 系 / Nova Pro / Lite	Nova Lite
動画理解	Nova Pro / Lite / Premier	Nova Lite
音声会話（双方向）	Nova Sonic	—
画像生成	Nova Canvas / Stability SD3	—
動画生成	Nova Reel	—
マルチエージェントのワーカー	Claude Haiku 系 / Nova Micro	—
RAG の埋め込み	Cohere Embed / Amazon Titan Embeddings	—
RAG の再ランキング	Cohere Rerank 3.5	—

この表の使い方は素直で、「自分のユースケースの行を見て、第一候補から PoC を始める」だけで構わない。第一候補で動いたら、コスト最適化候補に置き換えてベンチマーク ── という順序を取れば、性能と価格の両面から納得して採用判断ができる。

表の読み方の補足

3 つだけ、表の裏側にある考え方を補足しておく。

「第一候補」は性能が最も高いものではなく、価格と性能のバランスが取れたもの を選んでいる。Opus 系は「コーディング・Agent」の行にだけ登場することに注意。汎用チャットを Opus で回すのは、ほとんどの場合オーバースペック
「コスト最適化候補」は精度を測ってから入れ替える ことが前提。Haiku に下げてユースケースの精度要件を満たさないなら、Sonnet に戻す。後述の Intelligent Prompt Routing はこの「両方を動的に使う」発想の自動化版
画像生成・動画生成・音声会話は専用モデル が必要。Sonnet や Nova Pro は画像「入力」は理解できるが、画像「生成」はできない

モデル ID は Cross-Region Inference Profile（CRIS）で書く

採用するモデルが決まったら、コードに書くモデル ID には注意点がひとつある。素のリージョン単独 ID ではなく、Cross-Region Inference Profile（CRIS）の ID を使う⁵。

// ❌ 悪い例：素のリージョン単独 ID（一部の最新モデルは In-region 提供が限定的）
const MODEL_ID = "anthropic.claude-sonnet-4-5";

// ✅ 良い例：CRIS ID を使う（US Geo 推論プロファイル）
const MODEL_ID = "us.anthropic.claude-sonnet-4-5";

// ✅ さらに：データ主権制約が緩いなら Global CRIS（最大スループット）
const MODEL_ID = "global.anthropic.claude-sonnet-4-5";

CRIS を使う実利は次の 3 つ。

スロットリング耐性：複数リージョンに自動で振り分けられるため、TPM クォータ枯渇に強い
新世代モデルの提供範囲：Claude 4 系のような最新世代は、In-region 直叩きが限定リージョンのみで、CRIS 経由でしか呼べないケースがある
追加料金なし：Cross-Region Inference の料金はソースリージョン基準で、CRIS 利用そのものに追加料金は発生しない。Global CRIS は Geographic（us. eu. au. jp.）よりさらに約 10% 安価

CRIS の Prefix の意味は次のとおり。

Prefix	意味	データ主権
`us.`	US 内のリージョンで負荷分散	US データ主権
`eu.`	EU 内のリージョンで負荷分散	EU データ主権
`jp.`	日本国内のリージョンで負荷分散	国内主権
`global.`	全世界の最適リージョンへ	制約緩い・最安

本シリーズの spec.md §2.2 でも、モデル ID は CRIS 形式で統一する規約にしている。素のリージョン単独 ID は ch17 のアンチパターン章で「Cross-Region Inference を理解せずに使う／使わない」として再登場する。

使い分けパターンは 3 つから選ぶ

モデルファミリーと表が決まったら、次は 「単一モデルで回すか、複数モデルを使い分けるか」 という運用設計の話になる。実務でよく見るパターンは 3 つに収まる。

パターン 1：単一モデル運用（シンプル）

PoC や、小〜中規模システムでは、Sonnet 系または Nova Pro の 1 モデルで全部やる のがいちばん運用が楽だ。

graph LR
  Req[リクエスト] --> M[Claude Sonnet 系<br/>または Nova Pro]
  M --> Res[レスポンス]

メリットは 複雑度ゼロ。デメリットは コスト効率が中途半端 ── 「分類するだけ」のような軽いタスクにも Sonnet を使うのは、コスト視点では明らかに過剰だ。

PoC から本番初期まではこれで十分。次のパターンに進むかどうかは、月次コスト（ch15）と SLA（ch12 評価章）を見ながら決めればよい。

パターン 2：階層運用（Haiku ワーカー + Sonnet 最終判断）

中〜大規模の本番システムでは、軽量モデルがワーカーとして数を捌き、中位モデルが最終判断する という階層構造を取ることが多い。

graph TD
  Req[リクエスト] --> R[ルーター<br/>難易度判定]
  R -->|簡単・大量| H[Haiku 系<br/>分類・抽出・要約]
  R -->|難しい・少数| S[Sonnet 系<br/>最終判断・複雑推論]
  H --> Agg[集約]
  S --> Agg
  Agg --> Res[レスポンス]

国内では 住信 SBI ネット銀行 が NEOBANK ai でこの階層パターンを採用している、ということが AWS 公式日本ブログで触れられている。マルチエージェント構成で、Haiku 系のワーカーが個別タスクを処理し、Sonnet 系が最終判断を担う、というような構成だ。詳しくは ch16 の事例章で具体的なアーキテクチャ図と合わせて扱う。

このパターンのメリットは コスト効率と性能の両立、デメリットは アプリケーションコードの複雑度が上がること（ルーター実装・モデル別エラーハンドリング・観測のモデル分離）。コスト削減効果が複雑度を上回るかを、必ず実測で確かめてから採用する。

パターン 3：Intelligent Prompt Routing で自動ルーティング

階層運用を Bedrock 側のマネージドサービスに任せる のが Intelligent Prompt Routing（2025-04 GA）だ。

graph TD
  Req[リクエスト] --> IPR[Intelligent Prompt Routing<br/>マネージドルーター]
  IPR -->|品質要件低| H[Haiku 系]
  IPR -->|品質要件高| S[Sonnet 系]
  H --> Res[レスポンス]
  S --> Res

AWS の実測値では、RAG ユースケースで 平均 63.6% のコスト削減、リクエストの 87% が Haiku 系にルーティングされた、と公式ブログで報告されている。階層運用と違ってアプリケーションコード側にルーター実装が不要なため、「最小限のコード変更で階層運用の恩恵を受けたい」 ケースで有力な選択肢になる。

詳しくは ch15 のコスト章で具体的な設定方法と、Prompt Caching・Provisioned Throughput との組み合わせ判断まで踏み込む。

3 パターンの選択ガイド

flowchart TD
  Start[モデル使い分けを決める] --> Q1{月次<br/>呼び出し数は？}
  Q1 -->|少ない<br/>PoC〜小規模| P1[パターン 1<br/>単一モデル運用]
  Q1 -->|多い| Q2{タスクの<br/>難易度幅は？}
  Q2 -->|均質| P1
  Q2 -->|広い<br/>簡単〜難しい混在| Q3{ルーターを<br/>自前実装する？}
  Q3 -->|Yes<br/>細かく制御したい| P2[パターン 2<br/>階層運用]
  Q3 -->|No<br/>マネージドに任せたい| P3[パターン 3<br/>Intelligent Prompt Routing]

まずパターン 1 から始めて、コストが見過ごせなくなったタイミングでパターン 2 / 3 に進む ── という順序が現実的だ。「最初から階層運用」は、複雑度の代償が大きく、PoC を遅らせる原因になりやすい。

章の地図と次章への接続

ここまでで、Bedrock のモデル選定に必要な道具は揃った。整理するとこうなる。

5 ファミリー を世代単位で頭に入れる：Claude（Opus/Sonnet/Haiku）/ Nova（Understanding/Creative/Speech）/ Llama（OSS 持ち込み）/ Mistral（領域特化）/ Cohere（RAG 3 点セット）
ユースケース別の指針表 から第一候補を選び、PoC を回す
モデル ID は CRIS 形式 で書く（us.anthropic.claude-sonnet-4-5 のように Prefix 付き）
使い分けパターン は単一モデル→階層→自動ルーティングの順で段階的に進む

ここまでが Part 1「Bedrock を理解する」の最終章だ。位置付け・他社比較・機能カタログ・モデル選定の 4 つの概念地図を手にしたところで、いよいよ Part 2「動くものを作る」 に入る。

次章から、シリーズを貫く架空アプリ helpdesk-ai を実際に組み上げていく。ch06 で Converse API による最初のリクエスト（10 行から始める）、ch07 でストリーミングと Tool Use、ch08 で Knowledge Bases による RAG、ch09 で Bedrock Agents、ch10 で AgentCore ── と段階的に機能を増築していく構成だ。中核モデルには本章で第一候補に挙げた Claude Sonnet 系 を採用し、us.anthropic.claude-sonnet-4-5 を BEDROCK_MODEL_ID 環境変数に置く。準備ができたら、エディタを開いてもらおう。

章末まとめ

2026 年現在、Bedrock には 16 プロバイダー・100+ モデルがある。全部覚えるのではなく 判断軸を持つ ことが重要

実務でカバーすべきモデルファミリーは Claude / Nova / Llama / Mistral / Cohere の 5 つ。世代単位（Opus / Sonnet / Haiku など）でとらえれば十分

ユースケース別の 「第一候補・コスト最適化候補」指針表 から PoC を始め、精度を測ってから入れ替えるのが現実的

モデル ID は素のリージョン単独 ID ではなく Cross-Region Inference Profile（CRIS） 形式（us.anthropic.claude-sonnet-4-5 など）で書く

使い分けは 単一モデル → 階層運用 → Intelligent Prompt Routing の 3 段階で段階的に複雑化する。階層運用の実例は ch16（住信 SBI 等）、自動ルーティングの実装と数値は ch15 で詳説

次章から Part 2 に入り、helpdesk-ai を Converse API から段階的に組み上げる

厳密なモデル数は週単位で増減する。本稿では公式 model-cards.html 掲載分を基準とする。 ↩
2026 年 6 月時点で Bedrock に出ている世代は Claude 4 系（Opus / Sonnet / Haiku）。具体的なマイナーバージョン（4.5 / 4.6 / 4.7 / 4.8 など）は流動的なため、本文では世代単位で扱う。最新は AWS 公式 model-cards を参照。 ↩
ここでは Nova v1（2024 リリース）の構成を示す。2026 年 6 月時点で Nova 2 系（Lite / Sonic など）が別ユーザーガイドで提供開始されているが、詳細仕様は本書のスコープ外とする。最新は公式 docs を参照。 ↩
本シリーズでは Custom Model Import の詳細は扱わない。Llama 4 系の context window や価格は流動的なため、最新は公式 docs を参照のこと。 ↩
CRIS の詳細は付録 A「マルチリージョン設計を Cross-Region Inference Profile で実装する」で扱う。 ↩

モデルを選ぶ ── Claude / Nova / Llama / Mistral / Cohere を使い分ける

全部を覚えなくていい、判断軸を持つ

5 つのモデルファミリーを世代単位で押さえる

Anthropic Claude ── Opus / Sonnet / Haiku の 3 階層

Amazon Nova ── Understanding / Creative / Speech の 7 種

Meta Llama ── OSS で持ち込み可能

Mistral ── 言語・コード・推論・マルチモーダル・音声の専門家集団

Cohere ── Command + Embed + Rerank の RAG 3 点セット

5 ファミリーを 1 枚にまとめる

ユースケース別の指針表

表の読み方の補足

モデル ID は Cross-Region Inference Profile（CRIS）で書く

使い分けパターンは 3 つから選ぶ

パターン 1：単一モデル運用（シンプル）

パターン 2：階層運用（Haiku ワーカー + Sonnet 最終判断）

パターン 3：Intelligent Prompt Routing で自動ルーティング

3 パターンの選択ガイド

章の地図と次章への接続

Footnotes