メトリクスを設計する ── 何を測れば仮説を検証できるか

2026/04/26

メトリクスを設計する ── 何を測れば仮説を検証できるか

Ch.3 章の全体像

問いが立ったら、次は翻訳である。「この機能は効いたか」という問いを、「何の数字がどう動けば効いたと判断するか」に翻訳する ── これがメトリクス設計の本質だ。

翻訳は単純に見えて危険が多い。良いメトリクスは判断を鋭くし、悪いメトリクスは組織を誤った方向に走らせる。本章ではその設計の考え方を掘る。

メトリクス設計の公理

まず、本章を貫く三つの公理を置く。

公理 ①：メトリクスは問いの「代理」にすぎない
  → どんなに完璧なメトリクスも、問いそのものではない
  → 代理が本物からどう離れるか、を常に意識する

公理 ②：測ったメトリクスは、その通りに最適化される
  → Goodhart の法則：「測ったものは目標になる、
     目標になったものは指標としての意味を失う」
  → 何を測るかは、組織が何を追うかを決める

公理 ③：メトリクスは単独では動かない
  → 一つの数字を追うと、隠れた指標が悪化する
  → 常にカウンターメトリクスとセットで設計する

この三つを頭に入れた上で、具体的な設計論に入る。

リーディング指標とラギング指標

最重要の区別から始める。

リーディング指標（先行指標 / Leading）
  未来を予測する指標。行動可能。
  例：週次訪問回数、機能 X の利用率、オンボーディング完了率

ラギング指標（遅行指標 / Lagging）
  結果を測る指標。行動しにくい。
  例：月次売上、解約率、LTV、NPS

なぜこの区別が重要か

ラギング指標だけを見ていると、既に手遅れである。

graph LR
    A[行動の変化] -->|数週間〜数ヶ月| B[リーディング指標<br/>動く]
    B -->|数ヶ月〜数四半期| C[ラギング指標<br/>動く]

    style B fill:#9f9,stroke:#333
    style C fill:#f99,stroke:#333

「先月の解約率が悪化した」と気付いてから打てる手は限られる。解約が起きた顧客は既に去っている。一方で、「解約前にユーザーが取る行動」をリーディング指標で捉えていれば、顧客がまだ残っているうちに介入できる。

具体例：SaaS プロダクト

ラギング指標（結果）：
  ラギング：月次解約率 5%（先月判明）
  ↓ これを動かすには 1〜2 四半期前に手を打つ必要がある

リーディング指標候補：
  ① 週次アクティブ率の下落
  ② 機能 X の利用回数の減少
  ③ カスタマーサポートへの問い合わせ増加
  ④ チームメンバーの招待数の減少
  ⑤ 支払情報の更新が遅延している比率

設計の要諦：
  ラギング指標が動く「何週間前」に
  リーディング指標が動くかを実測して確かめる

良いリーディング指標の条件は、以下の二つを両方満たすことである。

✅ ラギング指標と相関している（予測力がある）
✅ 自社の施策で動かせる（行動可能性がある）

どちらか片方だけでは不十分：
  - 予測力だけ → 「株価」のような指標（動かせない）
  - 行動可能性だけ → 「ログイン回数」（結果に繋がるか不明）

North Star Metric（NSM）

「一つだけ追うならこれ」と組織で合意する指標。2010 年代後半から広まった概念で、使い方を誤ると害になるが、正しく使うと組織を揃える力がある。

NSM の三条件

① プロダクトが提供する価値を反映している
   ❌ 「売上」そのもの（価値の結果であって価値ではない）
   ✅ 「ユーザーが価値を得た回数」

② ユーザー行動の集約である
   ❌ 社内の運用 KPI
   ✅ ユーザー側に起きる出来事のカウント

③ 成長と収益の両方に結びつく
   ❌ 登録数（価値提供していなくても増える）
   ✅ アクティブ化した週の回数

NSM の例（事例ベース、概念）

Airbnb：予約された宿泊夜数（nights booked）
  → ユーザー側の出来事、ホストも恩恵、売上に直結

Slack：アクティブに利用するチーム数（大規模送信メッセージ）
  → 「50 メッセージ送信」がアクティブ化の閾値と特定された

Spotify：月間聴取時間
  → コンテンツ消費 = ユーザーの価値享受

NSM の注意点

⚠️ NSM を過信すると：
   一つの数字を追うあまり、他が壊れる
   例：「宿泊夜数」を追うと、キャンセル率やホスト満足度が見えない

対策：
  NSM は単独では動かさない
  NSM + カウンターメトリクス + ガードレール のセットで扱う

KPI ツリー ── NSM を分解する

NSM は抽象度が高く、日々の施策に落ちにくい。そこで KPI ツリー で分解する。

graph TD
    NSM[NSM: 月間価値提供回数] --> A[① ユーザー数]
    NSM --> B[② ユーザーあたり<br/>価値提供回数]

    A --> A1[新規獲得数]
    A --> A2[継続率]
    A --> A3[復帰率]

    B --> B1[アクティブ率]
    B --> B2[1 セッション<br/>あたり価値]

    A1 --> A11[流入数 × CVR]
    A2 --> A21[オンボーディング<br/>完了率]
    A2 --> A22[習慣化率]

    B1 --> B11[機能発見率]
    B1 --> B12[機能定着率]

    style NSM fill:#fcc,stroke:#333,stroke-width:3px

分解の原則

① MECE を意識する（漏れなくダブりなく）
   掛け算 / 足し算で NSM に戻せる関係を保つ

② 各ノードに担当を置ける粒度まで分解する
   「このチームがこの数字を動かす」が明確に

③ 分解は 3〜4 階層で止める
   深すぎると見失う、浅すぎると施策に落ちない

掛け算分解と足し算分解

掛け算分解：
  NSM = ユーザー数 × アクティブ率 × 1人あたり回数

足し算分解：
  新規 NSM = 新規獲得ユーザーの NSM + 既存ユーザーの NSM

掛け算分解はどこを伸ばすかの議論に、足し算分解はどの層から来ているかの議論に向く。組み合わせて使う。

カウンターメトリクス（対指標）

「この指標を上げる施策は、別の指標を下げていないか？」を監視する指標。Goodhart の法則への防衛線。

なぜ必要か

典型的な失敗例：

目標：  動画の視聴時間を増やす
施策：  自動再生、次の動画を強制表示、広告スキップ強制
結果：  視聴時間は増えた ✅
副作用：
  - ユーザー満足度が下がる
  - 翌週の復帰率が下がる
  - ブランド毀損

→ カウンターメトリクスを置いていなかったので気付かない

カウンターメトリクスの設計

主指標に対して「裏側」「副作用」「質」を置く

主指標： 視聴時間
カウンター：
  ✅ 視聴後の満足度（セッション終わりの CSAT）
  ✅ 翌週復帰率
  ✅ ブロック・解除率

主指標： コンバージョン率
カウンター：
  ✅ コンバージョン後のキャンセル率
  ✅ 課金後 30 日の利用継続率
  ✅ カスタマーサポート問い合わせ率

主指標： 開発リードタイム短縮
カウンター：
  ✅ 変更失敗率
  ✅ コードレビュー品質
  ✅ インシデント件数

主指標を動かすたびに、必ずカウンターメトリクスも確認する文化を作る。これだけで暴走を防げる。

ガードレールメトリクス

カウンターメトリクスに近いが、少し役割が違う。「この値を割ったら施策を止める」という下限を定める指標。

例：ページ表示速度
  ガードレール：p95 が 2 秒を超えたら新施策を止める

例：エラー率
  ガードレール：5分間のエラー率が 1% を超えたら自動ロールバック

例：ユーザー満足度
  ガードレール：NPS が 40 を下回ったら全施策を凍結

A/B テストや段階ロールアウトでは、主指標・カウンターメトリクス・ガードレールの三点セットを必ず定義する。これが Ch.6 で詳しく触れる「勝ったのに止める判断」の基礎になる。

Goodhart の法則と「測ると壊れる」問題

ここで Ch.1 の公理 ② に戻ってくる。

Goodhart’s Law: “When a measure becomes a target, it ceases to be a good measure.” （指標が目標になると、それは良い指標ではなくなる）

これはデータ駆動組織の深刻な病である。

代表的な事例

事例 1：カスタマーサポートの解決時間
  指標：平均応答時間を短くする
  結果：適当な返信で早く閉じる、結局ユーザーは再問合せ
  教訓：「早さ」を測ると「質」が壊れる

事例 2：コードコミット数
  指標：エンジニアのコミット数を評価
  結果：意味のない粒度で分けてコミット
  教訓：「量」を測ると「粒度」が壊れる

事例 3：OKR の達成率
  指標：OKR 達成率 100% を目指す
  結果：簡単に達成できる OKR しか立てなくなる
  教訓：「達成」を測ると「挑戦」が壊れる

事例 4：デプロイ頻度
  指標：1日何回デプロイしたか
  結果：意味のない変更を細分化してデプロイ
  教訓：「頻度」を測ると「変更の質」が壊れる

防衛策

✅ 主指標に対してカウンターメトリクスを置く
✅ 指標は「結果」を測り、「プロセス」は測らない
✅ 指標を定期的に見直す（3〜6 ヶ月）
✅ 「指標が操作されていないか」の健全性チェック
✅ 個人評価に直結させない（組織レベルで使う）

特に最後が効く。個人の評価に直結した指標は必ず操作される。これは人間の合理性であって悪意ではない。だからこそ指標は組織・プロダクトレベルで使い、個人評価には別の軸（質的評価・ピアレビュー等）を混ぜる。

代理変数（Proxy）の罠

「本当に測りたいもの」が測れないので、近いものを代わりに測る ── これが代理変数である。

測りたいもの：ユーザーの「価値体験」
  ↓ 測れない（主観・文脈依存）
代理変数の候補：
  - アクティブ時間
  - 機能利用回数
  - リテンション

ここで罠：
  代理変数が本物とどれだけ離れているかを忘れる
  → 「アクティブ時間が伸びた = 価値が伸びた」と誤って等号を引く

代理変数を使うときのチェック

① 本物とどの程度相関するかを一度は実測する
   ユーザーインタビューや NPS と突き合わせる

② 代理変数と本物がズレる条件を列挙する
   例：アクティブ時間は、UI が使いにくくても伸びる

③ 複数の代理変数を組み合わせる
   単独の代理より、複数の代理が同時に動くほうが信頼できる

④ 定期的に「本物」を直接測る
   四半期に一度は NPS、ユーザーインタビュー、定性調査

代理変数を忘れずに「これは代理である」と書いておくことが地味に効く。ダッシュボードに「※ xxx の代理指標」と注記するだけで、数字の読み方が変わる。

Input / Output / Outcome の三層

最後に、メトリクスを時間軸で三層に分ける考え方を紹介する。

graph LR
    A[Input<br/>投入] --> B[Output<br/>出力] --> C[Outcome<br/>成果]

    A1["エンジニアの投入時間<br/>開発予算<br/>マーケ支出"] -.- A
    B1["リリースした機能数<br/>配信したコンテンツ数<br/>送ったメール数"] -.- B
    C1["ユーザー価値<br/>リテンション<br/>売上"] -.- C

三層の関係

Input（投入）： 自分がコントロールできる
Output（出力）： Input の結果として生まれる
Outcome（成果）： Output がユーザーに起こす変化

よくある失敗

❌ Output を Outcome と勘違いする

例：「今期は 10 機能リリースした」（Output）
  → これは成果ではない
  → リリースした 10 機能が、ユーザーの何をどう変えたか（Outcome）が成果

例：「広告キャンペーンで 100 万 imp 獲得」（Output）
  → これは配信量であって成果ではない
  → 配信後のユーザー行動変化（Outcome）が成果

Output の達成を Outcome と誤認する組織は、忙しいのに事業が伸びない。三層のどこを追っているかを常に意識する。

メトリクス設計の実践手順

ここまでの概念を手順に落とす。

Step 1：問いを書き出す（Ch.2 の結論）
  → 「機能 X が効いたかを判断する」

Step 2：ラギング指標を特定する
  → 最終的に動かしたい数字
  → 例：継続率、LTV、NPS

Step 3：リーディング指標を候補出しする
  → 施策で動かせる、ラギングと相関する
  → 例：利用回数、機能発見率、週次訪問

Step 4：主指標を 1〜2 個に絞る
  → 追う指標を絞らないと組織が散る

Step 5：カウンターメトリクスを置く
  → 主指標の副作用を監視する

Step 6：ガードレールを定める
  → 「ここを割ったら止める」の下限

Step 7：Input / Output / Outcome を分けて記述
  → 自分が混同していないか最終チェック

本章のまとめ

✅ メトリクスは問いの「翻訳」。翻訳の仕方で見える風景が変わる

✅ 三つの公理：
   ① メトリクスは代理にすぎない
   ② 測ったものはその通りに最適化される（Goodhart）
   ③ 単独では動かさない（セットで設計）

✅ リーディング vs ラギング：
   ラギングだけでは手遅れ、リーディングで先回りする

✅ North Star Metric：一つだけ追う指標
   価値 × ユーザー行動 × 成長・収益 に結びつく

✅ KPI ツリーで NSM を分解
   掛け算分解 / 足し算分解を使い分ける

✅ カウンターメトリクス・ガードレールを必ずセットで
   Goodhart への防衛線

✅ 代理変数は「代理である」と明記する

✅ Input / Output / Outcome を分けて考える
   Output の達成を Outcome と勘違いしない

メトリクスが決まったら、次は実際に測る準備に入る。Tracking Plan ── 計測の設計図を作る段階である。これがズレると、全てが手戻りになる。