目次を表示する

データ駆動プロダクト開発の考え方 ── 問いの立て方から判断の論理まで

数字を読む ── 統計的な目をもつ

数字を読む ── 統計的な目をもつ

Ch.5 章の全体像

データが集まった。ダッシュボードが動き始めた。ここで数字を正しく読む技術が試される。

統計学の教科書は世に溢れているが、本章の目的はそれとは違う。数式の導出ではなく、**実務で数字を見るときに使う「判別の型」**を扱う。「平均だけ見て判断しそうになった瞬間に、中央値に目が行く」── そういう反射神経を身につけることが目的である。


「統計的リテラシー」の正体

「統計を勉強した」と「統計的な目がある」は別物である。

❌ 「統計を勉強した」状態
   - t 検定の数式を書ける
   - p 値の定義を言える
   - でも現場の数字を見て「平均使っていいか」の判断が出ない

✅ 「統計的な目がある」状態
   - 平均値を見せられた瞬間「中央値は?」と反射的に聞く
   - グラフを見て軸・スケール・n の大きさを見る
   - 「分布の形」「ばらつき」「外れ値」に自動的に目が行く
   - 「小さい n で結論を言わない」のセンサーが効く

本章で扱うのは後者 ── 反射神経としての統計的な目である。


原則 ①:平均は嘘をつく

最も頻繁に使われ、最も簡単に誤る指標が「平均」である。

なぜ平均が嘘をつくのか

平均は「ヘビーテール分布」で特に歪む。プロダクトで扱う多くの指標が、実はヘビーテールの形をしている。

ヘビーテール分布になりがちな指標の例:
  - 1 ユーザーあたり収益(ARPU)
  - セッション時間
  - 記事の閲覧数
  - コメント数
  - フォロワー数
  - 購入金額
  - 滞在時間
  - 動画視聴時間

どれも「上位数%のユーザー」が全体を引っ張る

具体例:セッション時間

ユーザー10人のセッション時間(分):
  2, 3, 3, 4, 5, 5, 6, 7, 8, 157

  平均:20 分
  中央値:5 分

  平均 20 分と聞くと「そこそこ使われている」感
  中央値 5 分が実態 ── ほとんどのユーザーは短い

  平均を引き上げているのは 1 人の外れ値
  この人だけの挙動を「平均像」として語ると歪む

反射神経として:平均を見たら中央値・パーセンタイル

✅ 反射的に確認する癖:
  - 平均 → 中央値(median, p50)
  - 中央値 → p25 / p75(四分位)
  - さらに → p90 / p95 / p99

パーセンタイルの読み方:
  p50(中央値):ユーザーの真ん中
  p90:上位 10% の境界
  p99:上位 1% の境界

どれが「あなたが意思決定したいユーザー層」か?

ケース別のおすすめ

✅ 平均が妥当なケース:
  - 正規分布に近い指標(身長、体重、テストの点数)
  - ばらつきが小さい指標(ページ表示速度の一部、A/Bテスト結果)

✅ 中央値が妥当なケース:
  - ヘビーテール分布(収益、セッション時間、動画視聴)
  - 「典型的なユーザー」を語りたいとき

✅ パーセンタイルが妥当なケース:
  - パフォーマンス SLA(p95 レスポンスタイム)
  - 上位ユーザーの挙動を見たいとき
  - 悪いほうの端を見たいとき(エラー率の悪化)

原則 ②:ばらつきを見る

平均・中央値で「中心」を見たら、次はばらつきを見る。同じ平均でも、ばらつきが違えば意味が全く違う

極端な例

A チーム:毎日の売上(円)
  100, 100, 100, 100, 100
  平均:100、ばらつきほぼゼロ

B チーム:毎日の売上(円)
  500, 0, 0, 500, -400
  平均:100、ばらつき大

同じ平均 100 でも:
  A チームは安定した 100(予測しやすい)
  B チームは当たり外れが大きい 100(リスクが高い)

ばらつきの指標

標準偏差(σ):
  平均からの「典型的なズレ幅」
  データが正規分布に近いときに有用

分散(σ²):
  標準偏差の二乗、数学的扱いが楽
  実務では標準偏差のほうが直感的

四分位範囲(IQR = p75 - p25):
  中央 50% がどの幅に収まるか
  分布が歪んでいるとき(ヘビーテール)はこちらが有用

最大 - 最小(Range):
  最も単純、外れ値に弱い

反射神経として:分布の形を見る

数字の代わりにグラフで見るのが最速。

使い分け:

ヒストグラム(Histogram):
  → 分布の形を見る最初の武器
  → ふたこぶラクダ(Bimodal)や極端な偏りに気付ける

箱ひげ図(Box Plot):
  → 中央値・四分位・外れ値が一撃で分かる
  → 複数グループの比較に便利

バイオリン図(Violin Plot):
  → 箱ひげ図 + 分布の形
  → 分布が非対称なときに有用

散布図(Scatter):
  → 二変数の関係を見る基本
  → 相関・クラスタ・外れ値の発見に

分布の形を見ないで平均だけ語らない、これが反射神経として身につけたい最重要項目である。


原則 ③:サンプルサイズの揺れに敏感になる

「3 人中 2 人が好反応でした」は統計的にほぼ無意味だが、言葉だけ聞くと「67%」と響いて、有力に聞こえる。

小標本の怖さ

事例:
  「新機能の CTR が 80% 上がった!」
  → 聞くと、対照群 5 人、実験群 4 人で、1 人が追加でクリック

  こういう「数字」は毎日起きる
  小標本で有利な数字が出ることを検出するほうが難しい

反射神経として:n を真っ先に聞く

数字を見たとき、最初に確認する:
  ① n = ?(サンプルサイズ)
  ② 対照群・実験群それぞれの n
  ③ 観測期間はどれくらいか

n が小さいケースの典型:
  - リリース直後のデータ
  - 特定セグメントに絞った数字
  - 週末・祝日のデータ
  - 特殊イベント期間

n に応じた「結論の強さ」のイメージ

厳密な統計の話ではなく、実務感覚として:

n < 30 :「傾向かも」レベル。確信を持たない
n = 30 〜 100 :「方向性」は見える。意思決定の補助
n = 100 〜 1,000 :「違いがあるっぽい」ことは言える
n = 1,000 〜 10,000 :「違いがある」とかなり自信を持って言える
n = 10,000+ :統計的な検定で差が出やすくなる(が、実務的な差かは別問題)

この感覚を持っていると、「n = 20 で 30% 改善」のような発言に警戒が立つ。


原則 ④:スケールを変えて見る

同じデータでも、軸の取り方で見え方が全く変わる。

対数スケール(Log Scale)

ヘビーテール分布のデータは、普通の線形スケールだと上位が潰れて見える。対数スケールにすると全体が見通せる。

例:ユーザーごとの購入金額(分布)

線形スケール:
  ヘビーユーザーの金額が飛び抜けて、それ以外が潰れる
  → 「圧倒的多数のユーザー」の挙動が見えない

対数スケール:
  上位と下位を同じ視野で捉えられる
  → 分布の形(多峰性など)が見える
対数スケールを使いたいシーン:
  ✅ 桁が違う値を並べるとき
  ✅ べき乗則(Power Law)に従いそうなデータ
  ✅ 成長を率で見たいとき

Y 軸ゼロ始まりの罠

逆方向の話題。

「Y 軸はゼロから始めるのが誠実」── よく言われる原則

⚠️ 実際は場面による:

Y 軸ゼロにすべきケース:
  ✅ 割合・比率(0〜100% の中での位置が重要)
  ✅ 大きさの比較を主眼とするとき
  ✅ 一般向けのレポーティング

Y 軸ゼロを外していいケース:
  ✅ 温度、pH、株価指数など「ゼロに意味がない」値
  ✅ 時系列での変化幅を見たいとき
  ✅ 精密な差を確認したいとき

罠の見分け方:
  「ゼロ始まりでないグラフ」を見たとき、
  実際の変化幅が視覚の印象と合っているかを確かめる
  軸の目盛を必ず確認する習慣

比較軸を揃える

❌ よくある失敗:
  先週の絶対値と今週の相対値を同じグラフで並べる
  → 印象操作に繋がる

✅ 比較するときは軸・スケール・期間を揃える
  - 前週比なのか、前年同週比なのか
  - 絶対値か、率か
  - 時間軸は同じ長さか

原則 ⑤:相関と因果の距離

「相関があるから因果がある」と誤解する瞬間は、データ駆動の現場で毎日起きる。

原則の定式化

相関 ≠ 因果

相関 = 因果の必要条件ではあるが、十分条件ではない

因果を示すには:
  ① 相関がある(A と B が一緒に動く)
  ② 時間的順序(A が先、B が後)
  ③ 他の交絡要因の排除

スプリアス相関(見かけの相関)の典型

典型例 1:「アイスクリーム消費量と溺死事故件数に強い相関」
  真実:両方とも夏に増える(気温が交絡要因)

典型例 2:「プログラマの身長と年収に正の相関」
  真実:両方とも年齢と共に増える(年齢が交絡要因)

典型例 3:「機能 X を使うユーザーは継続率が高い」
  真実:アクティブなユーザーほど機能を色々触る
        (アクティブさが交絡要因)

交絡の疑い方

数字を見たとき、反射的に問う。

① この二つの変数に、共通の原因はないか?
② 時間的順序は本当に A → B か? 逆はないか?
③ 選択バイアスはないか?(自己選択している可能性)
④ サンプルの代表性は?(特定の層に偏っていないか)

これは Ch.7 の因果推定で深掘りするが、因果を語る前に「他の説明」を尽くす癖を身につけることが出発点である。


原則 ⑥:Simpson のパラドックス

全体で見ると A のほうが良いのに、セグメント別に見ると B のほうが良い ── 全セグメントで良い。これが Simpson のパラドックスである。

典型例(架空の数字)

ある SaaS で、プラン A とプラン B のユーザー満足度を比較した。

全体:
  プラン A:満足度 70%(1000 ユーザー)
  プラン B:満足度 65%(1000 ユーザー)
  → A の勝ち、に見える

企業規模別に分けると:

  大企業:
    プラン A:満足度 60%(900 ユーザー)
    プラン B:満足度 85%(100 ユーザー)
    → B の圧勝

  中小企業:
    プラン A:満足度 90%(100 ユーザー)
    プラン B:満足度 63%(900 ユーザー)
    → A の勝ち

全セグメントで B が良いはずなのに、全体で見ると A が勝つ

なぜ起きるか

サブグループのサイズが偏っているから:
  - プラン A の多くが「中小企業」
  - プラン B の多くが「大企業」
  → 集約すると、それぞれのサブグループの特性が
     「プランの効果」として見えてしまう

反射神経として:必ずセグメント分解する

数字を見たら反射的に問う:
  「このサブグループで同じことが言えるか?」

よくある分解軸:
  - ユーザー属性(新規 / 既存、プラン、地域、言語)
  - 時間(曜日、時間帯、季節)
  - デバイス / プラットフォーム
  - 流入元
  - コホート(登録時期)

全体の数字だけで判断すると、Simpson に騙される。これは Ch.7 で再登場する重要テーマである。


原則 ⑦:外れ値の扱い

データには必ず外れ値(Outlier)が混ざる。削る・残す・別扱い ── どう扱うかは目的次第

外れ値の種類

① 測定エラー・バグ
   例:セッション時間が 99999 時間(壊れたデータ)
   → 除外すべき

② 例外的だが本物
   例:1 億円を一度に購入した顧客
   → 除外してはいけない、別扱いで検討

③ 重要な示唆を含む
   例:ヘビーユーザー上位 1%
   → 「外れ値」ではなく「重要セグメント」として分析

④ プラットフォーム依存
   例:特定 OS バージョンだけ極端な挙動
   → バグか仕様か切り分け

反射神経として:外れ値を見つけたら「それは誰か」

❌ 機械的に「平均から 3σ 離れたら除外」とやる
   → 本物の現象を捨てる可能性

✅ 外れ値を見つけたら:
  ① それは具体的に誰のどんな行動か確認
  ② バグ・エラーの可能性を消す
  ③ 本物なら、平均だけでなく「外れ値の部分」を別に分析
  ④ 判断に使う指標を、平均 → 中央値 / トリム平均に変える

トリム平均(Trimmed Mean)

外れ値の影響を排除したい場合、上下 5% を除外した平均のようなテクニックがある。

例:ページ表示速度(ms)
  データ:100, 120, 130, 150, 200, 5000(最後は異常値)

  普通の平均:950 ms(一つの異常値に引っ張られる)
  中央値:140 ms
  トリム平均(上下 10% 除外):150 ms

  パフォーマンス報告には、中央値 or トリム平均 or p95 を使う

「見る順番」のチェックリスト

本章で扱った 7 原則を、実務で数字を見るときのチェックリストに落とす。

graph TD
    A[数字を見せられた] --> B{n は<br/>十分か?}
    B -->|No| Z[結論を急がない]
    B -->|Yes| C{分布の形は<br/>見たか?}
    C -->|No| D[ヒストグラム・箱ひげで確認]
    C -->|Yes| E{平均以外<br/>見たか?}
    E -->|No| F[中央値・パーセンタイル]
    E -->|Yes| G{セグメントで<br/>同じ話か?}
    G -->|No| H[サブグループ分解]
    G -->|Yes| I{交絡の<br/>疑いはないか?}
    I -->|あり| J[他の説明を列挙]
    I -->|なし| K[仮結論]
    K --> L[外れ値の影響確認]

日常的に以下のセリフを自分に向けて言うだけで、統計的な目はかなり鍛えられる。

✅ 「n は?」
✅ 「中央値は?」
✅ 「分布の形は?」
✅ 「ばらつきは?」
✅ 「セグメント別だと?」
✅ 「交絡要因は?」
✅ 「外れ値は誰?」

やってはいけない「数字いじり」

最後に、よくある悪しき実務を先に潰しておく。これらは Ch.9 のアンチパターンで再度扱う。

❌ 平均だけでレポートする
   → 中央値・分布も添える

❌ グラフの軸を省略する
   → 軸・スケール・n・期間を必ず書く

❌ 「率」と「絶対数」を混ぜる
   → n = 10 の 50% と、n = 10,000 の 50% は別物

❌ 対照群のない「X が Y した」
   → 比較対象なしには意味がない

❌ サブグループを分けずに総合判断
   → Simpson パラドックスのリスク

❌ 気に入らないデータポイントを「外れ値」として除外
   → 理由の記録なしに除外しない

❌ p 値だけで「有意 / 有意でない」を語る
   → 効果量・実務的意味を必ずセット

p 値の詳しい話は Ch.6 で扱うが、「有意であること」と「意味があること」は別物、という原則だけは覚えておいてほしい。


本章のまとめ

✅ 「統計的な目」は反射神経。数式の暗記ではない

✅ 原則 ①:平均は嘘をつく
   ヘビーテール分布では中央値・パーセンタイルを見る

✅ 原則 ②:ばらつきを見る
   標準偏差・IQR・箱ひげ図。分布の形を常に確認

✅ 原則 ③:n を真っ先に聞く
   小標本の揺れを肌感で掴む

✅ 原則 ④:スケールを変えて見る
   対数スケール、Y 軸の取り方、比較軸を揃える

✅ 原則 ⑤:相関 ≠ 因果
   交絡要因・時間的順序・他の説明を検討

✅ 原則 ⑥:Simpson のパラドックス
   セグメント分解を必ずやる

✅ 原則 ⑦:外れ値は「誰か」を確認してから扱う

✅ 数字を見るときのチェックリスト:
   n → 分布 → 中央値 → ばらつき → セグメント → 交絡 → 外れ値

統計的な目が身についたら、次は実験の世界に入る。A/B テストは「因果を分離する最も強力な道具」だが、正しく使わないと期待外れの結論を生む。次章ではその論理を掘る。