数字を読む ── 統計的な目をもつ

2026/04/26

数字を読む ── 統計的な目をもつ

Ch.5 章の全体像

データが集まった。ダッシュボードが動き始めた。ここで数字を正しく読む技術が試される。

統計学の教科書は世に溢れているが、本章の目的はそれとは違う。数式の導出ではなく、**実務で数字を見るときに使う「判別の型」**を扱う。「平均だけ見て判断しそうになった瞬間に、中央値に目が行く」── そういう反射神経を身につけることが目的である。

「統計的リテラシー」の正体

「統計を勉強した」と「統計的な目がある」は別物である。

❌ 「統計を勉強した」状態
   - t 検定の数式を書ける
   - p 値の定義を言える
   - でも現場の数字を見て「平均使っていいか」の判断が出ない

✅ 「統計的な目がある」状態
   - 平均値を見せられた瞬間「中央値は？」と反射的に聞く
   - グラフを見て軸・スケール・n の大きさを見る
   - 「分布の形」「ばらつき」「外れ値」に自動的に目が行く
   - 「小さい n で結論を言わない」のセンサーが効く

本章で扱うのは後者 ── 反射神経としての統計的な目である。

原則 ①：平均は嘘をつく

最も頻繁に使われ、最も簡単に誤る指標が「平均」である。

なぜ平均が嘘をつくのか

平均は「ヘビーテール分布」で特に歪む。プロダクトで扱う多くの指標が、実はヘビーテールの形をしている。

ヘビーテール分布になりがちな指標の例：
  - 1 ユーザーあたり収益（ARPU）
  - セッション時間
  - 記事の閲覧数
  - コメント数
  - フォロワー数
  - 購入金額
  - 滞在時間
  - 動画視聴時間

どれも「上位数%のユーザー」が全体を引っ張る

具体例：セッション時間

ユーザー10人のセッション時間（分）：
  2, 3, 3, 4, 5, 5, 6, 7, 8, 157

  平均：20 分
  中央値：5 分

  平均 20 分と聞くと「そこそこ使われている」感
  中央値 5 分が実態 ── ほとんどのユーザーは短い

  平均を引き上げているのは 1 人の外れ値
  この人だけの挙動を「平均像」として語ると歪む

反射神経として：平均を見たら中央値・パーセンタイル

✅ 反射的に確認する癖：
  - 平均 → 中央値（median, p50）
  - 中央値 → p25 / p75（四分位）
  - さらに → p90 / p95 / p99

パーセンタイルの読み方：
  p50（中央値）：ユーザーの真ん中
  p90：上位 10% の境界
  p99：上位 1% の境界

どれが「あなたが意思決定したいユーザー層」か？

ケース別のおすすめ

✅ 平均が妥当なケース：
  - 正規分布に近い指標（身長、体重、テストの点数）
  - ばらつきが小さい指標（ページ表示速度の一部、A/Bテスト結果）

✅ 中央値が妥当なケース：
  - ヘビーテール分布（収益、セッション時間、動画視聴）
  - 「典型的なユーザー」を語りたいとき

✅ パーセンタイルが妥当なケース：
  - パフォーマンス SLA（p95 レスポンスタイム）
  - 上位ユーザーの挙動を見たいとき
  - 悪いほうの端を見たいとき（エラー率の悪化）

原則 ②：ばらつきを見る

平均・中央値で「中心」を見たら、次はばらつきを見る。同じ平均でも、ばらつきが違えば意味が全く違う。

極端な例

A チーム：毎日の売上（円）
  100, 100, 100, 100, 100
  平均：100、ばらつきほぼゼロ

B チーム：毎日の売上（円）
  500, 0, 0, 500, -400
  平均：100、ばらつき大

同じ平均 100 でも：
  A チームは安定した 100（予測しやすい）
  B チームは当たり外れが大きい 100（リスクが高い）

ばらつきの指標

標準偏差（σ）：
  平均からの「典型的なズレ幅」
  データが正規分布に近いときに有用

分散（σ²）：
  標準偏差の二乗、数学的扱いが楽
  実務では標準偏差のほうが直感的

四分位範囲（IQR = p75 - p25）：
  中央 50% がどの幅に収まるか
  分布が歪んでいるとき（ヘビーテール）はこちらが有用

最大 - 最小（Range）：
  最も単純、外れ値に弱い

反射神経として：分布の形を見る

数字の代わりにグラフで見るのが最速。

使い分け：

ヒストグラム（Histogram）：
  → 分布の形を見る最初の武器
  → ふたこぶラクダ（Bimodal）や極端な偏りに気付ける

箱ひげ図（Box Plot）：
  → 中央値・四分位・外れ値が一撃で分かる
  → 複数グループの比較に便利

バイオリン図（Violin Plot）：
  → 箱ひげ図 + 分布の形
  → 分布が非対称なときに有用

散布図（Scatter）：
  → 二変数の関係を見る基本
  → 相関・クラスタ・外れ値の発見に

分布の形を見ないで平均だけ語らない、これが反射神経として身につけたい最重要項目である。

原則 ③：サンプルサイズの揺れに敏感になる

「3 人中 2 人が好反応でした」は統計的にほぼ無意味だが、言葉だけ聞くと「67%」と響いて、有力に聞こえる。

小標本の怖さ

事例：
  「新機能の CTR が 80% 上がった！」
  → 聞くと、対照群 5 人、実験群 4 人で、1 人が追加でクリック

  こういう「数字」は毎日起きる
  小標本で有利な数字が出ることを検出するほうが難しい

反射神経として：n を真っ先に聞く

数字を見たとき、最初に確認する：
  ① n = ?（サンプルサイズ）
  ② 対照群・実験群それぞれの n
  ③ 観測期間はどれくらいか

n が小さいケースの典型：
  - リリース直後のデータ
  - 特定セグメントに絞った数字
  - 週末・祝日のデータ
  - 特殊イベント期間

n に応じた「結論の強さ」のイメージ

厳密な統計の話ではなく、実務感覚として：

n < 30 ：「傾向かも」レベル。確信を持たない
n = 30 〜 100 ：「方向性」は見える。意思決定の補助
n = 100 〜 1,000 ：「違いがあるっぽい」ことは言える
n = 1,000 〜 10,000 ：「違いがある」とかなり自信を持って言える
n = 10,000+ ：統計的な検定で差が出やすくなる（が、実務的な差かは別問題）

この感覚を持っていると、「n = 20 で 30% 改善」のような発言に警戒が立つ。

原則 ④：スケールを変えて見る

同じデータでも、軸の取り方で見え方が全く変わる。

対数スケール（Log Scale）

ヘビーテール分布のデータは、普通の線形スケールだと上位が潰れて見える。対数スケールにすると全体が見通せる。

例：ユーザーごとの購入金額（分布）

線形スケール：
  ヘビーユーザーの金額が飛び抜けて、それ以外が潰れる
  → 「圧倒的多数のユーザー」の挙動が見えない

対数スケール：
  上位と下位を同じ視野で捉えられる
  → 分布の形（多峰性など）が見える

対数スケールを使いたいシーン：
  ✅ 桁が違う値を並べるとき
  ✅ べき乗則（Power Law）に従いそうなデータ
  ✅ 成長を率で見たいとき

Y 軸ゼロ始まりの罠

逆方向の話題。

「Y 軸はゼロから始めるのが誠実」── よく言われる原則

⚠️ 実際は場面による：

Y 軸ゼロにすべきケース：
  ✅ 割合・比率（0〜100% の中での位置が重要）
  ✅ 大きさの比較を主眼とするとき
  ✅ 一般向けのレポーティング

Y 軸ゼロを外していいケース：
  ✅ 温度、pH、株価指数など「ゼロに意味がない」値
  ✅ 時系列での変化幅を見たいとき
  ✅ 精密な差を確認したいとき

罠の見分け方：
  「ゼロ始まりでないグラフ」を見たとき、
  実際の変化幅が視覚の印象と合っているかを確かめる
  軸の目盛を必ず確認する習慣

比較軸を揃える

❌ よくある失敗：
  先週の絶対値と今週の相対値を同じグラフで並べる
  → 印象操作に繋がる

✅ 比較するときは軸・スケール・期間を揃える
  - 前週比なのか、前年同週比なのか
  - 絶対値か、率か
  - 時間軸は同じ長さか

原則 ⑤：相関と因果の距離

「相関があるから因果がある」と誤解する瞬間は、データ駆動の現場で毎日起きる。

原則の定式化

相関 ≠ 因果

相関 = 因果の必要条件ではあるが、十分条件ではない

因果を示すには：
  ① 相関がある（A と B が一緒に動く）
  ② 時間的順序（A が先、B が後）
  ③ 他の交絡要因の排除

スプリアス相関（見かけの相関）の典型

典型例 1：「アイスクリーム消費量と溺死事故件数に強い相関」
  真実：両方とも夏に増える（気温が交絡要因）

典型例 2：「プログラマの身長と年収に正の相関」
  真実：両方とも年齢と共に増える（年齢が交絡要因）

典型例 3：「機能 X を使うユーザーは継続率が高い」
  真実：アクティブなユーザーほど機能を色々触る
        （アクティブさが交絡要因）

交絡の疑い方

数字を見たとき、反射的に問う。

① この二つの変数に、共通の原因はないか？
② 時間的順序は本当に A → B か？ 逆はないか？
③ 選択バイアスはないか？（自己選択している可能性）
④ サンプルの代表性は？（特定の層に偏っていないか）

これは Ch.7 の因果推定で深掘りするが、因果を語る前に「他の説明」を尽くす癖を身につけることが出発点である。

原則 ⑥：Simpson のパラドックス

全体で見ると A のほうが良いのに、セグメント別に見ると B のほうが良い ── 全セグメントで良い。これが Simpson のパラドックスである。

典型例（架空の数字）

ある SaaS で、プラン A とプラン B のユーザー満足度を比較した。

全体：
  プラン A：満足度 70%（1000 ユーザー）
  プラン B：満足度 65%（1000 ユーザー）
  → A の勝ち、に見える

企業規模別に分けると：

  大企業：
    プラン A：満足度 60%（900 ユーザー）
    プラン B：満足度 85%（100 ユーザー）
    → B の圧勝

  中小企業：
    プラン A：満足度 90%（100 ユーザー）
    プラン B：満足度 63%（900 ユーザー）
    → A の勝ち

全セグメントで B が良いはずなのに、全体で見ると A が勝つ

なぜ起きるか

サブグループのサイズが偏っているから：
  - プラン A の多くが「中小企業」
  - プラン B の多くが「大企業」
  → 集約すると、それぞれのサブグループの特性が
     「プランの効果」として見えてしまう

反射神経として：必ずセグメント分解する

数字を見たら反射的に問う：
  「このサブグループで同じことが言えるか？」

よくある分解軸：
  - ユーザー属性（新規 / 既存、プラン、地域、言語）
  - 時間（曜日、時間帯、季節）
  - デバイス / プラットフォーム
  - 流入元
  - コホート（登録時期）

全体の数字だけで判断すると、Simpson に騙される。これは Ch.7 で再登場する重要テーマである。

原則 ⑦：外れ値の扱い

データには必ず外れ値（Outlier）が混ざる。削る・残す・別扱い ── どう扱うかは目的次第。

外れ値の種類

① 測定エラー・バグ
   例：セッション時間が 99999 時間（壊れたデータ）
   → 除外すべき

② 例外的だが本物
   例：1 億円を一度に購入した顧客
   → 除外してはいけない、別扱いで検討

③ 重要な示唆を含む
   例：ヘビーユーザー上位 1%
   → 「外れ値」ではなく「重要セグメント」として分析

④ プラットフォーム依存
   例：特定 OS バージョンだけ極端な挙動
   → バグか仕様か切り分け

反射神経として：外れ値を見つけたら「それは誰か」

❌ 機械的に「平均から 3σ 離れたら除外」とやる
   → 本物の現象を捨てる可能性

✅ 外れ値を見つけたら：
  ① それは具体的に誰のどんな行動か確認
  ② バグ・エラーの可能性を消す
  ③ 本物なら、平均だけでなく「外れ値の部分」を別に分析
  ④ 判断に使う指標を、平均 → 中央値 / トリム平均に変える

トリム平均（Trimmed Mean）

外れ値の影響を排除したい場合、上下 5% を除外した平均のようなテクニックがある。

例：ページ表示速度（ms）
  データ：100, 120, 130, 150, 200, 5000（最後は異常値）

  普通の平均：950 ms（一つの異常値に引っ張られる）
  中央値：140 ms
  トリム平均（上下 10% 除外）：150 ms

  パフォーマンス報告には、中央値 or トリム平均 or p95 を使う

「見る順番」のチェックリスト

本章で扱った 7 原則を、実務で数字を見るときのチェックリストに落とす。

graph TD
    A[数字を見せられた] --> B{n は<br/>十分か？}
    B -->|No| Z[結論を急がない]
    B -->|Yes| C{分布の形は<br/>見たか？}
    C -->|No| D[ヒストグラム・箱ひげで確認]
    C -->|Yes| E{平均以外<br/>見たか？}
    E -->|No| F[中央値・パーセンタイル]
    E -->|Yes| G{セグメントで<br/>同じ話か？}
    G -->|No| H[サブグループ分解]
    G -->|Yes| I{交絡の<br/>疑いはないか？}
    I -->|あり| J[他の説明を列挙]
    I -->|なし| K[仮結論]
    K --> L[外れ値の影響確認]

日常的に以下のセリフを自分に向けて言うだけで、統計的な目はかなり鍛えられる。

✅ 「n は？」
✅ 「中央値は？」
✅ 「分布の形は？」
✅ 「ばらつきは？」
✅ 「セグメント別だと？」
✅ 「交絡要因は？」
✅ 「外れ値は誰？」

やってはいけない「数字いじり」

最後に、よくある悪しき実務を先に潰しておく。これらは Ch.9 のアンチパターンで再度扱う。

❌ 平均だけでレポートする
   → 中央値・分布も添える

❌ グラフの軸を省略する
   → 軸・スケール・n・期間を必ず書く

❌ 「率」と「絶対数」を混ぜる
   → n = 10 の 50% と、n = 10,000 の 50% は別物

❌ 対照群のない「X が Y した」
   → 比較対象なしには意味がない

❌ サブグループを分けずに総合判断
   → Simpson パラドックスのリスク

❌ 気に入らないデータポイントを「外れ値」として除外
   → 理由の記録なしに除外しない

❌ p 値だけで「有意 / 有意でない」を語る
   → 効果量・実務的意味を必ずセット

p 値の詳しい話は Ch.6 で扱うが、「有意であること」と「意味があること」は別物、という原則だけは覚えておいてほしい。

本章のまとめ

✅ 「統計的な目」は反射神経。数式の暗記ではない

✅ 原則 ①：平均は嘘をつく
   ヘビーテール分布では中央値・パーセンタイルを見る

✅ 原則 ②：ばらつきを見る
   標準偏差・IQR・箱ひげ図。分布の形を常に確認

✅ 原則 ③：n を真っ先に聞く
   小標本の揺れを肌感で掴む

✅ 原則 ④：スケールを変えて見る
   対数スケール、Y 軸の取り方、比較軸を揃える

✅ 原則 ⑤：相関 ≠ 因果
   交絡要因・時間的順序・他の説明を検討

✅ 原則 ⑥：Simpson のパラドックス
   セグメント分解を必ずやる

✅ 原則 ⑦：外れ値は「誰か」を確認してから扱う

✅ 数字を見るときのチェックリスト：
   n → 分布 → 中央値 → ばらつき → セグメント → 交絡 → 外れ値

統計的な目が身についたら、次は実験の世界に入る。A/B テストは「因果を分離する最も強力な道具」だが、正しく使わないと期待外れの結論を生む。次章ではその論理を掘る。