数字を読む ── 統計的な目をもつ
データが集まった。ダッシュボードが動き始めた。ここで数字を正しく読む技術が試される。
統計学の教科書は世に溢れているが、本章の目的はそれとは違う。数式の導出ではなく、**実務で数字を見るときに使う「判別の型」**を扱う。「平均だけ見て判断しそうになった瞬間に、中央値に目が行く」── そういう反射神経を身につけることが目的である。
「統計的リテラシー」の正体
「統計を勉強した」と「統計的な目がある」は別物である。
❌ 「統計を勉強した」状態
- t 検定の数式を書ける
- p 値の定義を言える
- でも現場の数字を見て「平均使っていいか」の判断が出ない
✅ 「統計的な目がある」状態
- 平均値を見せられた瞬間「中央値は?」と反射的に聞く
- グラフを見て軸・スケール・n の大きさを見る
- 「分布の形」「ばらつき」「外れ値」に自動的に目が行く
- 「小さい n で結論を言わない」のセンサーが効く
本章で扱うのは後者 ── 反射神経としての統計的な目である。
原則 ①:平均は嘘をつく
最も頻繁に使われ、最も簡単に誤る指標が「平均」である。
なぜ平均が嘘をつくのか
平均は「ヘビーテール分布」で特に歪む。プロダクトで扱う多くの指標が、実はヘビーテールの形をしている。
ヘビーテール分布になりがちな指標の例:
- 1 ユーザーあたり収益(ARPU)
- セッション時間
- 記事の閲覧数
- コメント数
- フォロワー数
- 購入金額
- 滞在時間
- 動画視聴時間
どれも「上位数%のユーザー」が全体を引っ張る
具体例:セッション時間
ユーザー10人のセッション時間(分):
2, 3, 3, 4, 5, 5, 6, 7, 8, 157
平均:20 分
中央値:5 分
平均 20 分と聞くと「そこそこ使われている」感
中央値 5 分が実態 ── ほとんどのユーザーは短い
平均を引き上げているのは 1 人の外れ値
この人だけの挙動を「平均像」として語ると歪む
反射神経として:平均を見たら中央値・パーセンタイル
✅ 反射的に確認する癖:
- 平均 → 中央値(median, p50)
- 中央値 → p25 / p75(四分位)
- さらに → p90 / p95 / p99
パーセンタイルの読み方:
p50(中央値):ユーザーの真ん中
p90:上位 10% の境界
p99:上位 1% の境界
どれが「あなたが意思決定したいユーザー層」か?
ケース別のおすすめ
✅ 平均が妥当なケース:
- 正規分布に近い指標(身長、体重、テストの点数)
- ばらつきが小さい指標(ページ表示速度の一部、A/Bテスト結果)
✅ 中央値が妥当なケース:
- ヘビーテール分布(収益、セッション時間、動画視聴)
- 「典型的なユーザー」を語りたいとき
✅ パーセンタイルが妥当なケース:
- パフォーマンス SLA(p95 レスポンスタイム)
- 上位ユーザーの挙動を見たいとき
- 悪いほうの端を見たいとき(エラー率の悪化)
原則 ②:ばらつきを見る
平均・中央値で「中心」を見たら、次はばらつきを見る。同じ平均でも、ばらつきが違えば意味が全く違う。
極端な例
A チーム:毎日の売上(円)
100, 100, 100, 100, 100
平均:100、ばらつきほぼゼロ
B チーム:毎日の売上(円)
500, 0, 0, 500, -400
平均:100、ばらつき大
同じ平均 100 でも:
A チームは安定した 100(予測しやすい)
B チームは当たり外れが大きい 100(リスクが高い)
ばらつきの指標
標準偏差(σ):
平均からの「典型的なズレ幅」
データが正規分布に近いときに有用
分散(σ²):
標準偏差の二乗、数学的扱いが楽
実務では標準偏差のほうが直感的
四分位範囲(IQR = p75 - p25):
中央 50% がどの幅に収まるか
分布が歪んでいるとき(ヘビーテール)はこちらが有用
最大 - 最小(Range):
最も単純、外れ値に弱い
反射神経として:分布の形を見る
数字の代わりにグラフで見るのが最速。
使い分け:
ヒストグラム(Histogram):
→ 分布の形を見る最初の武器
→ ふたこぶラクダ(Bimodal)や極端な偏りに気付ける
箱ひげ図(Box Plot):
→ 中央値・四分位・外れ値が一撃で分かる
→ 複数グループの比較に便利
バイオリン図(Violin Plot):
→ 箱ひげ図 + 分布の形
→ 分布が非対称なときに有用
散布図(Scatter):
→ 二変数の関係を見る基本
→ 相関・クラスタ・外れ値の発見に
分布の形を見ないで平均だけ語らない、これが反射神経として身につけたい最重要項目である。
原則 ③:サンプルサイズの揺れに敏感になる
「3 人中 2 人が好反応でした」は統計的にほぼ無意味だが、言葉だけ聞くと「67%」と響いて、有力に聞こえる。
小標本の怖さ
事例:
「新機能の CTR が 80% 上がった!」
→ 聞くと、対照群 5 人、実験群 4 人で、1 人が追加でクリック
こういう「数字」は毎日起きる
小標本で有利な数字が出ることを検出するほうが難しい
反射神経として:n を真っ先に聞く
数字を見たとき、最初に確認する:
① n = ?(サンプルサイズ)
② 対照群・実験群それぞれの n
③ 観測期間はどれくらいか
n が小さいケースの典型:
- リリース直後のデータ
- 特定セグメントに絞った数字
- 週末・祝日のデータ
- 特殊イベント期間
n に応じた「結論の強さ」のイメージ
厳密な統計の話ではなく、実務感覚として:
n < 30 :「傾向かも」レベル。確信を持たない
n = 30 〜 100 :「方向性」は見える。意思決定の補助
n = 100 〜 1,000 :「違いがあるっぽい」ことは言える
n = 1,000 〜 10,000 :「違いがある」とかなり自信を持って言える
n = 10,000+ :統計的な検定で差が出やすくなる(が、実務的な差かは別問題)
この感覚を持っていると、「n = 20 で 30% 改善」のような発言に警戒が立つ。
原則 ④:スケールを変えて見る
同じデータでも、軸の取り方で見え方が全く変わる。
対数スケール(Log Scale)
ヘビーテール分布のデータは、普通の線形スケールだと上位が潰れて見える。対数スケールにすると全体が見通せる。
例:ユーザーごとの購入金額(分布)
線形スケール:
ヘビーユーザーの金額が飛び抜けて、それ以外が潰れる
→ 「圧倒的多数のユーザー」の挙動が見えない
対数スケール:
上位と下位を同じ視野で捉えられる
→ 分布の形(多峰性など)が見える
対数スケールを使いたいシーン:
✅ 桁が違う値を並べるとき
✅ べき乗則(Power Law)に従いそうなデータ
✅ 成長を率で見たいとき
Y 軸ゼロ始まりの罠
逆方向の話題。
「Y 軸はゼロから始めるのが誠実」── よく言われる原則
⚠️ 実際は場面による:
Y 軸ゼロにすべきケース:
✅ 割合・比率(0〜100% の中での位置が重要)
✅ 大きさの比較を主眼とするとき
✅ 一般向けのレポーティング
Y 軸ゼロを外していいケース:
✅ 温度、pH、株価指数など「ゼロに意味がない」値
✅ 時系列での変化幅を見たいとき
✅ 精密な差を確認したいとき
罠の見分け方:
「ゼロ始まりでないグラフ」を見たとき、
実際の変化幅が視覚の印象と合っているかを確かめる
軸の目盛を必ず確認する習慣
比較軸を揃える
❌ よくある失敗:
先週の絶対値と今週の相対値を同じグラフで並べる
→ 印象操作に繋がる
✅ 比較するときは軸・スケール・期間を揃える
- 前週比なのか、前年同週比なのか
- 絶対値か、率か
- 時間軸は同じ長さか
原則 ⑤:相関と因果の距離
「相関があるから因果がある」と誤解する瞬間は、データ駆動の現場で毎日起きる。
原則の定式化
相関 ≠ 因果
相関 = 因果の必要条件ではあるが、十分条件ではない
因果を示すには:
① 相関がある(A と B が一緒に動く)
② 時間的順序(A が先、B が後)
③ 他の交絡要因の排除
スプリアス相関(見かけの相関)の典型
典型例 1:「アイスクリーム消費量と溺死事故件数に強い相関」
真実:両方とも夏に増える(気温が交絡要因)
典型例 2:「プログラマの身長と年収に正の相関」
真実:両方とも年齢と共に増える(年齢が交絡要因)
典型例 3:「機能 X を使うユーザーは継続率が高い」
真実:アクティブなユーザーほど機能を色々触る
(アクティブさが交絡要因)
交絡の疑い方
数字を見たとき、反射的に問う。
① この二つの変数に、共通の原因はないか?
② 時間的順序は本当に A → B か? 逆はないか?
③ 選択バイアスはないか?(自己選択している可能性)
④ サンプルの代表性は?(特定の層に偏っていないか)
これは Ch.7 の因果推定で深掘りするが、因果を語る前に「他の説明」を尽くす癖を身につけることが出発点である。
原則 ⑥:Simpson のパラドックス
全体で見ると A のほうが良いのに、セグメント別に見ると B のほうが良い ── 全セグメントで良い。これが Simpson のパラドックスである。
典型例(架空の数字)
ある SaaS で、プラン A とプラン B のユーザー満足度を比較した。
全体:
プラン A:満足度 70%(1000 ユーザー)
プラン B:満足度 65%(1000 ユーザー)
→ A の勝ち、に見える
企業規模別に分けると:
大企業:
プラン A:満足度 60%(900 ユーザー)
プラン B:満足度 85%(100 ユーザー)
→ B の圧勝
中小企業:
プラン A:満足度 90%(100 ユーザー)
プラン B:満足度 63%(900 ユーザー)
→ A の勝ち
全セグメントで B が良いはずなのに、全体で見ると A が勝つ
なぜ起きるか
サブグループのサイズが偏っているから:
- プラン A の多くが「中小企業」
- プラン B の多くが「大企業」
→ 集約すると、それぞれのサブグループの特性が
「プランの効果」として見えてしまう
反射神経として:必ずセグメント分解する
数字を見たら反射的に問う:
「このサブグループで同じことが言えるか?」
よくある分解軸:
- ユーザー属性(新規 / 既存、プラン、地域、言語)
- 時間(曜日、時間帯、季節)
- デバイス / プラットフォーム
- 流入元
- コホート(登録時期)
全体の数字だけで判断すると、Simpson に騙される。これは Ch.7 で再登場する重要テーマである。
原則 ⑦:外れ値の扱い
データには必ず外れ値(Outlier)が混ざる。削る・残す・別扱い ── どう扱うかは目的次第。
外れ値の種類
① 測定エラー・バグ
例:セッション時間が 99999 時間(壊れたデータ)
→ 除外すべき
② 例外的だが本物
例:1 億円を一度に購入した顧客
→ 除外してはいけない、別扱いで検討
③ 重要な示唆を含む
例:ヘビーユーザー上位 1%
→ 「外れ値」ではなく「重要セグメント」として分析
④ プラットフォーム依存
例:特定 OS バージョンだけ極端な挙動
→ バグか仕様か切り分け
反射神経として:外れ値を見つけたら「それは誰か」
❌ 機械的に「平均から 3σ 離れたら除外」とやる
→ 本物の現象を捨てる可能性
✅ 外れ値を見つけたら:
① それは具体的に誰のどんな行動か確認
② バグ・エラーの可能性を消す
③ 本物なら、平均だけでなく「外れ値の部分」を別に分析
④ 判断に使う指標を、平均 → 中央値 / トリム平均に変える
トリム平均(Trimmed Mean)
外れ値の影響を排除したい場合、上下 5% を除外した平均のようなテクニックがある。
例:ページ表示速度(ms)
データ:100, 120, 130, 150, 200, 5000(最後は異常値)
普通の平均:950 ms(一つの異常値に引っ張られる)
中央値:140 ms
トリム平均(上下 10% 除外):150 ms
パフォーマンス報告には、中央値 or トリム平均 or p95 を使う
「見る順番」のチェックリスト
本章で扱った 7 原則を、実務で数字を見るときのチェックリストに落とす。
graph TD
A[数字を見せられた] --> B{n は<br/>十分か?}
B -->|No| Z[結論を急がない]
B -->|Yes| C{分布の形は<br/>見たか?}
C -->|No| D[ヒストグラム・箱ひげで確認]
C -->|Yes| E{平均以外<br/>見たか?}
E -->|No| F[中央値・パーセンタイル]
E -->|Yes| G{セグメントで<br/>同じ話か?}
G -->|No| H[サブグループ分解]
G -->|Yes| I{交絡の<br/>疑いはないか?}
I -->|あり| J[他の説明を列挙]
I -->|なし| K[仮結論]
K --> L[外れ値の影響確認]
日常的に以下のセリフを自分に向けて言うだけで、統計的な目はかなり鍛えられる。
✅ 「n は?」
✅ 「中央値は?」
✅ 「分布の形は?」
✅ 「ばらつきは?」
✅ 「セグメント別だと?」
✅ 「交絡要因は?」
✅ 「外れ値は誰?」
やってはいけない「数字いじり」
最後に、よくある悪しき実務を先に潰しておく。これらは Ch.9 のアンチパターンで再度扱う。
❌ 平均だけでレポートする
→ 中央値・分布も添える
❌ グラフの軸を省略する
→ 軸・スケール・n・期間を必ず書く
❌ 「率」と「絶対数」を混ぜる
→ n = 10 の 50% と、n = 10,000 の 50% は別物
❌ 対照群のない「X が Y した」
→ 比較対象なしには意味がない
❌ サブグループを分けずに総合判断
→ Simpson パラドックスのリスク
❌ 気に入らないデータポイントを「外れ値」として除外
→ 理由の記録なしに除外しない
❌ p 値だけで「有意 / 有意でない」を語る
→ 効果量・実務的意味を必ずセット
p 値の詳しい話は Ch.6 で扱うが、「有意であること」と「意味があること」は別物、という原則だけは覚えておいてほしい。
本章のまとめ
✅ 「統計的な目」は反射神経。数式の暗記ではない
✅ 原則 ①:平均は嘘をつく
ヘビーテール分布では中央値・パーセンタイルを見る
✅ 原則 ②:ばらつきを見る
標準偏差・IQR・箱ひげ図。分布の形を常に確認
✅ 原則 ③:n を真っ先に聞く
小標本の揺れを肌感で掴む
✅ 原則 ④:スケールを変えて見る
対数スケール、Y 軸の取り方、比較軸を揃える
✅ 原則 ⑤:相関 ≠ 因果
交絡要因・時間的順序・他の説明を検討
✅ 原則 ⑥:Simpson のパラドックス
セグメント分解を必ずやる
✅ 原則 ⑦:外れ値は「誰か」を確認してから扱う
✅ 数字を見るときのチェックリスト:
n → 分布 → 中央値 → ばらつき → セグメント → 交絡 → 外れ値
統計的な目が身についたら、次は実験の世界に入る。A/B テストは「因果を分離する最も強力な道具」だが、正しく使わないと期待外れの結論を生む。次章ではその論理を掘る。