第1章 1-4 / データの記述と要約

散らばりの指標

1. 偏差 ─ 散らばりの出発点

2つのクラスの平均点がどちらも70点でも、片方は全員70点前後、もう片方は0点と100点が半々……ぜんぜん違いますよね。この「違い」を数字で表すのが散らばりの指標です。中心（代表値）だけを見ていては、データの姿を見誤ります。

散らばりを測る第一歩は、各データが平均からどれだけ離れているかを見ることです。この「値 − 平均」を偏差と呼びます。データ $x_i$ の偏差は $x_i - \bar{x}$ です。

ところが、偏差をそのまま全部足してもうまくいきません。平均より大きい値（正の偏差）と小さい値（負の偏差）が打ち消し合って、$\sum_{i=1}^{n} (x_i - \bar{x}) = 0$、つまり合計はかならず0になってしまうからです。

この「偏差の合計はかならず0」は、統計検定3級の分散・標準偏差でも学んだ内容です。すでに知っている方はさらりと流してもらってOK。忘れていた方は、リンク先で復習してから戻ってきてください。

だから散らばりの指標として「偏差の合計」は使えません。そこで登場するアイデアが、偏差を2乗してから足すこと。2乗すれば符号が消えて全部プラスになり、打ち消し合いが起きません。これが次の分散につながります。

2. 分散と標準偏差

偏差を2乗して平均的にならしたものが分散です。ただし「何で割るか」で2つの流儀があります。データの個数 $n$ で割るものを標本分散、$n-1$ で割るものを不偏分散と呼びます。

FORMULA — 試験に出る式 $$s_n^{2} = \frac{1}{n}\sum_{i=1}^{n} (x_i - \bar{x})^{2} \qquad\qquad s^{2} = \frac{1}{n-1}\sum_{i=1}^{n} (x_i - \bar{x})^{2}$$

左が標本分散 $s_n^2$（$n$ で割る）、右が不偏分散 $s^2$（$n-1$ で割る）。違いは分母だけです。

では、なぜ $n-1$ で割るほうを使うのでしょうか。直感的には、手元のデータ（標本）から計算した平均 $\bar{x}$ を使って偏差を測っているぶん、本当の母集団のばらつきを少し小さく見積もってしまうクセがあるためです。

$n-1$ で割ることでこの過小評価を補正でき、母集団の分散を平均的にちょうどよく推定できます（この「平均的に正しく当てる」性質を不偏性と呼び、くわしくは第3章で導出します）。本講座では、これ以降$n-1$ で割る不偏分散 $s^2$ を分散の基本とします。

手元のデータを「より大きな母集団から取り出した標本」とみなし、母集団のばらつきを推定したい、という2級の立場に合うからです。問題文が「標本分散」と明示している場合だけ$n$で割る、と覚えておけば安心です。

標準偏差

分散は偏差を2乗しているので、単位がもとのデータの2乗（点なら「点²」）になり、感覚的につかみにくくなります。そこで分散の正の平方根をとって単位をもとに戻したのが標準偏差です。

不偏分散にもとづく標準偏差を $s$ と書きます。分散は2乗の世界、標準偏差は元の単位に戻したもの、と覚えておくと感覚がつかみやすくなります。

FORMULA — 試験に出る式 $$s = \sqrt{s^{2}} = \sqrt{\frac{1}{n-1}\sum_{i=1}^{n} (x_i - \bar{x})^{2}}$$

標準偏差はデータと同じ単位を持つので、「平均からだいたいこれくらいバラついている」と直感的に読めます。

5人のテスト点数 $60, 64, 68, 72, 76$ で計算してみましょう。まず平均は $\bar{x}=68$。偏差は $-8,\ -4,\ 0,\ 4,\ 8$（合計はちゃんと $0$）、偏差の2乗は $64,\ 16,\ 0,\ 16,\ 64$、その合計 $\sum (x_i-\bar{x})^2 = 160$ です。

不偏分散は $s^2 = \dfrac{160}{5-1} = \dfrac{160}{4} = 40$、標準偏差は $s = \sqrt{40} \approx 6.32$（点）となります。参考までに、もし標本分散（$n$ で割る）なら $s_n^2 = \dfrac{160}{5} = 32$、その標準偏差は $\sqrt{32}\approx 5.66$。分母が小さい不偏分散のほうが、わずかに大きく出ます。

3. 範囲と四分位範囲（IQR）

分散・標準偏差はすべての値を使う指標ですが、もっと手軽に散らばりを表す方法もあります。

範囲

範囲（レンジ）は、いちばん大きい値からいちばん小さい値を引いたもの（最大値 − 最小値）です。計算は簡単ですが、両端の2個しか見ないので、外れ値が1つあるだけで大きく振れてしまうのが弱点です。

四分位範囲（IQR）

そこで、外れ値に強い散らばりの指標が四分位範囲（IQR）です。データを小さい順に並べて4等分する境目を四分位数と呼び、下から25%の位置を第1四分位数 $Q_1$、50%（=中央値）を $Q_2$、75%を第3四分位数 $Q_3$ とします。IQRは $Q_3$ と $Q_1$ の差、つまり真ん中50%が占める幅です。

FORMULA — 試験に出る式 $$\text{IQR} = Q_3 - Q_1$$

中央付近の50%だけを見るので、両端の極端な値に振り回されません。

$Q_1$・$Q_3$ の求め方の手順はこうです。①データを小さい順に並べ、中央値 $Q_2$ で全体を「下半分」と「上半分」に分けます。②下半分の中央値が $Q_1$、上半分の中央値が $Q_3$ です。ここで気をつけたいのが、データ数 $n$ が奇数のときの扱い。中央値そのものはどちらの半分にも入れません（除外します）。$n$ が偶数のときは、ちょうど半分ずつに分けるだけでOKです（中央値は真ん中2個の平均なので、含めるか除外するかで迷うことがそもそもありません）。なお四分位数の定義には流儀がいくつかありますが、2級の手計算ではこの「中央値を除外して半分に分ける」方式で統一します。

具体例で確認してみましょう。データは $10, 20, 30, 40, 50, 60, 70, 80, 200$（$n=9$、昇順）です。中央値は5番目の $Q_2=50$。$n=9$ は奇数なので、この $50$ を除外して、下半分 $10, 20, 30, 40$ と上半分 $60, 70, 80, 200$ に分けます。下半分（4個）の中央値は $Q_1=\dfrac{20+30}{2}=25$、上半分の中央値は $Q_3=\dfrac{70+80}{2}=75$。よって $\text{IQR}=75-25=50$ です。一方この例の範囲は $200-10=190$。$200$ という飛び離れた値が範囲を一気に押し広げているのに対し、IQRは $50$ と落ち着いています。これがIQRの外れ値に強い性質です。

4. 箱ひげ図 ─ 5数要約を絵にする

最小値・$Q_1$・中央値・$Q_3$・最大値の5つの値を5数要約と呼びます。これを1つの図にまとめたのが箱ひげ図です。「箱」が真ん中50%（IQRの幅）、「ひげ」が上下の広がりを表します。

ひげの先は、ふつう「$Q_1 - 1.5\times\text{IQR}$ から $Q_3 + 1.5\times\text{IQR}$ の範囲に収まる、いちばん端のデータ」まで伸ばします。この範囲をはみ出した値は外れ値として点で示します。

さきほどのデータ（$Q_1=25,\ Q_3=75,\ \text{IQR}=50$）なら、上側の境目は $75 + 1.5\times 50 = 150$。$200$ はこれを超えるので外れ値です。

箱ひげ図。箱が中央50%（IQR）、箱の中の線が中央値、ひげが外れ値を除いた広がり、外側の点が外れ値。

箱ひげ図のうれしいところは、中心・広がり・偏り・外れ値を1つの図でいっぺんに読み取れることです。

箱の中で中央値の線が片寄っていれば分布が歪んでいるサイン、ひげの長さが上下で違えば裾の伸び方の違い、というふうに。複数のグループを横に並べれば、集団どうしの比較もひと目でできます。

散らばりの指標は、対になる代表値とセットで使うのがコツです。平均には標準偏差、中央値にはIQR。外れ値が気になるデータでは「中央値とIQR（＋箱ひげ図）」、左右対称でクセの少ないデータでは「平均と標準偏差」を選ぶと、データの姿を正しく伝えられます。

CHECK TEST — 確認テスト

この章の理解度チェック

答えを開く前に、必ずノートに手で書いてください。書いてから答え合わせをすることで、試験本番でも同じ判断がすぐにできるようになります。

Q1偏差をそのまま足し合わせても散らばりの指標にならないのはなぜでしょうか？

正の偏差と負の偏差が打ち消し合って、合計が必ず0になってしまうためです。そこで偏差を2乗してから足し合わせる（分散）という工夫が必要になります。

Q25人のテスト点数 $60, 64, 68, 72, 76$（平均68）の偏差の2乗の合計は160でした。不偏分散と標準偏差を求めてください。

不偏分散は $s^2=\dfrac{160}{5-1}=40$、標準偏差は $s=\sqrt{40}\approx6.32$（点）です。不偏分散は $n-1$ で割ります。

Q3本講座で分散の基本として使うのは、標本分散と不偏分散のどちらでしょうか？　また問題文が「標本分散」と明示していた場合はどうしますか？

基本は不偏分散（$n-1$で割る）です。手元のデータを母集団から取り出した標本とみなし、母集団のばらつきを推定する立場に合うためです。ただし問題文が「標本分散」と明示している場合だけ $n$ で割ります。

Q4データ $10, 20, 30, 40, 50, 60, 70, 80, 200$ について、範囲とIQRをそれぞれ求めてください。どちらが外れ値に強いでしょうか？

範囲は $200-10=190$、IQRは $Q_3-Q_1=75-25=50$ です。範囲は両端の2個しか見ないため外れ値（200）に大きく振れますが、IQRは中央50%しか見ないため外れ値に強いです。

Q5散らばりの指標を代表値とペアで使うとき、平均・中央値にはそれぞれ何を組み合わせるとよいでしょうか？

平均には標準偏差、中央値にはIQRを組み合わせます。外れ値が気になるデータは「中央値とIQR」、左右対称でクセの少ないデータは「平均と標準偏差」を選ぶと、データの姿を正しく伝えられます。

次回 1-5 散らばりの応用では、不平等の度合いを測るローレンツ曲線とジニ係数を学びます。「散らばり」の考え方を、格差の測定へと広げていきますよ。

さえ

分散の分母、これからは原則「$n-1$」だよ。手元のデータから母集団のばらつきを当てにいく、っていう2級の立ち位置を思い出してね。標準偏差とIQR、2つの「ものさし」を使い分けられたら今日は合格！

HANDWRITING — 紙に書いてインプットしよう！

このページに出てきた重要キーワードです。ページを閉じる前に、声に出しながら紙に手で書いてみてください。手を動かすと、読むだけの何倍も速く記憶に定着します。

偏差
分散
標本分散
不偏分散
不偏性
標準偏差
範囲（レンジ）
四分位範囲（IQR）
四分位数
5数要約
箱ひげ図
外れ値