5数要約と外れ値
平均と標準偏差は外れ値の影響を受けやすい指標でした。今回は、極端な値に振り回されにくく、データの輪郭をたった5つの数字でつかむ5数要約──最小値・第1四分位数・中央値・第3四分位数・最大値──を学びます。
さらに、四分位範囲 $\text{IQR}=Q_3-Q_1$ を使った外れ値の判定基準($1.5\times\text{IQR}$ ルール)と、5数要約をそのまま絵にした箱ひげ図との対応を、11個のデータの数値例で具体的に追っていきます。
たった5つの数字で、データの「真ん中・広がり・かたより」がぜんぶ見えちゃう。それが5数要約だよ。しかも外れ値があっても動じない、頼れる指標。箱ひげ図ともセットで覚えようね!
1. 5数要約とは ─ 5つの位置でデータをつかむ
5数要約とは、データを小さい順に並べたときの、次の5つの値をまとめたものです。累積でいうと、$0\%$、$25\%$、$50\%$、$75\%$、$100\%$ の位置にある値、と言い換えられます。
| 順序 | 名前 | 記号 | 累積の位置 |
|---|---|---|---|
| ① | 最小値 | Min | 0% |
| ② | 第1四分位数 | $Q_1$ | 25% |
| ③ | 中央値(第2四分位数) | $Q_2$ | 50% |
| ④ | 第3四分位数 | $Q_3$ | 75% |
| ⑤ | 最大値 | Max | 100% |
第2四分位数 $Q_2$ は中央値そのものです。$Q_1$ はデータの下半分の真ん中、$Q_3$ は上半分の真ん中、と考えるとつかみやすいですよ。これら3つ($Q_1,\,Q_2,\,Q_3$)でデータを4等分する区切りができ、両端の最小・最大を加えて5数要約になります。
四分位範囲(IQR)
$Q_1$ と $Q_3$ の間の幅を四分位範囲(IQR:Interquartile Range)と呼びます。データの中央 $50\%$ が収まる幅です。
$$\text{IQR} = Q_3 - Q_1$$
IQRは外れ値の影響を受けにくいばらつきの指標です。最大値・最小値は1つの極端な値で大きく動きますが、$Q_1$ と $Q_3$ は真ん中の50%に注目するので安定しています。
2. 数値例で5数要約を求める
次の11個のデータ(あるサービスの月別問い合わせ件数)で、5数要約を求めてみましょう。すでに小さい順に並んでいます。
35, 42, 48, 50, 55, 58, 60, 63, 68, 72, 150
中央値($Q_2$)
$n=11$ は奇数なので、ちょうど真ん中の6番目の値が中央値です。下から数えて6番目は 58。これが $Q_2$ です。
$Q_1$ と $Q_3$
中央値を境に、下半分と上半分に分けます(中央値そのものはどちらにも入れません)。下半分は「35, 42, 48, 50, 55」の5個、その真ん中(3番目)が $Q_1 = \mathbf{48}$。上半分は「60, 63, 68, 72, 150」の5個、その真ん中が $Q_3 = \mathbf{68}$ です。
| 5数要約 | 値 |
|---|---|
| 最小値 | 35 |
| 第1四分位数 $Q_1$ | 48 |
| 中央値 $Q_2$ | 58 |
| 第3四分位数 $Q_3$ | 68 |
| 最大値 | 150 |
四分位範囲は $\text{IQR} = Q_3 - Q_1 = 68 - 48 = \mathbf{20}$。中央50%の件数は20件の幅に収まっています。一方で最大値の150は、$Q_3=68$ からずいぶん離れていますね。これが外れ値かどうかを、次のルールで判定します。
$Q_1$ は「下半分の中央値」、$Q_3$ は「上半分の中央値」。中央値で真っ二つにして、それぞれの真ん中を取るだけ。データを並べて指で押さえながら数えると、ぜったい迷わないよ!
3. 外れ値の判定 ─ 1.5×IQR ルール
外れ値(outlier)とは、ほかの多くのデータから極端に離れた値のこと。判定にはいくつか流派がありますが、もっとも広く使われるのが$1.5\times\text{IQR}$ ルールです。$Q_1$ と $Q_3$ から IQR の $1.5$ 倍ぶん外側に「フェンス(柵)」を張り、それを越える値を外れ値とみなします。
次のいずれかにあてはまる値を外れ値と判定します。 $$ \begin{aligned} \text{下側フェンス:}&\quad Q_1 - 1.5 \times \text{IQR} \ \text{より小さい値}\\[2pt] \text{上側フェンス:}&\quad Q_3 + 1.5 \times \text{IQR} \ \text{より大きい値} \end{aligned} $$
数値例での判定
先ほどの例($Q_1=48,\ Q_3=68,\ \text{IQR}=20$)でフェンスを計算します。
$$ \begin{aligned} \text{下側フェンス} &= Q_1 - 1.5\times\text{IQR} = 48 - 1.5\times 20 = 48 - 30 = 18\\[2pt] \text{上側フェンス} &= Q_3 + 1.5\times\text{IQR} = 68 + 1.5\times 20 = 68 + 30 = 98 \end{aligned} $$
フェンスは $18$ と $98$。$18$ より小さい値はなく、$98$ より大きい値は 150 だけ。よって150 が外れ値と判定されます。「なんとなく大きすぎる気がする」を、$1.5\times\text{IQR}$ ルールで数値的にきちんと示せました。
なお、$1.5$ という係数は経験的な目安です。$3$ 倍以上離れた値は「極端な外れ値」と呼ばれることもあります。また外れ値=即削除ではない点に注意してください。測定・入力ミスなら修正・除外、本物の特異値なら理由を考えて残す──「なぜこの値だけ違うのか?」を問うことが大切です。
4. 箱ひげ図との対応
5数要約と外れ値を、そのまま1つの絵にしたのが箱ひげ図(box plot)です。各パーツが5数要約のどこに対応するかを押さえれば、図と数字が一本につながります。
| パーツ | 対応する値 |
|---|---|
| 箱の左端(下端) | $Q_1$ |
| 箱の中の線 | 中央値 $Q_2$ |
| 箱の右端(上端) | $Q_3$ |
| 箱の長さ | 四分位範囲 IQR |
| ひげの先 | フェンス内に収まる最小・最大の値 |
| 外側の点 | 外れ値(フェンスを越えた値) |
先ほどのデータを箱ひげ図にすると、こうなります。150が「ひげの外の点」として描かれている点に注目してください。ひげの右端は外れ値を除いた最大値、つまり72で止まります。
5数要約を視覚化した箱ひげ図。150 はひげの外に点として描かれる
箱ひげ図では箱=中央50%(IQR)、ひげ=外れ値を除いた上下の範囲、点=外れ値。複数のグループを並べると分布の違いがひと目で比べられます。ただし山が1つか2つか(多峰性)は箱ひげ図では見えないので、ヒストグラムと併用するのが安全です。
5数要約・IQR・$1.5\times\text{IQR}$ ルール・箱ひげ図、ぜんぶ一本につながったね! 外れ値を見つけても、消す前に「なんで?」って考えるのが上達のコツだよ。次は質的データの要約に進むよ!
まとめ
第1章 1-7、ポイントを整理します。
- 5数要約:最小値・$Q_1$・中央値($Q_2$)・$Q_3$・最大値。累積で $0,25,50,75,100\%$ の位置
- 四分位範囲:$\text{IQR}=Q_3-Q_1$。中央50%の幅で、外れ値に強い
- 外れ値の基準:$Q_1-1.5\times\text{IQR}$ より小さい、または $Q_3+1.5\times\text{IQR}$ より大きい値
- 箱ひげ図:箱=IQR、中の線=中央値、ひげ=外れ値を除く範囲、点=外れ値
- 注意:外れ値は即削除しない。多峰性は箱ひげ図では見えずヒストグラム併用が安全
次回 1-8 質的データの要約 では、カテゴリのデータを度数・相対度数・度数分布表でまとめ、棒グラフ・円グラフ・帯グラフで見せる方法と、それぞれの用途・注意点を整理します。