第1章 1-7 / データの記述と要約

5数要約と外れ値

このページで学ぶこと

平均と標準偏差は外れ値の影響を受けやすい指標でした。今回は、極端な値に振り回されにくく、データの輪郭をたった5つの数字でつかむ5数要約──最小値・第1四分位数・中央値・第3四分位数・最大値──を学びます。

さらに、四分位範囲 $\text{IQR}=Q_3-Q_1$ を使った外れ値の判定基準($1.5\times\text{IQR}$ ルール)と、5数要約をそのまま絵にした箱ひげ図との対応を、11個のデータの数値例で具体的に追っていきます。

さえちゃん
さえ

たった5つの数字で、データの「真ん中・広がり・かたより」がぜんぶ見えちゃう。それが5数要約だよ。しかも外れ値があっても動じない、頼れる指標。箱ひげ図ともセットで覚えようね!

1. 5数要約とは ─ 5つの位置でデータをつかむ

5数要約とは、データを小さい順に並べたときの、次の5つの値をまとめたものです。累積でいうと、$0\%$、$25\%$、$50\%$、$75\%$、$100\%$ の位置にある値、と言い換えられます。

順序名前記号累積の位置
最小値Min0%
第1四分位数$Q_1$25%
中央値(第2四分位数)$Q_2$50%
第3四分位数$Q_3$75%
最大値Max100%

第2四分位数 $Q_2$ は中央値そのものです。$Q_1$ はデータの下半分の真ん中、$Q_3$ は上半分の真ん中、と考えるとつかみやすいですよ。これら3つ($Q_1,\,Q_2,\,Q_3$)でデータを4等分する区切りができ、両端の最小・最大を加えて5数要約になります。

四分位範囲(IQR)

$Q_1$ と $Q_3$ の間の幅を四分位範囲(IQR:Interquartile Range)と呼びます。データの中央 $50\%$ が収まる幅です。

FORMULA

$$\text{IQR} = Q_3 - Q_1$$

IQRは外れ値の影響を受けにくいばらつきの指標です。最大値・最小値は1つの極端な値で大きく動きますが、$Q_1$ と $Q_3$ は真ん中の50%に注目するので安定しています。

2. 数値例で5数要約を求める

次の11個のデータ(あるサービスの月別問い合わせ件数)で、5数要約を求めてみましょう。すでに小さい順に並んでいます。

DATA(小さい順、$n=11$)

35, 42, 48, 50, 55, 58, 60, 63, 68, 72, 150

中央値($Q_2$)

$n=11$ は奇数なので、ちょうど真ん中の6番目の値が中央値です。下から数えて6番目は 58。これが $Q_2$ です。

$Q_1$ と $Q_3$

中央値を境に、下半分と上半分に分けます(中央値そのものはどちらにも入れません)。下半分は「35, 42, 48, 50, 55」の5個、その真ん中(3番目)が $Q_1 = \mathbf{48}$。上半分は「60, 63, 68, 72, 150」の5個、その真ん中が $Q_3 = \mathbf{68}$ です。

5数要約
最小値35
第1四分位数 $Q_1$48
中央値 $Q_2$58
第3四分位数 $Q_3$68
最大値150

四分位範囲は $\text{IQR} = Q_3 - Q_1 = 68 - 48 = \mathbf{20}$。中央50%の件数は20件の幅に収まっています。一方で最大値の150は、$Q_3=68$ からずいぶん離れていますね。これが外れ値かどうかを、次のルールで判定します。

さえちゃん
さえ

$Q_1$ は「下半分の中央値」、$Q_3$ は「上半分の中央値」。中央値で真っ二つにして、それぞれの真ん中を取るだけ。データを並べて指で押さえながら数えると、ぜったい迷わないよ!

3. 外れ値の判定 ─ 1.5×IQR ルール

外れ値(outlier)とは、ほかの多くのデータから極端に離れた値のこと。判定にはいくつか流派がありますが、もっとも広く使われるのが$1.5\times\text{IQR}$ ルールです。$Q_1$ と $Q_3$ から IQR の $1.5$ 倍ぶん外側に「フェンス(柵)」を張り、それを越える値を外れ値とみなします。

FORMULA

次のいずれかにあてはまる値を外れ値と判定します。 $$ \begin{aligned} \text{下側フェンス:}&\quad Q_1 - 1.5 \times \text{IQR} \ \text{より小さい値}\\[2pt] \text{上側フェンス:}&\quad Q_3 + 1.5 \times \text{IQR} \ \text{より大きい値} \end{aligned} $$

数値例での判定

先ほどの例($Q_1=48,\ Q_3=68,\ \text{IQR}=20$)でフェンスを計算します。

DERIVATION

$$ \begin{aligned} \text{下側フェンス} &= Q_1 - 1.5\times\text{IQR} = 48 - 1.5\times 20 = 48 - 30 = 18\\[2pt] \text{上側フェンス} &= Q_3 + 1.5\times\text{IQR} = 68 + 1.5\times 20 = 68 + 30 = 98 \end{aligned} $$

RESULT

フェンスは $18$ と $98$。$18$ より小さい値はなく、$98$ より大きい値は 150 だけ。よって150 が外れ値と判定されます。「なんとなく大きすぎる気がする」を、$1.5\times\text{IQR}$ ルールで数値的にきちんと示せました。

なお、$1.5$ という係数は経験的な目安です。$3$ 倍以上離れた値は「極端な外れ値」と呼ばれることもあります。また外れ値=即削除ではない点に注意してください。測定・入力ミスなら修正・除外、本物の特異値なら理由を考えて残す──「なぜこの値だけ違うのか?」を問うことが大切です。

4. 箱ひげ図との対応

5数要約と外れ値を、そのまま1つの絵にしたのが箱ひげ図(box plot)です。各パーツが5数要約のどこに対応するかを押さえれば、図と数字が一本につながります。

パーツ対応する値
箱の左端(下端)$Q_1$
箱の中の線中央値 $Q_2$
箱の右端(上端)$Q_3$
箱の長さ四分位範囲 IQR
ひげの先フェンス内に収まる最小・最大の値
外側の点外れ値(フェンスを越えた値)

先ほどのデータを箱ひげ図にすると、こうなります。150が「ひげの外の点」として描かれている点に注目してください。ひげの右端は外れ値を除いた最大値、つまり72で止まります。

0 40 80 120 160 問い合わせ件数 最小35 Q1=48 中央58 Q3=68 外れ値150

5数要約を視覚化した箱ひげ図。150 はひげの外に点として描かれる

POINT

箱ひげ図では箱=中央50%(IQR)、ひげ=外れ値を除いた上下の範囲、点=外れ値。複数のグループを並べると分布の違いがひと目で比べられます。ただし山が1つか2つか(多峰性)は箱ひげ図では見えないので、ヒストグラムと併用するのが安全です。

さえちゃん
さえ

5数要約・IQR・$1.5\times\text{IQR}$ ルール・箱ひげ図、ぜんぶ一本につながったね! 外れ値を見つけても、消す前に「なんで?」って考えるのが上達のコツだよ。次は質的データの要約に進むよ!

まとめ

第1章 1-7、ポイントを整理します。

次回 1-8 質的データの要約 では、カテゴリのデータを度数・相対度数・度数分布表でまとめ、棒グラフ・円グラフ・帯グラフで見せる方法と、それぞれの用途・注意点を整理します。