データの散らばり
前回は分位数と5数要約を学びました。今回はその知識を使って、データがどれくらい散らばっているかを測る方法を整理します。
登場する概念は3つだけ──レンジ(範囲)、四分位範囲、外れ値です。最後に練習問題を3問用意しましたので、前回の知識の確認も兼ねて、しっかり解いてみてください。
1. レンジ(範囲)─ もっともシンプルな散らばり
データの「散らばり」を表すもっとも単純な指標がレンジ(range)、日本語では範囲とも呼びます。最大値から最小値を引くだけです。
レンジ = 最大値 − 最小値
具体例
たとえば、あるクラス5人のテスト点数が「62、75、88、71、55」だったとしましょう。
- 最大値:88
- 最小値:55
- レンジ:88 − 55 = 33点
これでデータの全体の幅がわかります。33点の幅にこのクラスの点数が散らばっている、という意味です。
レンジの強みと弱み
レンジの一番のメリットは、なんといっても計算が簡単なこと。最大と最小を見つけて引き算すれば終わりです。
一方、弱点もはっきりしています。それはたった1つの極端な値(外れ値)に強く引っ張られること。仮に5人のテストに「3点」のデータが1人混じっていたら、最小値は55ではなく3になり、レンジは一気に85点に膨らんでしまいます。多くの人の点数の幅とは関係なく、極端な値1つだけで指標が変わってしまうのです。
2. 四分位範囲 ─ 中央50%の散らばり
レンジの「外れ値に弱い」という弱点を補うのが、前回登場した四分位範囲(IQR:Interquartile Range)です。
四分位範囲(IQR)= Q3 − Q1
意味は「中央50%の幅」
Q1(第1四分位数)は下から25%、Q3(第3四分位数)は下から75%の位置の値でした。だからQ3 − Q1 は、「データの真ん中50%が収まる幅」を意味します。
上下の極端な25%ずつをカットして、真ん中の太い部分だけを見ているわけです。これがIQRが外れ値に強い理由です。たとえデータの上下に外れ値があっても、それらは上の25%と下の25%に押し込められて、IQRには影響しません。
レンジとIQRの使い分け
| 指標 | 計算 | 外れ値の影響 | 使いどころ |
|---|---|---|---|
| レンジ | 最大 − 最小 | 受けやすい | データ全体の幅を見たいとき |
| 四分位範囲 | Q3 − Q1 | 受けにくい | 典型的な散らばりを見たいとき |
レンジは「全体の幅」、IQRは「中央50%の幅」。両方を計算しておいて、両者が大きく違うときは「外れ値があるかも?」とアタリをつけられます。
レンジは大ざっぱ、IQRは穏やか。外れ値があるデータでは、IQRの方が「いつもの散らばり具合」を素直に表してくれるんだよ。
3. 外れ値 ─ ちょっと違う仲間
ここまで何度か登場してきた外れ値(はずれち、outlier)。他のデータから極端にかけ離れた値のことを指します。
外れ値が生まれる原因
- 測定ミス・入力ミス:本当は63点なのに、間違って630と入れてしまった
- 例外的な事象:ある日だけ大規模イベントで売上が10倍になった
- 本当に特異な存在:会社の中に1人だけ突出した実績の社員がいる
原因によって扱い方が変わります。ミスが原因なら修正or除外、例外事象なら別扱い、本物の特異値ならそのまま保持するのが基本です。「外れ値だから捨てる」と機械的に判断してはいけません。
外れ値の目安(参考)
外れ値の判定にはいくつか流儀がありますが、もっともよく使われる目安は次のとおりです。
Q1 − 1.5 × IQR より小さい値 または Q3 + 1.5 × IQR より大きい値
この基準は次回(2-6 箱ひげ図)で「ひげの長さ」を決めるときに登場します。今回は「こういう目安があるんだな」程度の理解でOKです。
外れ値=悪、じゃないんだよ。「なぜそんな値になったのか?」を考えるのが大事。原因を確かめないで切り捨てちゃうと、大事な事実を見落としちゃうこともあるからね。
4. 練習問題 ─ 計算で身につける
ここまで学んだことを、3問の問題で確認していきましょう。前回の5数要約の知識も総動員する構成にしています。
あるクラス10人のテストの点数は次のとおりでした。
「45, 52, 58, 63, 68, 72, 75, 78, 82, 88」
このデータのレンジを求めてください。
解答を見る
レンジは「最大値 − 最小値」で求められます。
最大値:88、最小値:45
レンジ = 88 − 45 = 43点
このクラスの点数は、43点の幅に散らばっていることがわかります。レンジの計算は、最大と最小を見つけて引くだけ。データを小さい順に並べ替えてから探すと見落としがありません。
あるテストの結果について、5数要約が次のように得られました。
最小値 30、Q1 50、中央値 65、Q3 80、最大値 95
このデータのレンジと四分位範囲(IQR)をそれぞれ求めてください。
解答を見る
レンジ = 最大値 − 最小値 = 95 − 30 = 65
四分位範囲(IQR) = Q3 − Q1 = 80 − 50 = 30
5数要約があれば、レンジもIQRもすぐに計算できます。レンジは1番目と5番目の差、IQRは2番目と4番目の差と覚えておくと迷いません。
このデータでは、レンジは65、IQRは30。中央50%の人々はわずか30点の幅に集まっていますが、最低と最高の差はその倍以上の65点ある、と読み取れます。
次の9個のデータがあります。
「5, 10, 15, 20, 25, 30, 35, 40, 100」
このデータのレンジと四分位範囲(IQR)をそれぞれ求め、両者を比較して気づくことを答えてください。
解答を見る
まずデータを並べて確認します(すでに昇順に並んでいます)。
① レンジ
最大値100、最小値5なので、レンジ = 100 − 5 = 95
② 四分位範囲
9個のデータのうち、中央値(5番目)は 25。
下半分(1〜4番目)は「5, 10, 15, 20」。その中央値(2番目と3番目の平均)が Q1 = (10+15)/2 = 12.5
上半分(6〜9番目)は「30, 35, 40, 100」。その中央値(2番目と3番目の平均)が Q3 = (35+40)/2 = 37.5
四分位範囲 = Q3 − Q1 = 37.5 − 12.5 = 25
③ 比較して気づくこと
レンジが95と大きいのに対し、IQRはわずか25。両者の差は約4倍もあります。これは「100」という外れ値が、レンジを大きく引き伸ばしているためです。
一方、IQRは中央50%だけを見るため、外れ値の100の影響をほとんど受けません。レンジは外れ値の影響を強く受け、IQRは受けにくい──このことが、計算でも確認できました。
3問とも解けたかな? 問題3で見たとおり、レンジとIQRはぜんぜん違う表情を見せてくれるんだよ。両方を計算する習慣をつけると、データの本当の姿が見えてくるよ!
まとめ
今回のポイントを整理しておきましょう。
- レンジ(範囲):最大値 − 最小値。計算は簡単だが、外れ値の影響を受けやすい
- 四分位範囲(IQR):Q3 − Q1。中央50%の幅で、外れ値の影響を受けにくい
- 外れ値:他のデータから極端にかけ離れた値。原因を考えてから扱いを決める
- 外れ値の目安:Q1 − 1.5×IQR より小さい、または Q3 + 1.5×IQR より大きい値
レンジとIQR、両者の違いを意識してデータを見るだけで、分析の質が変わります。次回はいよいよ第2章ファイナル、箱ひげ図です。今回学んだ5数要約・レンジ・IQRをひとつのグラフで表現する、便利な道具をExcelで作っていきましょう。
データの散らばり 確認シート
サンプルデータからレンジとIQRを計算し、外れ値の有無で両者がどう変わるかをExcelで体験できる練習ファイルです。