第2章 2-5 / 量的変数の要約方法

データの散らばり

このページで学ぶこと

前回は分位数と5数要約を学びました。今回はその知識を使って、データがどれくらい散らばっているかを測る方法を整理します。

登場する概念は3つだけ──レンジ(範囲)四分位範囲外れ値です。最後に練習問題を3問用意しましたので、前回の知識の確認も兼ねて、しっかり解いてみてください。

1. レンジ(範囲)─ もっともシンプルな散らばり

データの「散らばり」を表すもっとも単純な指標がレンジ(range)、日本語では範囲とも呼びます。最大値から最小値を引くだけです。

FORMULA

レンジ = 最大値 − 最小値

具体例

たとえば、あるクラス5人のテスト点数が「62、75、88、71、55」だったとしましょう。

これでデータの全体の幅がわかります。33点の幅にこのクラスの点数が散らばっている、という意味です。

レンジの強みと弱み

レンジの一番のメリットは、なんといっても計算が簡単なこと。最大と最小を見つけて引き算すれば終わりです。

一方、弱点もはっきりしています。それはたった1つの極端な値(外れ値)に強く引っ張られること。仮に5人のテストに「3点」のデータが1人混じっていたら、最小値は55ではなく3になり、レンジは一気に85点に膨らんでしまいます。多くの人の点数の幅とは関係なく、極端な値1つだけで指標が変わってしまうのです。

2. 四分位範囲 ─ 中央50%の散らばり

レンジの「外れ値に弱い」という弱点を補うのが、前回登場した四分位範囲(IQR:Interquartile Range)です。

FORMULA

四分位範囲(IQR)= Q3 − Q1

意味は「中央50%の幅」

Q1(第1四分位数)は下から25%、Q3(第3四分位数)は下から75%の位置の値でした。だからQ3 − Q1 は、「データの真ん中50%が収まる幅」を意味します。

上下の極端な25%ずつをカットして、真ん中の太い部分だけを見ているわけです。これがIQRが外れ値に強い理由です。たとえデータの上下に外れ値があっても、それらは上の25%と下の25%に押し込められて、IQRには影響しません。

レンジとIQRの使い分け

指標 計算 外れ値の影響 使いどころ
レンジ最大 − 最小受けやすいデータ全体の幅を見たいとき
四分位範囲Q3 − Q1受けにくい典型的な散らばりを見たいとき
POINT

レンジは「全体の幅」、IQRは「中央50%の幅」。両方を計算しておいて、両者が大きく違うときは「外れ値があるかも?」とアタリをつけられます。

さえちゃん
さえ

レンジは大ざっぱ、IQRは穏やか。外れ値があるデータでは、IQRの方が「いつもの散らばり具合」を素直に表してくれるんだよ。

3. 外れ値 ─ ちょっと違う仲間

ここまで何度か登場してきた外れ値(はずれち、outlier)。他のデータから極端にかけ離れた値のことを指します。

外れ値が生まれる原因

原因によって扱い方が変わります。ミスが原因なら修正or除外例外事象なら別扱い本物の特異値ならそのまま保持するのが基本です。「外れ値だから捨てる」と機械的に判断してはいけません。

外れ値の目安(参考)

外れ値の判定にはいくつか流儀がありますが、もっともよく使われる目安は次のとおりです。

REFERENCE

Q1 − 1.5 × IQR より小さい値 または Q3 + 1.5 × IQR より大きい値

この基準は次回(2-6 箱ひげ図)で「ひげの長さ」を決めるときに登場します。今回は「こういう目安があるんだな」程度の理解でOKです。

さえちゃん
さえ

外れ値=悪、じゃないんだよ。「なぜそんな値になったのか?」を考えるのが大事。原因を確かめないで切り捨てちゃうと、大事な事実を見落としちゃうこともあるからね。

4. 練習問題 ─ 計算で身につける

ここまで学んだことを、3問の問題で確認していきましょう。前回の5数要約の知識も総動員する構成にしています。

問題 1 基本 ─ レンジを求める

あるクラス10人のテストの点数は次のとおりでした。
「45, 52, 58, 63, 68, 72, 75, 78, 82, 88」
このデータのレンジを求めてください。

解答を見る

レンジは「最大値 − 最小値」で求められます。

最大値:88、最小値:45

レンジ = 88 − 45 = 43点

このクラスの点数は、43点の幅に散らばっていることがわかります。レンジの計算は、最大と最小を見つけて引くだけ。データを小さい順に並べ替えてから探すと見落としがありません。

問題 2 標準 ─ 5数要約から四分位範囲

あるテストの結果について、5数要約が次のように得られました。
最小値 30、Q1 50、中央値 65、Q3 80、最大値 95
このデータのレンジ四分位範囲(IQR)をそれぞれ求めてください。

解答を見る

レンジ = 最大値 − 最小値 = 95 − 30 = 65

四分位範囲(IQR) = Q3 − Q1 = 80 − 50 = 30

5数要約があれば、レンジもIQRもすぐに計算できます。レンジは1番目と5番目の差、IQRは2番目と4番目の差と覚えておくと迷いません。

このデータでは、レンジは65、IQRは30。中央50%の人々はわずか30点の幅に集まっていますが、最低と最高の差はその倍以上の65点ある、と読み取れます。

問題 3 応用 ─ 外れ値の影響

次の9個のデータがあります。
「5, 10, 15, 20, 25, 30, 35, 40, 100」
このデータのレンジ四分位範囲(IQR)をそれぞれ求め、両者を比較して気づくことを答えてください。

解答を見る

まずデータを並べて確認します(すでに昇順に並んでいます)。

① レンジ

最大値100、最小値5なので、レンジ = 100 − 5 = 95

② 四分位範囲

9個のデータのうち、中央値(5番目)は 25

下半分(1〜4番目)は「5, 10, 15, 20」。その中央値(2番目と3番目の平均)が Q1 = (10+15)/2 = 12.5

上半分(6〜9番目)は「30, 35, 40, 100」。その中央値(2番目と3番目の平均)が Q3 = (35+40)/2 = 37.5

四分位範囲 = Q3 − Q1 = 37.5 − 12.5 = 25

③ 比較して気づくこと

レンジが95と大きいのに対し、IQRはわずか25。両者の差は約4倍もあります。これは「100」という外れ値が、レンジを大きく引き伸ばしているためです。

一方、IQRは中央50%だけを見るため、外れ値の100の影響をほとんど受けません。レンジは外れ値の影響を強く受け、IQRは受けにくい──このことが、計算でも確認できました。

さえちゃん
さえ

3問とも解けたかな? 問題3で見たとおり、レンジとIQRはぜんぜん違う表情を見せてくれるんだよ。両方を計算する習慣をつけると、データの本当の姿が見えてくるよ!

まとめ

今回のポイントを整理しておきましょう。

レンジとIQR、両者の違いを意識してデータを見るだけで、分析の質が変わります。次回はいよいよ第2章ファイナル、箱ひげ図です。今回学んだ5数要約・レンジ・IQRをひとつのグラフで表現する、便利な道具をExcelで作っていきましょう。

X
EXCEL — 補助資料

データの散らばり 確認シート

サンプルデータからレンジとIQRを計算し、外れ値の有無で両者がどう変わるかをExcelで体験できる練習ファイルです。

ダウンロード