第2章 2-4 / 量的変数の要約方法

分位数と5数要約

このページで学ぶこと

ヒストグラムは分布の「形」を見るのに最適でした。今回はもう一歩進んで、分布を数字で要約する方法を学びます。鍵となるのが累積度数分布と、そこから自然に見えてくる分位数、そして5数要約です。

累積度数分布の話を最初にしっかり押さえることで、分位数の意味が「すっ」と腑に落ちるはずです。実際にExcelで計算する演習は2-6 箱ひげ図で行いますので、今回は概念と読み方を理解することに集中してください。

1. ヒストグラムと累積度数分布を並べて見る

まずは、前回までに使ってきた「20人の数学のテスト点数」のデータをもう一度思い出してください。

階級(点) 度数 累積度数 累積相対度数
0以上 20未満115%
20以上 40未満4525%
40以上 60未満51050%
60以上 80未満61680%
80以上 100未満420100%

ヒストグラムが見せるもの

この表をヒストグラムにすると、各階級にどれだけのデータが入っているかが見えます。

ヒストグラム(度数)
0 点数 100

ヒストグラムは「各階級に何人いるか」を一目で示してくれます。山の頂上は60〜80未満(6人)にあり、低い点数の人もそれなりにいる、という分布の形が読めますね。

累積度数分布が見せるもの

では、ここで視点を変えてみましょう。「○○点以下の人は全体の何%か?」と問われたら、表の累積相対度数の列を見れば答えられます。これをそのままグラフにしたものが累積度数分布(または累積相対度数分布)です。

累積度数分布(累積相対度数)
20 「○○点未満」の境界点数 100

この図の各バーの高さは、「その階級の上端より下には全体の何%が含まれているか」を表しています。たとえば3本目のバーの高さが50%なのは、「60点未満には全体の50%(10人)がいる」ことを示しているのです。

2つのグラフを並べて読む

ヒストグラムと累積度数分布は、見せたい情報が違います。

グラフ 見せるもの 読み取れる例
ヒストグラム各階級の度数(人数)「60〜80点台が一番多くて6人」
累積度数分布ある値より下にいる累計人数や%「60点未満は全体の50%」

つまり、累積度数分布があれば、「○○%の位置にある値は何点か?」という問いに答えられるようになります。これが、これから学ぶ分位数の正体です。

POINT

ヒストグラムは「各階級の中身」、累積度数分布は「上から積み上げた割合」。同じデータでも見せる切り口が違います。累積分布があれば「○○以下が何%か」が読める──これが今回の出発点です。

さえちゃん
さえ

累積って、要するに「上から順に足していく」だけ。難しく考えなくて大丈夫! 「○○以下が何%か」を見せるグラフ、それが累積度数分布なんだよ。

2. 累積分布から「分位数」を発見する

累積度数分布の使い方が見えてきたら、次の問いはとても自然です。「累積で50%の位置にある値は何点か?」「25%の位置は?」「75%の位置は?」──こうした「○○%の位置にある値」を分位数と呼びます。

分位数とは

分位数とは、データを小さい順に並べたときに、ある割合の位置にある値のことです。「データを○等分する区切りの値」と考えるとわかりやすいでしょう。

3級でもっとも重要なのは四分位数です。データを4等分するために必要な3つの値、それぞれに名前がついています。

四分位数 ─ データを4等分する3つの値

四分位数は、累積分布で見たときに次の3つの位置にある値として定義されます。

名前 記号 累積分布での位置 意味
第1四分位数Q125%下から数えて1/4の位置
第2四分位数(中央値)Q250%ちょうど真ん中の位置
第3四分位数Q375%下から数えて3/4の位置

第2四分位数 = 中央値であることに注意してください。「真ん中の値」のことを、文脈によって「中央値」と呼んだり「第2四分位数」と呼んだりしますが、まったく同じ値を指しています。

累積分布で四分位数を読み取る

実際に累積分布から四分位数を読み取ってみましょう。先ほどの20人のテスト点数の累積分布を、もう一度見てみます。

階級の上端(点) 累積相対度数 そこに対応する分位数
205%
4025%Q1(第1四分位数)
6050%Q2(中央値)
8080%―(75%はこの少し手前)
100100%最大値

この表から、累積分布で「25%」「50%」「75%」の高さに対応する横軸の値がどこにあるかが読み取れます。これがそれぞれ Q1、Q2、Q3 です。

実際の値が階級の境界とぴったり一致しないこともあります(上の表では75%は60点と80点の間にあります)。そのときは個別データから計算するか、補間で求めますが、これは2-6 箱ひげ図でExcelを使って一気に確認します。今は「累積分布で○○%の高さに対応する値が分位数」という関係さえ押さえてください。

POINT

分位数は「累積分布で○○%の位置にある値」です。「データを4等分する区切り」と考えると、Q1・Q2・Q3 の意味がすっと腑に落ちます。

さえちゃん
さえ

累積分布で「ここまでで50%」って読める位置の点数が中央値。「25%」が第1四分位数、「75%」が第3四分位数。覚えるというより、「分布の中にある区切り」って感覚でつかんでね!

3. 5数要約 ─ 分布を5つの数字でつかむ

四分位数(Q1、Q2、Q3)に、データの最小値最大値を加えた合計5つの数字で、データの分布をかなり的確にとらえられます。これが5数要約です。

5数要約の構成

順序 名前 累積分布での位置
最小値(Min)0%
第1四分位数(Q1)25%
中央値(Q2、Median)50%
第3四分位数(Q3)75%
最大値(Max)100%

要するに、累積分布で「0%、25%、50%、75%、100%」の5つの位置にある値を集めたものが5数要約です。データを4等分すると、区切りは3本(Q1, Q2, Q3)になりますが、両端(最小・最大)も加えれば、データ全体を5つの数字で代表させられる、というわけですね。

例:20人のテスト点数の5数要約

実際に、これまで使ってきた20人のテスト点数(12, 25, 28, 35, 38, 42, 45, 50, 55, 58, 62, 65, 70, 72, 75, 78, 80, 85, 90, 95)の5数要約を求めると、次のようになります。

5数要約
最小値12点
第1四分位数(Q1)40点
中央値(Q2)60点
第3四分位数(Q3)76.5点
最大値95点

この5つの数字だけで、こんなことが言えます。

たった5つの数字なのに、これだけのことが読めるんです。5数要約は、分布の中心・広がり・偏りをまとめてつかむのに最適です。

四分位範囲(IQR)─ ばらつきの指標

Q1とQ3の間の幅を四分位範囲(IQR:Interquartile Range)と呼びます。データの中央50%が収まる範囲のことです。

FORMULA

四分位範囲(IQR)= Q3 − Q1

上のテスト点数なら、IQR = 76.5 − 40 = 36.5点。「真ん中の半分の人たち」の点数の幅が36.5点ある、と読みます。

四分位範囲は、外れ値の影響を受けにくいばらつきの指標です。最大値や最小値は1つでも極端な値があると大きく動きますが、Q1とQ3はデータの真ん中の50%に集中しているので安定しています。詳しくは2-5 データの散らばりで扱います。

5数要約はExcelで一発計算

5数要約はExcelの関数を使えば一瞬で計算できます。次回の2-6 箱ひげ図で、ExcelのQUARTILE関数やMIN/MAX関数を使って、実際のデータから5数要約を求める演習を行います。さらに、その5数要約をひと目で表現する箱ひげ図のつくり方も学びます。今回つかんだ概念が、次回でしっかり定着しますので、楽しみにしてください。

さえちゃん
さえ

2-6でExcelを使うから、実際の計算は心配しないで! 今回は「累積分布から5つの位置を抜き出すと5数要約」って感覚をつかめれば、それで十分だよ!

まとめ

今回のポイントを整理しておきましょう。

累積度数分布という視点を持つと、分位数や5数要約の意味がスッと見えてきます。次回は「データの散らばり」を、もう少し深く掘り下げていきます。

X
EXCEL — 補助資料

分位数と5数要約 確認シート

累積度数分布の作成と、累積相対度数からの分位数の読み取りをExcelで体験できる練習ファイルです。実際の計算演習は2-6でじっくり扱います。

ダウンロード