分位数と5数要約
ヒストグラムは分布の「形」を見るのに最適でした。今回はもう一歩進んで、分布を数字で要約する方法を学びます。鍵となるのが累積度数分布と、そこから自然に見えてくる分位数、そして5数要約です。
累積度数分布の話を最初にしっかり押さえることで、分位数の意味が「すっ」と腑に落ちるはずです。実際にExcelで計算する演習は2-6 箱ひげ図で行いますので、今回は概念と読み方を理解することに集中してください。
1. ヒストグラムと累積度数分布を並べて見る
まずは、前回までに使ってきた「20人の数学のテスト点数」のデータをもう一度思い出してください。
| 階級(点) | 度数 | 累積度数 | 累積相対度数 |
|---|---|---|---|
| 0以上 20未満 | 1 | 1 | 5% |
| 20以上 40未満 | 4 | 5 | 25% |
| 40以上 60未満 | 5 | 10 | 50% |
| 60以上 80未満 | 6 | 16 | 80% |
| 80以上 100未満 | 4 | 20 | 100% |
ヒストグラムが見せるもの
この表をヒストグラムにすると、各階級にどれだけのデータが入っているかが見えます。
ヒストグラムは「各階級に何人いるか」を一目で示してくれます。山の頂上は60〜80未満(6人)にあり、低い点数の人もそれなりにいる、という分布の形が読めますね。
累積度数分布が見せるもの
では、ここで視点を変えてみましょう。「○○点以下の人は全体の何%か?」と問われたら、表の累積相対度数の列を見れば答えられます。これをそのままグラフにしたものが累積度数分布(または累積相対度数分布)です。
この図の各バーの高さは、「その階級の上端より下には全体の何%が含まれているか」を表しています。たとえば3本目のバーの高さが50%なのは、「60点未満には全体の50%(10人)がいる」ことを示しているのです。
2つのグラフを並べて読む
ヒストグラムと累積度数分布は、見せたい情報が違います。
| グラフ | 見せるもの | 読み取れる例 |
|---|---|---|
| ヒストグラム | 各階級の度数(人数) | 「60〜80点台が一番多くて6人」 |
| 累積度数分布 | ある値より下にいる累計人数や% | 「60点未満は全体の50%」 |
つまり、累積度数分布があれば、「○○%の位置にある値は何点か?」という問いに答えられるようになります。これが、これから学ぶ分位数の正体です。
ヒストグラムは「各階級の中身」、累積度数分布は「上から積み上げた割合」。同じデータでも見せる切り口が違います。累積分布があれば「○○以下が何%か」が読める──これが今回の出発点です。
累積って、要するに「上から順に足していく」だけ。難しく考えなくて大丈夫! 「○○以下が何%か」を見せるグラフ、それが累積度数分布なんだよ。
2. 累積分布から「分位数」を発見する
累積度数分布の使い方が見えてきたら、次の問いはとても自然です。「累積で50%の位置にある値は何点か?」「25%の位置は?」「75%の位置は?」──こうした「○○%の位置にある値」を分位数と呼びます。
分位数とは
分位数とは、データを小さい順に並べたときに、ある割合の位置にある値のことです。「データを○等分する区切りの値」と考えるとわかりやすいでしょう。
- データを4等分する3つの値 → 四分位数
- データを10等分する9つの値 → 十分位数
- データを100等分する99つの値 → パーセンタイル(百分位数)
3級でもっとも重要なのは四分位数です。データを4等分するために必要な3つの値、それぞれに名前がついています。
四分位数 ─ データを4等分する3つの値
四分位数は、累積分布で見たときに次の3つの位置にある値として定義されます。
| 名前 | 記号 | 累積分布での位置 | 意味 |
|---|---|---|---|
| 第1四分位数 | Q1 | 25% | 下から数えて1/4の位置 |
| 第2四分位数(中央値) | Q2 | 50% | ちょうど真ん中の位置 |
| 第3四分位数 | Q3 | 75% | 下から数えて3/4の位置 |
第2四分位数 = 中央値であることに注意してください。「真ん中の値」のことを、文脈によって「中央値」と呼んだり「第2四分位数」と呼んだりしますが、まったく同じ値を指しています。
累積分布で四分位数を読み取る
実際に累積分布から四分位数を読み取ってみましょう。先ほどの20人のテスト点数の累積分布を、もう一度見てみます。
| 階級の上端(点) | 累積相対度数 | そこに対応する分位数 |
|---|---|---|
| 20 | 5% | ― |
| 40 | 25% | Q1(第1四分位数) |
| 60 | 50% | Q2(中央値) |
| 80 | 80% | ―(75%はこの少し手前) |
| 100 | 100% | 最大値 |
この表から、累積分布で「25%」「50%」「75%」の高さに対応する横軸の値がどこにあるかが読み取れます。これがそれぞれ Q1、Q2、Q3 です。
実際の値が階級の境界とぴったり一致しないこともあります(上の表では75%は60点と80点の間にあります)。そのときは個別データから計算するか、補間で求めますが、これは2-6 箱ひげ図でExcelを使って一気に確認します。今は「累積分布で○○%の高さに対応する値が分位数」という関係さえ押さえてください。
分位数は「累積分布で○○%の位置にある値」です。「データを4等分する区切り」と考えると、Q1・Q2・Q3 の意味がすっと腑に落ちます。
累積分布で「ここまでで50%」って読める位置の点数が中央値。「25%」が第1四分位数、「75%」が第3四分位数。覚えるというより、「分布の中にある区切り」って感覚でつかんでね!
3. 5数要約 ─ 分布を5つの数字でつかむ
四分位数(Q1、Q2、Q3)に、データの最小値と最大値を加えた合計5つの数字で、データの分布をかなり的確にとらえられます。これが5数要約です。
5数要約の構成
| 順序 | 名前 | 累積分布での位置 |
|---|---|---|
| ① | 最小値(Min) | 0% |
| ② | 第1四分位数(Q1) | 25% |
| ③ | 中央値(Q2、Median) | 50% |
| ④ | 第3四分位数(Q3) | 75% |
| ⑤ | 最大値(Max) | 100% |
要するに、累積分布で「0%、25%、50%、75%、100%」の5つの位置にある値を集めたものが5数要約です。データを4等分すると、区切りは3本(Q1, Q2, Q3)になりますが、両端(最小・最大)も加えれば、データ全体を5つの数字で代表させられる、というわけですね。
例:20人のテスト点数の5数要約
実際に、これまで使ってきた20人のテスト点数(12, 25, 28, 35, 38, 42, 45, 50, 55, 58, 62, 65, 70, 72, 75, 78, 80, 85, 90, 95)の5数要約を求めると、次のようになります。
| 5数要約 | 値 |
|---|---|
| 最小値 | 12点 |
| 第1四分位数(Q1) | 40点 |
| 中央値(Q2) | 60点 |
| 第3四分位数(Q3) | 76.5点 |
| 最大値 | 95点 |
この5つの数字だけで、こんなことが言えます。
- テストの真ん中の点数は60点(中央値)
- 真ん中の50%(10人分)は、40点〜76.5点の間に収まっている(Q1〜Q3)
- 最低点は12点、最高点は95点
- 下半分(Q1〜中央値)よりも、上半分(中央値〜Q3)のほうが幅が広いので、上に少し裾を引いた分布かもしれない
たった5つの数字なのに、これだけのことが読めるんです。5数要約は、分布の中心・広がり・偏りをまとめてつかむのに最適です。
四分位範囲(IQR)─ ばらつきの指標
Q1とQ3の間の幅を四分位範囲(IQR:Interquartile Range)と呼びます。データの中央50%が収まる範囲のことです。
四分位範囲(IQR)= Q3 − Q1
上のテスト点数なら、IQR = 76.5 − 40 = 36.5点。「真ん中の半分の人たち」の点数の幅が36.5点ある、と読みます。
四分位範囲は、外れ値の影響を受けにくいばらつきの指標です。最大値や最小値は1つでも極端な値があると大きく動きますが、Q1とQ3はデータの真ん中の50%に集中しているので安定しています。詳しくは2-5 データの散らばりで扱います。
5数要約はExcelで一発計算
5数要約はExcelの関数を使えば一瞬で計算できます。次回の2-6 箱ひげ図で、ExcelのQUARTILE関数やMIN/MAX関数を使って、実際のデータから5数要約を求める演習を行います。さらに、その5数要約をひと目で表現する箱ひげ図のつくり方も学びます。今回つかんだ概念が、次回でしっかり定着しますので、楽しみにしてください。
2-6でExcelを使うから、実際の計算は心配しないで! 今回は「累積分布から5つの位置を抜き出すと5数要約」って感覚をつかめれば、それで十分だよ!
まとめ
今回のポイントを整理しておきましょう。
- ヒストグラムは各階級の度数、累積度数分布はある値以下の累計を示す
- 分位数とは、累積分布で「○○%の位置にある値」のこと
- 四分位数はデータを4等分する3つの値:Q1(25%)、Q2(中央値、50%)、Q3(75%)
- 5数要約= 最小値・Q1・中央値・Q3・最大値の5つの数字で、分布全体をつかむ
- 四分位範囲(IQR)= Q3 − Q1。中央50%の幅。外れ値の影響を受けにくいばらつき指標
累積度数分布という視点を持つと、分位数や5数要約の意味がスッと見えてきます。次回は「データの散らばり」を、もう少し深く掘り下げていきます。
分位数と5数要約 確認シート
累積度数分布の作成と、累積相対度数からの分位数の読み取りをExcelで体験できる練習ファイルです。実際の計算演習は2-6でじっくり扱います。