第2章 2-1 / 量的変数の要約方法

度数分布表の作成

このページで学ぶこと

いよいよ第2章「量的変数の要約方法」に入ります。第1章では質的変数の要約を学びました。今回からは量的変数を、どうやって意味のある形にまとめていくかを学んでいきます。

第2章の最初の一歩は度数分布表の作成です。連続的な数値データを階級という区間に分けて整理する方法と、そこに登場する階級値・度数・相対度数・累積度数・累積相対度数のそれぞれの意味を、ひとつずつ丁寧に押さえていきましょう。

1. 量的変数を「階級」に分ける

質的変数(血液型・性別など)は、もともとカテゴリに分かれているので、そのまま数えるだけで集計ができました。ところが量的変数(身長・テスト点数など)はそうはいきません。連続的な値なので、「まったく同じ値の人」がほとんどいないからです。

そのままでは集計できない

たとえば、あるクラス20人の数学のテスト点数を考えてみましょう。

DATA

12, 25, 28, 35, 38, 42, 45, 50, 55, 58, 62, 65, 70, 72, 75, 78, 80, 85, 90, 95

この20個の点数を、ひとつひとつ「12点が1人、25点が1人、28点が1人...」と数えていっても、ほぼ全員バラバラなので、何の傾向もつかめません。同じ値が重ならないのが量的変数のやっかいなところです。

解決策:階級(区間)に分ける

そこで使う発想が、適切な区間に区切ってから数えること。この区間のことを階級(かいきゅう、英語では class)と呼びます。

たとえば「0点以上20点未満」「20点以上40点未満」のような区間を作って、各階級に何人ずつ含まれるかを数えれば、点数の分布の形が見えてきます。

これは要するに、量的変数を一度「カテゴリ=質的変数のような形」に変換しているのです。「12点」という連続した数値を「20点未満」というラベルに置き換えることで、数えられる形にしています。

POINT

量的変数を要約するときの第一歩は、「連続的な値を、いくつかの区間(階級)にまとめる」こと。質的変数の集計と同じ土俵に乗せるための、最初の準備です。

さえちゃん
さえ

量的変数も、階級に分ければ「カテゴリ」として扱えるんだよ。前章で学んだ質的変数の集計と、ここで一気につながるよ!

2. 度数分布表の構成要素

実際にテスト点数のデータを階級に分けて、度数分布表を作ってみましょう。先ほどの20人の点数を、20点ごとの階級で区切ります。

階級(点) 階級値 度数 相対度数
0以上 20未満1010.05
20以上 40未満3040.20
40以上 60未満5050.25
60以上 80未満7060.30
80以上 100未満9040.20
合計201.00

この表に登場する用語を、ひとつずつ確認していきましょう。

階級 ─ 区間そのもの

階級とは、データを区切るための区間のことです。「0以上20未満」「20以上40未満」というように、「以上」「未満」を使って境目を明確にします。「20」のような境界の値が、どちらの階級に入るかをはっきりさせるためです。

この表では「以上」を含み、「未満」を含まないルールにしています。だから20点ちょうどの人がいれば、その人は「20以上40未満」の階級に入ります。

なお、隣り合う階級の幅(ここでは20点ずつ)を階級の幅と呼びます。等間隔に取るのが基本です。

階級値 ─ 階級の代表値

階級値(かいきゅうち)は、その階級を代表する1つの値です。基本は階級の真ん中の値を使います。

FORMULA

階級値 = (階級の下端 + 階級の上端) ÷ 2

たとえば「20以上40未満」の階級値は、(20 + 40) ÷ 2 = 30。「60以上80未満」なら、(60 + 80) ÷ 2 = 70です。階級全体を「ひとつの値」で代表させたいときに使います。後の章で平均値などを計算するときに登場する重要な概念です。

度数 ─ その階級に何個あるか

度数は、その階級に含まれるデータの個数です。これは第1章で学んだ度数と、まったく同じ意味。「60以上80未満」の階級に、点数が62, 65, 70, 72, 75, 78の6人分のデータが含まれているので、度数は6になります。

相対度数 ─ 全体に対する割合

相対度数は、度数を全体のデータ数で割った値です。

FORMULA

相対度数 = その階級の度数 ÷ 全体のデータ数

たとえば「60以上80未満」の階級は、度数6を全体20で割って 6 ÷ 20 = 0.30(30%)。全体の30%の人がこの階級にいることがわかります。

相対度数の合計は、必ず1.00(100%)になります。これが計算ミスのチェックポイントです。表で「合計1.00」となっていることを確認してから次に進む癖をつけてください。

さえちゃん
さえ

階級値は「区間の真ん中」。つまり、その階級にいる人みんなを「だいたいこの値で代表させちゃう」ってことだよ。後で平均を計算するときにすごく便利!

3. 累積度数と累積相対度数

度数分布表に、もうひと工夫加えます。それが累積度数累積相対度数です。漢字のとおり、「積み重ねた」度数のことを指します。

累積度数 ─ 上から積み上げた合計

累積度数は、ある階級までの度数を上から順に積み上げた合計です。「その階級までに、どれくらいのデータが含まれるか」を表します。

階級(点) 度数 累積度数 意味
0以上 20未満1120点未満は1人
20以上 40未満4540点未満は5人
40以上 60未満51060点未満は10人
60以上 80未満61680点未満は16人
80以上 100未満420100点未満は20人(全員)

累積度数を見れば、「○○点未満は何人いるか」がひと目でわかります。たとえば「60点未満の人は10人」と読み取れますね。これは、テスト結果を分析するときにとても役立つ情報です。

累積相対度数 ─ 累積で見た割合

累積相対度数は、相対度数を上から順に積み上げた合計です。「その階級までに、全体の何%が含まれるか」を表します。

階級(点) 相対度数 累積相対度数 意味
0以上 20未満0.050.0520点未満は5%
20以上 40未満0.200.2540点未満は25%
40以上 60未満0.250.5060点未満は50%
60以上 80未満0.300.8080点未満は80%
80以上 100未満0.201.00全員(100%)

累積相対度数の最後の行は、必ず1.00(100%)になります。すべてのデータが含まれているからです。これも計算ミスを見つける手がかりになります。

累積度数で「順位の感覚」がつかめる

累積度数・累積相対度数の便利なところは、「自分の位置」が読み取れることです。たとえばこのクラスでテストを受けたあなたが65点だったとしましょう。65点は「60以上80未満」の階級の中ですが、その階級の境目「60点未満」までで全体の50%(10人)がいることがわかります。つまりあなたは少なくとも上位50%以内に入っている、と言えるわけです。

POINT

度数が「その階級だけを見る」のに対して、累積度数は「その階級までを見る」。読みたい情報によって使い分けてください。テストの偏差や順位を考えるときは、累積で見るほうが直感的です。

さえちゃん
さえ

累積って、「ここまでで何人?」「ここまでで何%?」がわかるんだよ。テストの順位とか、偏差値の感覚にもつながる、すごく便利な見方!

4. 階級の幅をどう決めるか

度数分布表を作るとき、「階級をいくつに分けるか」階級の幅をどれくらいにするか」は、実は分布の見え方を大きく左右します。

少なすぎても多すぎてもダメ

実用的な目安

データ数にもよりますが、おおよそ5〜15階級程度が見やすいことが多いとされています。データ数が30〜50なら7階級前後、100以上なら10階級前後が目安です。

「キリのよい数字」で区切る

階級の境界は、キリのよい数字を使うのが原則です。たとえばテスト点数なら20点ごと、身長なら5cmや10cm刻みなど。中途半端な値(17.3〜34.6など)を使うと、表が読みにくくなります。

POINT

階級の幅は「データの傾向が見やすい程度」を目安に。きちんとした正解はないので、いくつか試して、もっともわかりやすい区切り方を採用するのが実務的です。

まとめ

度数分布表に登場する用語を、もう一度まとめておきます。

量的変数の要約は、「階級に分けて、数えて、整理する」──このシンプルな手順が出発点です。次回からは、この度数分布表をグラフにしていきます。お楽しみに。

X
EXCEL — 補助資料

度数分布表の作成 確認シート

本ページで使った20人のテスト点数をもとに、Excelで度数分布表を作成する手順を実際に体験できる練習ファイルです。FREQUENCY関数とCOUNTIFS関数の両方の作り方を収録しています。

ダウンロード