ヒストグラムと度数分布多角形
前回作った度数分布表を、いよいよグラフにしていきます。量的データの分布を可視化する代表的な道具が、ヒストグラムと度数分布多角形です。
ヒストグラムは見た目こそ棒グラフに似ていますが、性格はまったく違います。両者の違い、度数分布多角形の使いどころ、そして「階級をいくつに分けるべきか」「階級の幅をどう決めるか」という実践的な判断まで、ひととおり整理します。最後に、政府統計の実データを使った例も見ていきましょう。
1. ヒストグラムの作り方
ヒストグラムは、度数分布表を棒で可視化したグラフです。前回作成した20人のテスト点数の度数分布表を、もう一度確認しましょう。
| 階級(点) | 階級値 | 度数 |
|---|---|---|
| 0以上 20未満 | 10 | 1 |
| 20以上 40未満 | 30 | 4 |
| 40以上 60未満 | 50 | 5 |
| 60以上 80未満 | 70 | 6 |
| 80以上 100未満 | 90 | 4 |
ヒストグラムの基本ルール
この度数分布表をヒストグラムにするときの基本ルールは3つです。
- 横軸に階級、縦軸に度数(または相対度数)をとる
- 各階級の度数の高さを長方形(柱)で表す
- 柱と柱の間を空けない。すべてつなげて描く
3つめのルール「間を空けない」は、ヒストグラムでもっとも重要な特徴です。階級は連続した数値の区間なので、棒と棒の間に隙間を作ってしまうと、「データのない範囲がある」かのように誤読されてしまうからです。
2. ヒストグラムと棒グラフは別物
ヒストグラムは見た目が棒グラフと似ているため、同じものだと勘違いされがちです。でも、両者は性格がまったく違います。検定でもよく問われる対比なので、ここでしっかり整理しましょう。
| 比較項目 | 棒グラフ | ヒストグラム |
|---|---|---|
| 扱う変数 | 質的変数 | 量的変数 |
| 横軸 | カテゴリ | 階級(区間) |
| 棒の間隔 | 離す | つなげる |
| 横軸の順序 | 自由(並び替え可能) | 値の順序で固定 |
| 主な目的 | カテゴリ間の比較 | 分布の形を見る |
とくに大事な「2つの違い」
この表のなかで、もっとも本質的な違いは2つです。
ひとつめは扱う変数が違うこと。棒グラフは血液型・性別のような質的変数、ヒストグラムは身長・点数のような量的変数を扱います。
ふたつめは棒の間隔の有無。質的変数のカテゴリは互いに独立しているので棒を離して描き、量的変数の階級は連続しているので棒をつなげて描きます。見た目に表れる、本質の違いです。
棒グラフは「カテゴリの比較」、ヒストグラムは「分布の形を見る」道具です。目的が違うので、見た目が似ていても役割は別物だと覚えてください。
「えっ、棒グラフとヒストグラムって違うの?」って思った人、安心して。みんな最初は同じだと思ってる! 棒の間が空いてるかどうかで見分けるのがコツだよ!
3. 度数分布多角形 ─ 線で分布をなめらかに
ヒストグラムの「階級ごとの柱の頂点(中央)」を線で結んでいくと、度数分布多角形(どすうぶんぷたかっけい、frequency polygon)と呼ばれるグラフができます。
つくり方
- 各階級の階級値(前回学んだ「階級の中央の値」)の位置に点を打つ
- その高さを、その階級の度数に合わせる
- 点と点を直線で結ぶ
- 両端は、最初と最後の階級の外側に「度数0」の点を取って、横軸まで線を下ろす(多角形を閉じるため)
4つめの「両端を横軸まで下ろす」というところが、折れ線グラフとの違いです。「多角形」と呼ばれるのは、両端を閉じることで全体が閉じた図形になるからですね。
使いどころ
度数分布多角形がヒストグラムよりも力を発揮する場面は、ずばり複数の分布を重ねて比較したいときです。
たとえば「A組とB組のテスト点数の分布」を比べたいとき、ヒストグラムを2つ並べると、柱が重なって見づらくなります。一方、度数分布多角形なら、線を2本重ねるだけで2つの分布の形のちがいが一目で読み取れます。
- A組とB組のテスト分布の比較
- 男子と女子の身長分布の比較
- 2020年と2024年の年齢層別人口の比較
ヒストグラムは「1つの分布をしっかり見る」、度数分布多角形は「複数の分布を比べる」のに向いています。両者は競合ではなく、役割の違いです。
2つのクラスの成績を比べたいとき、ヒストグラム2つだとごちゃごちゃ。線にしちゃえば「あ、こっちは平均高めで、こっちはバラついてる」とかすぐわかるんだよ!
4. 階級数と階級幅をどう決めるか
ヒストグラムを作るとき、「階級をいくつに分けるか」は分布の見え方を大きく左右します。これが今回もっとも実践的なテーマです。
少なすぎる場合・多すぎる場合
実際にどう変わるかを見ていきましょう。
- 階級数が少なすぎる(2〜3階級):分布の細かい特徴が消え、なだらかな2〜3本の柱になってしまう。「中ほどに集中している」のような大ざっぱな印象しかつかめない
- 階級数が多すぎる(30階級以上):各階級の度数が小さくなり、ガタガタの形になる。分布の本質的な傾向よりも、偶然のばらつきが目立ってしまう
- 適切な階級数:分布の特徴(山がいくつあるか、左右対称か、片寄っているか)が、はっきりと見える
階級数の目安
階級数の目安として、もっとも有名なのがスタージェスの公式(Sturges' formula)です。
階級数 = 1 + log2(N) (Nはデータの個数)
log2は「2を何回掛けたらNになるか」を表す対数です(前章で学んだ対数の考え方ですね)。式自体を覚える必要はありません。感覚的な目安として、データ数に応じた階級数の目安を表にまとめておきます。
| データ数 | 階級数の目安 |
|---|---|
| 30 〜 50 | 5 〜 7 |
| 50 〜 100 | 6 〜 10 |
| 100 〜 500 | 8 〜 12 |
| 500 〜 1000 | 10 〜 15 |
| 1000以上 | 10 〜 20 |
階級幅の決め方
階級数が決まれば、階級幅は次の式から求められます。
階級幅 = (データの最大値 − 最小値) ÷ 階級数
ただし、計算結果がそのままだと 17.3 や 26.4 のような中途半端な値になることが多いものです。実務では、キリのよい数字に丸めて使います。階級幅は10、20、25、50、100など、誰が見ても自然な数字を選んでください。
- テスト点数(0〜100、80人):階級幅10で10階級、または20で5階級
- 身長(150〜190cm、200人):階級幅5cmで8階級
- 家庭の年収(200〜2000万円、500人):階級幅100万円で18階級
階級数も階級幅も「絶対的な正解」はありません。データを見て、いくつかの分け方を試して、もっとも分布の特徴が見やすいものを選ぶのが実務です。検定では「適切な階級幅」を選ぶ問題が出ますので、目安は押さえておきましょう。
迷ったら「キリのいい数字」「7〜10階級くらい」で試してみて。これでだいたいうまくいくよ! 試行錯誤するのも、データを見るときの大事な作業なんだ。
5. 実例で読む ─ 世帯の貯蓄分布
ここまで学んだことを、実際の統計データで確認してみましょう。総務省統計局が公表している、2021年の二人以上の世帯における貯蓄現在高の階級別分布です。
このヒストグラムから読めること
横軸は貯蓄現在高(標準級間隔100万円)、縦軸は世帯の割合(%)を表しています。各階級の柱の高さがその階級にあてはまる世帯の割合です。よく見ていくと、いくつかの興味深い特徴が読み取れます。
- もっとも多い階級は「100〜200万円」で10.5%。低い貯蓄帯に世帯が集中している
- 右にいくほど柱が低くなる傾向。貯蓄が多い世帯ほど少ない
- 4000万円以上の階級が12.8%と突出して高い。少数だが多額の貯蓄を持つ層が一定数いる
- 右端の柱は「4000万円以上」と階級幅が広いため、他の柱と単純に高さで比べられない
この分布の形は、教科書的には「右に裾が長い分布」と呼ばれます。多くの世帯は左側(貯蓄少ない側)に集中し、少数の世帯が右側(貯蓄多い側)に長く広がっている形です。年収・財産・売上など、経済データの多くがこの形をとります。
「平均値」と「中央値」が大きく違う理由
この図には、平均値1,880万円と中央値1,104万円という2つの代表値が示されています。同じ「真ん中の値」を示すはずの2つが、なぜこんなに違うのでしょうか?
その答えは、まさに分布の形にあるのです。右側に長く伸びた裾(4000万円以上の世帯)が平均値を大きく引き上げる一方、中央値(人数の真ん中)はそれほど影響を受けません。分布が左右対称でないとき、平均値と中央値はずれる──これは次回以降のテーマです。
ヒストグラムは、「データの形」を見る道具です。形を見ることで、平均だけでは見えない傾向が読み取れます。「日本の世帯はどれくらい貯蓄を持っているか?」と聞かれたとき、「平均1,880万円」とだけ答えるより、「中央値で1,104万円ですが、上位層が大きく引き上げて平均は1,880万円です」と答えた方が、はるかに正確で誠実です。
ヒストグラムを読めるようになると、ニュースの「平均年収」とかにも惑わされなくなるよ。形を見れば、「ほんとうの真ん中」が見えてくるからね!
まとめ
今回のポイントを整理しておきましょう。
- ヒストグラム:量的変数の度数分布を、隙間なくつなげた柱で表現するグラフ
- 棒グラフとの違い:扱う変数(質的 vs 量的)と棒の間隔(離す vs つなげる)
- 度数分布多角形:階級値の点を線で結ぶ。複数の分布の比較に強い
- 階級数の目安:データ数の平方根が目安。一般的には5〜15階級
- 階級幅:(最大値 − 最小値)÷ 階級数を、キリのよい数字に丸める
- 分布の形を見ることで、平均値だけでは見えない傾向がつかめる
次回は、ヒストグラムから読み取れる分布の特徴──山の形、左右の偏り、裾の伸び方──を、もう一歩深く整理していきます。
ヒストグラムと度数分布多角形 確認シート
20人のテスト点数データから、ヒストグラムと度数分布多角形をExcelで作成する手順を学べる練習ファイルです。階級数を変えると分布の見え方がどう変わるかも体験できます。