第2章 2-2 / 量的変数の要約方法

ヒストグラムと度数分布多角形

このページで学ぶこと

前回作った度数分布表を、いよいよグラフにしていきます。量的データの分布を可視化する代表的な道具が、ヒストグラム度数分布多角形です。

ヒストグラムは見た目こそ棒グラフに似ていますが、性格はまったく違います。両者の違い、度数分布多角形の使いどころ、そして「階級をいくつに分けるべきか」「階級の幅をどう決めるか」という実践的な判断まで、ひととおり整理します。最後に、政府統計の実データを使った例も見ていきましょう。

1. ヒストグラムの作り方

ヒストグラムは、度数分布表を棒で可視化したグラフです。前回作成した20人のテスト点数の度数分布表を、もう一度確認しましょう。

階級(点) 階級値 度数
0以上 20未満101
20以上 40未満304
40以上 60未満505
60以上 80未満706
80以上 100未満904

ヒストグラムの基本ルール

この度数分布表をヒストグラムにするときの基本ルールは3つです。

  1. 横軸に階級、縦軸に度数(または相対度数)をとる
  2. 各階級の度数の高さを長方形(柱)で表す
  3. 柱と柱の間を空けない。すべてつなげて描く

3つめのルール「間を空けない」は、ヒストグラムでもっとも重要な特徴です。階級は連続した数値の区間なので、棒と棒の間に隙間を作ってしまうと、「データのない範囲がある」かのように誤読されてしまうからです。

2. ヒストグラムと棒グラフは別物

ヒストグラムは見た目が棒グラフと似ているため、同じものだと勘違いされがちです。でも、両者は性格がまったく違います。検定でもよく問われる対比なので、ここでしっかり整理しましょう。

比較項目 棒グラフ ヒストグラム
扱う変数質的変数量的変数
横軸カテゴリ階級(区間)
棒の間隔離すつなげる
横軸の順序自由(並び替え可能)値の順序で固定
主な目的カテゴリ間の比較分布の形を見る

とくに大事な「2つの違い」

この表のなかで、もっとも本質的な違いは2つです。

ひとつめは扱う変数が違うこと。棒グラフは血液型・性別のような質的変数、ヒストグラムは身長・点数のような量的変数を扱います。

ふたつめは棒の間隔の有無。質的変数のカテゴリは互いに独立しているので棒を離して描き、量的変数の階級は連続しているので棒をつなげて描きます。見た目に表れる、本質の違いです。

POINT

棒グラフは「カテゴリの比較」、ヒストグラムは「分布の形を見る」道具です。目的が違うので、見た目が似ていても役割は別物だと覚えてください。

さえちゃん
さえ

「えっ、棒グラフとヒストグラムって違うの?」って思った人、安心して。みんな最初は同じだと思ってる! 棒の間が空いてるかどうかで見分けるのがコツだよ!

3. 度数分布多角形 ─ 線で分布をなめらかに

ヒストグラムの「階級ごとの柱の頂点(中央)」を線で結んでいくと、度数分布多角形(どすうぶんぷたかっけい、frequency polygon)と呼ばれるグラフができます。

つくり方

  1. 各階級の階級値(前回学んだ「階級の中央の値」)の位置に点を打つ
  2. その高さを、その階級の度数に合わせる
  3. 点と点を直線で結ぶ
  4. 両端は、最初と最後の階級の外側に「度数0」の点を取って、横軸まで線を下ろす(多角形を閉じるため)

4つめの「両端を横軸まで下ろす」というところが、折れ線グラフとの違いです。「多角形」と呼ばれるのは、両端を閉じることで全体が閉じた図形になるからですね。

使いどころ

度数分布多角形がヒストグラムよりも力を発揮する場面は、ずばり複数の分布を重ねて比較したいときです。

たとえば「A組とB組のテスト点数の分布」を比べたいとき、ヒストグラムを2つ並べると、柱が重なって見づらくなります。一方、度数分布多角形なら、線を2本重ねるだけで2つの分布の形のちがいが一目で読み取れます。

USE CASE
  • A組とB組のテスト分布の比較
  • 男子と女子の身長分布の比較
  • 2020年と2024年の年齢層別人口の比較
POINT

ヒストグラムは「1つの分布をしっかり見る」、度数分布多角形は「複数の分布を比べる」のに向いています。両者は競合ではなく、役割の違いです。

さえちゃん
さえ

2つのクラスの成績を比べたいとき、ヒストグラム2つだとごちゃごちゃ。線にしちゃえば「あ、こっちは平均高めで、こっちはバラついてる」とかすぐわかるんだよ!

4. 階級数と階級幅をどう決めるか

ヒストグラムを作るとき、「階級をいくつに分けるか」は分布の見え方を大きく左右します。これが今回もっとも実践的なテーマです。

少なすぎる場合・多すぎる場合

実際にどう変わるかを見ていきましょう。

階級数の目安

階級数の目安として、もっとも有名なのがスタージェスの公式(Sturges' formula)です。

FORMULA

階級数 = 1 + log2(N)  (Nはデータの個数)

log2は「2を何回掛けたらNになるか」を表す対数です(前章で学んだ対数の考え方ですね)。式自体を覚える必要はありません。感覚的な目安として、データ数に応じた階級数の目安を表にまとめておきます。

データ数 階級数の目安
30 〜 505 〜 7
50 〜 1006 〜 10
100 〜 5008 〜 12
500 〜 100010 〜 15
1000以上10 〜 20

階級幅の決め方

階級数が決まれば、階級幅は次の式から求められます。

FORMULA

階級幅 = (データの最大値 − 最小値) ÷ 階級数

ただし、計算結果がそのままだと 17.326.4 のような中途半端な値になることが多いものです。実務では、キリのよい数字に丸めて使います。階級幅は10、20、25、50、100など、誰が見ても自然な数字を選んでください。

EXAMPLE
  • テスト点数(0〜100、80人):階級幅10で10階級、または20で5階級
  • 身長(150〜190cm、200人):階級幅5cmで8階級
  • 家庭の年収(200〜2000万円、500人):階級幅100万円で18階級
POINT

階級数も階級幅も「絶対的な正解」はありません。データを見て、いくつかの分け方を試して、もっとも分布の特徴が見やすいものを選ぶのが実務です。検定では「適切な階級幅」を選ぶ問題が出ますので、目安は押さえておきましょう。

さえちゃん
さえ

迷ったら「キリのいい数字」「7〜10階級くらい」で試してみて。これでだいたいうまくいくよ! 試行錯誤するのも、データを見るときの大事な作業なんだ。

5. 実例で読む ─ 世帯の貯蓄分布

ここまで学んだことを、実際の統計データで確認してみましょう。総務省統計局が公表している、2021年の二人以上の世帯における貯蓄現在高の階級別分布です。

2021年の二人以上の世帯における貯蓄現在高の階級別世帯分布のヒストグラム。100〜200万円の階級が10.5%でもっとも多く、4000万円以上の階級が12.8%。
貯蓄現在高階級別世帯分布(2021年・二人以上の世帯のうち勤労者世帯) 出典:総務省統計局「家計調査」

このヒストグラムから読めること

横軸は貯蓄現在高(標準級間隔100万円)、縦軸は世帯の割合(%)を表しています。各階級の柱の高さがその階級にあてはまる世帯の割合です。よく見ていくと、いくつかの興味深い特徴が読み取れます。

この分布の形は、教科書的には「右に裾が長い分布」と呼ばれます。多くの世帯は左側(貯蓄少ない側)に集中し、少数の世帯が右側(貯蓄多い側)に長く広がっている形です。年収・財産・売上など、経済データの多くがこの形をとります。

「平均値」と「中央値」が大きく違う理由

この図には、平均値1,880万円中央値1,104万円という2つの代表値が示されています。同じ「真ん中の値」を示すはずの2つが、なぜこんなに違うのでしょうか?

その答えは、まさに分布の形にあるのです。右側に長く伸びた裾(4000万円以上の世帯)が平均値を大きく引き上げる一方、中央値(人数の真ん中)はそれほど影響を受けません。分布が左右対称でないとき、平均値と中央値はずれる──これは次回以降のテーマです。

POINT

ヒストグラムは、「データの形」を見る道具です。形を見ることで、平均だけでは見えない傾向が読み取れます。「日本の世帯はどれくらい貯蓄を持っているか?」と聞かれたとき、「平均1,880万円」とだけ答えるより、「中央値で1,104万円ですが、上位層が大きく引き上げて平均は1,880万円です」と答えた方が、はるかに正確で誠実です。

さえちゃん
さえ

ヒストグラムを読めるようになると、ニュースの「平均年収」とかにも惑わされなくなるよ。形を見れば、「ほんとうの真ん中」が見えてくるからね!

まとめ

今回のポイントを整理しておきましょう。

次回は、ヒストグラムから読み取れる分布の特徴──山の形、左右の偏り、裾の伸び方──を、もう一歩深く整理していきます。

X
EXCEL — 補助資料

ヒストグラムと度数分布多角形 確認シート

20人のテスト点数データから、ヒストグラムと度数分布多角形をExcelで作成する手順を学べる練習ファイルです。階級数を変えると分布の見え方がどう変わるかも体験できます。

ダウンロード