分布の特徴の把握
前回はヒストグラムと度数分布多角形の作り方を学びました。今回は、出来上がったヒストグラムから分布の特徴をどう読み取るかに焦点をあてます。
まずは「そもそも、なぜヒストグラムを描くのか?」という出発点に立ち返り、3つの代表的な分布の形(左右対称、右の裾が長い、左の裾が長い)を確認していきます。最後に、データを分けて見ることで新しい発見が生まれる例を取り上げます。
1. ヒストグラムを描く目的
ヒストグラムは、ただの「グラフを作る作業」ではありません。「データの全体像を一目で見るため」に描きます。表に並んだ数字の列をいくら見ても伝わらないことが、ヒストグラムにすると瞬時に伝わります。
ヒストグラムから読み取れる4つのこと
上手に描かれたヒストグラムからは、次のような情報が読み取れます。
- 分布の中心はどこにあるか。山の頂上はどのあたり?
- 分布のばらつきはどれくらいか。狭い範囲に集中? 広く散らばっている?
- 分布の形は対称か、偏っているか。山はいくつあるか
- 外れ値はあるか。突出した値が混じっていないか
これらは、平均値や中央値だけを見ても伝わりません。「平均は60点」と聞いても、それが「全員60点前後でほぼ揃っている」のか「30点と90点に二分されていてたまたま平均が60」なのかは、まったく別の状況です。分布の形を見て初めて、データの本当の姿がわかるのです。
ヒストグラムの目的は「数字では伝わらない、データの姿を見える化すること」。代表値(平均・中央値)と分布の形は、セットで見るのが基本です。
「平均60点」だけだとピンと来ないけど、ヒストグラムを見れば「あ、なるほど!」って一瞬でわかる。これがヒストグラムの威力!
2. 分布の3つの代表的な形
ヒストグラムの形には、いくつかの典型的なパターンがあります。3級で押さえておきたいのは、次の3つです。
左右対称の分布
左右対称の分布は、山が真ん中にあり、左右に均等に広がっている形です。中心の値の付近にデータが集中し、そこから離れるほど少なくなっていく、もっとも整った形と言えます。
- 成人の身長
- 製品の寸法のばらつき
- 多くの人が受けた標準的な学力テストの点数
- 人の体温
左右対称の分布では、平均値・中央値・最頻値のいずれもがほぼ同じ位置(山の頂上)に来ます。「真ん中の値」がブレない、わかりやすい分布です。
右の裾が長い分布
右の裾が長い分布は、山が左寄りにあり、右側に長く尾を引く形です。正の歪み(ゆがみ)とも呼ばれます。
前回見た世帯の貯蓄分布を覚えていますか? あれがまさにこの形でした。多くの世帯は左側(少ない貯蓄)に集中し、ごく一部の世帯が右側(多額の貯蓄)に長く広がっていました。
- 世帯の貯蓄額・年収
- 家賃
- 都市の人口(多くの市町村は小規模、一部に巨大都市)
- 本のページ数
右の裾が長い分布では、少数の大きな値が平均を引き上げます。そのため平均値 > 中央値 > 最頻値という順序になります。「平均年収」が肌感覚より高く感じられるのは、この分布の形が原因です。
左の裾が長い分布
左の裾が長い分布は、山が右寄りにあり、左側に長く尾を引く形です。負の歪みとも呼ばれます。実生活ではやや目にする機会が少ないですが、特定の状況で現れます。
- 合格者がほぼ満点を取る簡単な試験の点数
- 長寿の人々の死亡年齢
- 製品の耐用年数(多くは寿命まで使われ、初期不良の少数が低い側に)
左の裾が長い分布では、少数の小さな値が平均を引き下げます。平均値 < 中央値 < 最頻値の順序になります。
3つの形と代表値の関係
平均値・中央値・最頻値の関係を、形ごとに整理しておきましょう。
| 分布の形 | 3つの代表値の関係 |
|---|---|
| 左右対称 | 平均値 ≒ 中央値 ≒ 最頻値 |
| 右の裾が長い | 平均値 > 中央値 > 最頻値 |
| 左の裾が長い | 平均値 < 中央値 < 最頻値 |
この関係を覚えておくと、「平均値と中央値が大きく違う」と聞いただけで、分布の形がだいたい想像できるようになります。「平均年収450万、中央値380万」なら、右の裾が長い分布だな、と。
分布の形は「裾がどっち向きに伸びているか」で覚えてください。右に伸びれば「右の裾が長い」、左に伸びれば「左の裾が長い」。形を一文字で言うと「右」または「左」どちら向きの形か、ということです。
「右の裾が長い」「左の裾が長い」って、最初は混乱しやすいんだよね。山の頂上じゃなくて、長く伸びてるしっぽの向きで名前が決まるって覚えるのがコツ!
3. データを分けて見ると、新しい発見がある
ヒストグラムを描く目的の中でも、もっとも実務的に役立つのが「グループに分けて見る」という発想です。専門用語では層別(そうべつ)と呼ばれます。データをいくつかのグループに分けてヒストグラムを描き直すと、全体だけ見ていては気づかないことが見えてきます。
例:あるクラスの身長
40人のクラスで、全員の身長を測ってヒストグラムを作ったとします。すると、こんな形になりました。
この分布、よく見ると山が2つあるように見えませんか? 1つは160cm前後、もう1つは175cm前後。これは二峰性(にほうせい)の分布と呼ばれる形です。
男女に分けて描き直してみる
この「2つの山」の正体は何でしょうか? 試しに、データを男女別に分けてヒストグラムを描き直してみます。
すると、もともとあった2つの山は、男女2つの分布が重なってできていたことが見えてきました。それぞれを切り離して見ると、女子の分布は左寄りの単峰性、男子の分布は右寄りの単峰性で、それぞれは普通の左右対称の形をしています。
「層別」が教えてくれること
この例から、大事なメッセージが見えてきます。
- 全体だけ見ると「身長は150〜185cmに広く散らばっている」としか言えない
- 男女別に見ると「女子は155〜170cm、男子は165〜185cmに分布している」と、ぐっと具体的になる
- 「全体の平均170cm」より、「女子162cm、男子175cm」のほうが、はるかに使える情報
これが層別の力です。一見ひとつの集団に見えるデータも、性質の違うグループが混ざっていることがあります。分けて見ることで、全体では見えなかった本質が浮き上がるのです。
実務での層別
層別の発想は、ビジネスや研究の現場でとても役立ちます。
- 店舗の売上を「曜日別・時間帯別」に分けて見る → ピーク時間が判明
- 顧客の購買額を「年代別・性別」で分ける → ターゲット層が浮き彫りに
- 製品の不良率を「工場別・ライン別」で分ける → 不良の原因が特定できる
- テスト結果を「学級別・コース別」で分ける → 指導の効果が見える
ヒストグラムが不自然な形(山が2つある、谷ができている、極端に偏っている)に見えたら、「2つ以上の集団が混ざっているのでは?」と疑ってください。グループに分けて描き直すと、新しい発見があります。
「全体の平均」って、便利だけど大ざっぱ。グループに分けて見ると、もっと役立つ事実が見えてくるよ。データ分析の基本中の基本!
まとめ
今回のポイントを整理しておきましょう。
- ヒストグラムを描く目的:分布の中心・ばらつき・形・外れ値を一目で把握する
- 左右対称の分布:山が真ん中。平均値≒中央値≒最頻値
- 右の裾が長い分布:山が左、右に長い尾。平均>中央>最頻(年収・貯蓄など)
- 左の裾が長い分布:山が右、左に長い尾。平均<中央<最頻
- 層別:データをグループに分けて描き直すと、全体では見えない事実が見える
ヒストグラムは「描いて終わり」ではなく、「形を読む」「分けて見る」ところまでが本番です。次回からは、分布を数値で要約する方法──分位数や5数要約──に入っていきます。
分布の特徴の把握 確認シート
3つの代表的な分布の形を再現したサンプルデータと、男女別に層別したヒストグラムの比較を、Excelで体験できる練習ファイルです。