箱ひげ図
第2章ファイナル、箱ひげ図です。これまで学んできた5数要約とレンジ・四分位範囲・外れ値のすべてが、たった1つのグラフに集約される、シンプルで強力な道具です。
本ページでは箱ひげ図の基本構造を確認したあと、複数の分布を一度に比較できる並列箱ひげ図の力を見ていきます。最後に「箱ひげ図でも見抜けないこと」という大事な注意点を整理します。実際にExcelで作る手順は、本ページとセットのExcel補助資料にまとめています。
1. 箱ひげ図とは ─ 5数要約の視覚化
箱ひげ図(はこひげず、box plot)は、5数要約を視覚的に表現するグラフです。「箱」と「ひげ」という2つのパーツで構成され、分布の中心・広がり・偏りがひと目でわかるように設計されています。
各パーツが意味するもの
| パーツ | 対応する値 | 意味 |
|---|---|---|
| 箱の下端 | 第1四分位数(Q1) | 下から25%の位置 |
| 箱の中の線 | 中央値(Q2) | ちょうど真ん中 |
| 箱の上端 | 第3四分位数(Q3) | 下から75%の位置 |
| 箱の高さ | 四分位範囲(IQR) | 中央50%の幅 |
| 下のひげの先 | 最小値(外れ値を除く) | 下端の値 |
| 上のひげの先 | 最大値(外れ値を除く) | 上端の値 |
| 外側の点 | 外れ値 | 1.5×IQRを超える値 |
要するに、箱の部分が「データの真ん中50%」、ひげの部分が「上下の25%ずつ」を表しています。これだけで、データの中心・広がり・偏りがすべて見える、というのが箱ひげ図のコンセプトです。
箱ひげ図から読み取れること
- 中央値の位置:箱の中の線がどこにあるか
- ばらつきの大きさ:箱の高さ(IQR)と全体の高さ(レンジ)
- 分布の偏り:箱の中で中央値が偏っている、ひげの長さが上下で違う
- 外れ値の有無:ひげの外側にポツンと点があるか
これらを1つのグラフから一気に読み取れるので、データの第一印象をつかむのに非常に便利です。実際のExcelでの作成手順は、本ページの末尾にあるExcel補助資料を見ながら進めてみてください。
箱ひげ図は「5数要約をひと目で見るグラフ」。たった1つの図で、ヒストグラムが伝えにくい分布の偏りやばらつきを、簡潔に伝えてくれます。
2. 並列箱ひげ図 ─ 複数の分布を一度に比較する
箱ひげ図のもっとも実践的な使い方が、複数のグループを並べて比較することです。これを並列箱ひげ図と呼びます。
たとえば、A組とB組の2クラスでテストの点数を比較したいとしましょう。それぞれの5数要約は次のとおりです。
| クラス | 最小値 | Q1 | 中央値 | Q3 | 最大値 |
|---|---|---|---|---|---|
| A組 | 45 | 60 | 70 | 80 | 95 |
| B組 | 55 | 65 | 75 | 85 | 90 |
これを並列箱ひげ図で見ると、両クラスの違いが一目でわかります。
A組とB組のテスト点数の並列箱ひげ図
並列箱ひげ図から読めること
この図をぱっと見るだけで、いくつもの発見があります。
- B組のほうが中央値が高い(A組70点、B組75点)
- A組はB組より広く散らばっている(レンジはA組50点、B組35点)
- 箱の高さ(IQR)はほぼ同じ(どちらも20点)。中央50%の散らばり方は近い
- A組には下に裾を引く生徒がいる(最小値45点)が、B組はそこまで低い人はいない
数字の表だけ見るより、視覚化した箱ひげ図の方が圧倒的に伝わりやすいですね。これを3つ・5つと並べていくと、グループ間の違いがさらにダイナミックに見えてきます。実務では、店舗別、商品別、年度別、性別、年代別など、ありとあらゆる分類で並列箱ひげ図が使われています。
並列箱ひげ図は「複数グループの分布を、一気に比較する」のに最強の道具です。ヒストグラムを並べるのと違って、5つの数字に圧縮されているので、何個並べても一目で把握できます。
並列箱ひげ図、すごく便利だよ! 「あ、こっちのほうが平均高そう」「こっちはバラついてる」って一瞬で見える。プレゼン資料でも一発で説得力アップ!
3. 注意点 ─ 山の数までは見えない
ここまで箱ひげ図の利点を見てきましたが、便利さの裏には限界もあります。それが「分布の形(山の数)が見えない」という弱点です。
同じ箱ひげ図でも、分布は別物のことがある
箱ひげ図は5つの数字(最小・Q1・中央・Q3・最大)だけで描かれます。だから、もし2つのデータが偶然同じ5数要約を持っていたら、両者の箱ひげ図はそっくりに見えます。でも、その元になっているヒストグラムの形はまったく違うことがあるのです。
たとえば、次のような2つの分布を比べてみてください。
この2つは、ヒストグラムで見るとまったく別物です。Aは中央に1つの山、Bは左右に2つの山があり、中央に谷があります。
ところが、両者の5数要約はほぼ同じになることがあるのです。だとすると──両者の箱ひげ図は、ほぼ同じ形になってしまいます。箱ひげ図だけ見ていると、これが二峰性だとは気づけないのです。
なぜ箱ひげ図は山の数を見抜けないのか
理由はシンプルです。箱ひげ図が使うのは5つの数字だけで、その間にデータがどう分布しているかを教えてくれないからです。「箱の中(中央50%)」も「ひげの中(上下25%ずつ)」も、その中身がどんな形をしているかは、箱ひげ図からは見えません。
たとえば2-3で扱った男女混合のクラスの身長のように、本当は2つの集団が混ざっているデータも、5数要約だけ取り出してしまうと、ふつうの一山の分布のように見えてしまいます。
対策:ヒストグラムとセットで見る
この弱点を補う方法はシンプルで、箱ひげ図とヒストグラムをセットで見ることです。
- ヒストグラムで分布の形(山の数、対称性、谷の有無)を確認
- 箱ひげ図で代表値とばらつき、外れ値を確認
- 2つを並べてはじめて、データの全体像が見えてくる
もし箱ひげ図だけ見て、ひげが特に長かったり、IQRに対してレンジが極端に広かったりするときは、「もしかして別の集団が混ざっているのでは?」と疑って、ヒストグラムも確認する習慣をつけてください。
箱ひげ図は「サマリーグラフ」。詳しい分布の形が見たいなら、ヒストグラムと併用してください。1つの道具で全部わかる、なんて便利すぎることは統計には存在しません。
箱ひげ図は便利だけど、万能じゃない。ヒストグラムと併せて見るのがプロの基本! 「同じ箱ひげ図でも、中身は別物のことがある」って覚えておいて!
まとめ ─ そして第2章完了
第2章ファイナルのポイントを整理しておきましょう。
- 箱ひげ図:5数要約(最小・Q1・中央・Q3・最大)を視覚化したグラフ
- 箱の高さ=IQR、箱の中の線=中央値、ひげの先=最大・最小
- 並列箱ひげ図は複数グループの比較に最強
- 注意点:箱ひげ図は山の数を見抜けない。ヒストグラムと併用が基本
第2章「量的変数の要約方法」、ここで完了です。度数分布表からスタートして、ヒストグラムと度数分布多角形、分布の特徴の把握、分位数と5数要約、データの散らばり、そして箱ひげ図まで、量的データを「見える形」にするための道具を一通り揃えました。
第2章「量的変数の要約方法」、ここで完了です。 次章は、データを1つの数字で代表させる──平均値・中央値・分散など、代表値と散らばりの数値表現に入っていきます。
第2章おつかれさま! ここまで読み切れたら、ヒストグラムも箱ひげ図も自信を持って語れるはず! 第3章ではついに「平均」「分散」が登場するよ。お楽しみに!
箱ひげ図の作成 確認シート
QUARTILE関数で5数要約を求める方法から、箱ひげ図の挿入、並列箱ひげ図の作成、外れ値の表示までを実際にExcelで体験できる練習ファイルです。本章のまとめとして、ぜひ手を動かしてみてください。