質的データの要約
ここまでは点数や売上のような量的データを扱ってきました。今回の主役は、血液型・職種・好きなブランドのような質的データ(カテゴリのデータ)です。数値の大小では測れないこうしたデータを、どう「要約」して見える形にするかを学びます。
まず度数・相対度数・度数分布表でカテゴリごとに数えてまとめ、つぎに棒グラフ・円グラフ・帯グラフで可視化します。どのグラフが何の比較に向くのか、その用途と注意点を、社員50人のアンケートの数値例とグラフの図でつかんでいきましょう。
質的データの要約は、つきつめると「数えて、見える形にする」だけ。むずかしい式はほとんど出てこないよ。でもグラフ選びには意外と落とし穴があるから、用途と注意点をセットで覚えようね!
1. 度数・相対度数・度数分布表
質的データの要約の第一歩は、「それぞれのカテゴリに何件あるか」を数えることです。この件数を度数(frequency)と呼びます。さらに、度数を全体の総数で割った割合を相対度数と呼びます。検定では比率とも言います。
あるカテゴリの度数を $f_i$、全体の総数を $n$ とすると、 $$\text{相対度数} = \frac{f_i}{n}$$ 相対度数をすべて足すと必ず $1$($100\%$)になります:$\displaystyle\sum_{i} \frac{f_i}{n} = 1$。
これらをカテゴリ別にまとめた表が度数分布表です。例として、社員50人に「仕事でいちばんよく使う端末は?」と尋ねた結果をまとめてみます。
| 端末 | 度数(人) | 相対度数 | 百分率 |
|---|---|---|---|
| スマホ | 24 | 0.48 | 48% |
| PC | 12 | 0.24 | 24% |
| タブレット | 9 | 0.18 | 18% |
| その他 | 5 | 0.10 | 10% |
| 合計 | 50 | 1.00 | 100% |
たとえばスマホは $\dfrac{24}{50}=0.48$ で $48\%$。度数だけだと「24人」が多いのか少ないのか判断しづらいですが、相対度数で「全体の約半数」と言えば規模感がつかめますね。集団の大きさが違う2つのデータを比べたいときは、相対度数で比べるのが鉄則です。
2. 棒グラフ ─ カテゴリ別の数を比べる
度数分布表を棒グラフにすると、どのカテゴリが多くてどれが少ないかが一目でわかります。質的データの可視化で、もっとも基本かつ強力なグラフです。
よく使う端末の棒グラフ(カテゴリ別の度数)
棒グラフを描くときの基本ルールは次のとおりです。
- 横軸にカテゴリ、縦軸に度数(または相対度数)をとる
- カテゴリ間の棒は離して描く(連続した値ではないことを示すため)
- 並び順は度数の多い順、または順序尺度なら意味のある順にする
- 「その他」は、内容にかかわらずいちばん右に置く
量的データのヒストグラムと見た目は似ていますが、ヒストグラムは連続した階級なので棒をくっつけて描き、棒グラフはカテゴリ間に連続性がないことを示すために棒を離す、という違いがあります。
棒グラフの目的は「カテゴリ別の数(量)の比較」。「どれが多くて、どれが少ないか」を直感的に伝えるのに、これ以上シンプルで強いグラフはありません。
棒グラフは「数を比べたい」ときの第1選択! 大事なのは棒を離すこと。くっつけて描くとヒストグラム(連続データ)と混同されちゃうから気をつけてね。
3. 円グラフ・帯グラフ ─ 全体に対する割合を見せる
棒グラフが「数の比較」なら、円グラフと帯グラフは「割合(構成比)の可視化」が得意です。同じデータでも、見せ方を変えるとメッセージが変わります。
円グラフ
円グラフは、円全体を $100\%$ とし、各カテゴリの相対度数に応じて扇形に分割します。中心角は相対度数 $\times 360^\circ$ で決まります。たとえばスマホは $0.48\times 360^\circ \approx 173^\circ$ ぶんの扇になります。
よく使う端末の円グラフ(相対度数を扇形で表現)
円グラフを使うときの注意点です。
- カテゴリ数が多すぎる(目安7個以上)と扇が細くなって読みにくい
- 立体(3D)の円グラフは避ける。手前の扇が大きく見えて誤解を招くため
- 並びは大きい順(時計の12時から時計回り)が一般的。「その他」は最後に置く
帯グラフ
帯グラフは、長方形の帯を $100\%$ として、カテゴリごとに区切ったものです。「$100\%$ 積み上げ棒グラフ」とも呼ばれます。力を発揮するのは、複数グループの構成比を並べて比較する場面です。
部署別の端末構成比を並べた帯グラフ(構成比の違いが一目でわかる)
2本の帯を並べると、営業部はスマホ中心、開発部はPC中心、という構成比の違いがひと目で伝わります。同じことを円グラフ2枚でやると比較しづらいので、グループ間の構成比を比べたいなら帯グラフが向いています。
円グラフ・帯グラフは「全体に対する割合」を見せるグラフ。1集団の構成比なら円グラフ、複数集団の構成比の比較なら帯グラフ。絶対数の比較は棒グラフ──「数か、割合か、その比較か」から逆算してグラフを選びましょう。
4. グラフ選びの用途と注意点
3つのグラフの使い分けを、表に整理しておきます。
| グラフ | 見せるもの | 向いている場面 |
|---|---|---|
| 棒グラフ | カテゴリ別の数(量) | 「どれが多い/少ない」の比較 |
| 円グラフ | 1集団の構成比 | 全体に占める割合を見せる |
| 帯グラフ | 複数集団の構成比 | グループ間で構成比を比べる |
共通して気をつけたいこと
- 集団サイズが違うものを比べるときは相対度数で。度数(生の数)のまま比べると、母数の大きい集団が有利に見えてしまいます。
- カテゴリが多すぎるときは、小さいものを「その他」にまとめて見やすくします。
- 3D(立体)グラフは原則避ける。見た目の派手さと引き換えに、面積や角度の印象が歪みます。
- 軸の目盛り(特に棒グラフの縦軸)を $0$ から始める。途中から始めると差が誇張されて見えます。
グラフは「何を伝えたいか」から選ぶのがコツ。数なら棒、割合なら円、構成比の比較なら帯。3Dや軸のごまかしは、見る人をだましちゃうから卒業しよう! 第1章前半、おつかれさま!
まとめ
第1章 1-8、ポイントを整理します。
- 度数:カテゴリ別の件数。相対度数:$\dfrac{f_i}{n}$(割合)。合計は必ず $1$
- 度数分布表:カテゴリ別に度数・相対度数をまとめた表
- 棒グラフ:カテゴリ別の数の比較。棒は離して描く
- 円グラフ:1集団の構成比。中心角=相対度数 $\times 360^\circ$
- 帯グラフ:複数集団の構成比の比較に強い
- 注意:集団サイズが違えば相対度数で比較。3Dや軸のごまかしは避ける
次回 1-9 散布図・相関係数・共分散 からは、いよいよ2つの変数の関係に踏み込みます。1つのデータを読む力が、関係を見る力へと進化していきますよ。