質的変数の要約
前回はデータの種類を見分けるところから始めました。今回は、その中でも質的変数に注目し、これを「要約」する方法を学びます。
要約とは、たくさんのデータを一目で全体像がつかめる形にまとめることです。具体的には度数分布表から始まり、棒グラフでカテゴリの大小を、円グラフ・帯グラフで割合を可視化していきます。さらに2つの変数の関係を見るクロス集計と、その合計欄である行和・列和もあわせて整理します。
1. 棒グラフで頻度を見る
質的変数を要約する第一歩は、「それぞれのカテゴリに何件あるか」を数えることです。この件数を度数(どすう)と呼びます。英語で「frequency(頻度)」のことですね。
たとえば、ある会社の社員50人の血液型を調べたところ、A型が20人、B型が12人、O型が14人、AB型が4人でした。これを表にまとめたものを度数分布表と呼びます。
| 血液型 | 度数(人) | 相対度数 |
|---|---|---|
| A型 | 20 | 0.40 (40%) |
| B型 | 12 | 0.24 (24%) |
| O型 | 14 | 0.28 (28%) |
| AB型 | 4 | 0.08 (8%) |
| 合計 | 50 | 1.00 (100%) |
度数と相対度数のちがい
度数はそのカテゴリに属するデータの個数そのものです。相対度数は、度数を全体の総数(ここでは50)で割った値で、いわゆる「割合」のことです。検定では比率と呼ばれることもあります。
度数だけだと「20人いる」という事実は分かっても、それが多いのか少ないのか判断しづらい場面があります。そんなとき、相対度数で「全体の40%」と表現すると、規模感がつかみやすくなります。
棒グラフのつくり方
この度数分布表を棒グラフにすると、どのカテゴリが多くてどれが少ないかが一目でわかります。
棒グラフを書くときの基本ルールは3つです。
- 横軸にカテゴリ、縦軸に度数をとる
- カテゴリ間の棒は離して描く(連続した値ではないことを示すため)
- カテゴリの並び順は頻度の多い順、または意味のある順(順序尺度なら順序通り)にする
量的変数のヒストグラム(次回以降で扱います)と棒グラフは見た目が似ていますが、棒グラフは「カテゴリ間に連続性がない」ことを示すために棒どうしを離して描く点が大きな違いです。
棒グラフはカテゴリ別の数の比較が目的です。「どれが多くて、どれが少ないか」を直感的に伝えるのに、これ以上シンプルで強力な道具はありません。
棒グラフって地味だけど、実はめちゃくちゃ使われてるんだよ!会議資料でもニュースでも、「数を比べたい」ときの第1選択は、だいたい棒グラフ。
2. 円グラフ・帯グラフで割合を見る
棒グラフが「数の比較」なら、円グラフと帯グラフは「割合の可視化」が得意です。同じ血液型データでも、見せ方が変わるとメッセージも変わります。
円グラフ
円グラフは、全体を100%とした円を、各カテゴリの相対度数に応じて扇形に分割するグラフです。さきほどの血液型データなら、円の40%がA型、28%がO型、24%がB型、8%がAB型の扇に分けられます。
円グラフを使うときに気をつけたいことを整理しておきましょう。
- カテゴリ数が多すぎる(7個以上)と扇が細くなって読みにくくなる
- 立体(3D)の円グラフは避ける。手前の扇が大きく見えて誤解を招くため
- カテゴリの並びは大きい順(時計の12時から時計回り)が一般的
帯グラフ
帯グラフは、長方形の帯を100%として、カテゴリごとに区切るグラフです。「100%積み上げ棒グラフ」とも呼ばれます。
帯グラフが力を発揮するのは、複数のグループ間で割合を比較したいときです。たとえば男性社員の血液型分布と女性社員の血液型分布を、2本の帯にして並べれば、性別による構成比の違いが視覚的に伝わります。
- 男性30人:A型12人 / B型7人 / O型8人 / AB型3人
- 女性20人:A型8人 / B型5人 / O型6人 / AB型1人
これを2本の帯グラフに並べると、男女の血液型の構成比に違いがあるかが一目で見える。
円グラフ・帯グラフは「全体に対する比率」を見せる道具です。逆に絶対数の比較には棒グラフが向いています。グラフ選びは「何を伝えたいか」から逆算するのがコツです。
「比べたい」のが「数」なのか「割合」なのか。これさえ分かればグラフ選びで迷わない!プレゼン資料でも、これだけで説得力が変わるよ。
3. クロス集計 ― 2つの変数の関係を見る
ここまでは「血液型」という1つの変数だけを集計してきました。でも実務では、2つの質的変数の関係を見たい場面のほうがむしろ多いものです。「性別」と「血液型」、「年代」と「好きな飲み物」、「職種」と「使用しているOS」など、世の中の興味のほとんどは「変数どうしの関係」にあります。
このとき使うのがクロス集計です。クロス集計の結果をまとめた表を分割表またはクロス集計表と呼びます。
クロス集計表の見方
先ほどの社員50人(男性30人、女性20人)の血液型を、性別×血液型でクロス集計してみましょう。
| A型 | B型 | O型 | AB型 | |
|---|---|---|---|---|
| 男性 | 12 | 7 | 8 | 3 |
| 女性 | 8 | 5 | 6 | 1 |
表のひとつひとつのマス(セル)に入っている数字は、「その行と列の両方の条件にあてはまる人数」を表します。たとえば左上の「12」は、男性かつA型の人が12人いることを示しています。
クロス集計表は、Excelのピボットテーブル機能でかんたんに作れます。データさえあれば、行に置きたい変数と列に置きたい変数をドラッグするだけで、自動的にこの表ができあがります。実務でも教育の場でも、もっとも頻繁に登場する集計の形です。
クロス集計は「2つの軸で見る」ってことだよ。Excelのピボットテーブルが使えるようになると、世界が変わるくらい便利!実務で本当によく使うから、ぜひ覚えてね。
4. 行和と列和 ― 表の周辺を読む
クロス集計表に行ごとの合計と列ごとの合計を書き足すと、表の理解がぐっと深まります。これらをそれぞれ行和(ぎょうわ)、列和(れつわ)と呼びます。あわせて周辺度数とも呼ばれます。表の「周辺(端)」に書き足される度数だから、と覚えてください。
| A型 | B型 | O型 | AB型 | 行和 | |
|---|---|---|---|---|---|
| 男性 | 12 | 7 | 8 | 3 | 30 |
| 女性 | 8 | 5 | 6 | 1 | 20 |
| 列和 | 20 | 12 | 14 | 4 | 50 |
行和は「行の変数の度数」
この表の行は性別(男性・女性)です。だから行和は性別ごとの度数を表します。男性30人、女性20人。これは性別だけを集計したときの度数分布表と一致します。
列和は「列の変数の度数」
列は血液型です。列和は血液型ごとの度数を表します。A型20人、B型12人、O型14人、AB型4人。こちらも、すでに見た血液型の度数分布表とぴったり同じ数字になっています。
右下のマスは「総和」
行和の合計、または列和の合計は総和と呼びます。表全体の人数で、ここでは50人です。行和の合計と列和の合計が一致するかを確かめれば、計算ミスを防ぐ簡単なチェックになります。
行和・列和とは、「2変数の集計から1変数の集計を取り出したもの」です。クロス集計の表があれば、それぞれの変数だけの分布もそこから読み取れる、という関係になっています。
「行」は横の並び、「列」は縦の並び。だから行和は横方向の合計、列和は縦方向の合計。漢字の意味そのままだから、これで迷わない!
まとめ
質的変数を要約するときの基本道具を、もういちど整理しておきましょう。
- 度数分布表:カテゴリ別に件数(度数)と割合(相対度数)を集計した表
- 棒グラフ:カテゴリ別の数を比較したいときに使う
- 円グラフ・帯グラフ:全体に対する割合を見せたいときに使う
- クロス集計表:2つの質的変数の関係を見るための表
- 行和・列和:クロス集計表の周辺に書き加える、各変数の度数
質的変数の要約は、つきつめると「数えて、見える形にする」ことに尽きます。Excelのピボットテーブル機能やグラフ機能を使えば、これらの作業は驚くほどかんたんに行えます。実際に手を動かしてみると、検定のための知識が「使える知識」に変わります。次回からは、グラフをより深く扱っていきましょう。
質的変数の要約 確認シート
社員50人のサンプルデータをもとに、度数分布表・棒グラフ・クロス集計表を実際に作って学べるExcelファイルです。