層別散布図
前回は2つの変数の関係として散布図と3つの相関関係を学びました。今回はそこから一歩進んで、もう1つの変数を加えて散布図を見る──層別散布図を扱います。
「層別」(そうべつ)の発想は、第2章2-3のヒストグラムや、第3章3-4のEDAの話の中でも一度登場しました。データをグループに分けて見ると、全体だけでは見えない真実が浮かび上がる──このアイデアを、散布図に応用するのが今回のテーマです。
1. 層別散布図とは
層別散布図(そうべつさんぷず)は、通常の散布図にもう1つの変数を加えて、点を色や形で塗り分けるグラフです。「もう1つの変数」のことを層と呼びます。
3つの変数を1枚の図に
たとえば、ある中学校の生徒について、次の3つの変数を持っているとします。
- 変数X:身長(量的変数)
- 変数Y:50m走のタイム(量的変数)
- 層:性別(質的変数)
普通の散布図なら、横軸に身長、縦軸に50m走タイムを取って、点を打つだけです。でも層別散布図なら、ここに性別の情報を加えて、男子は緑の丸、女子はベージュの三角といったように、点を見分けやすく塗り分けます。
なぜ「もう1つの変数」を加えるのか
理由は明快です。変数の組み合わせによっては、データの中に「異なる2つのグループ」が隠れていることがあります。それを見抜くために、層別が役立ちます。
第3章で見た「男女混合のクラスの身長分布」を思い出してください。あれも、全体ヒストグラムだと山が2つあるように見えるのに、男女別に分けるとそれぞれは普通の一山の分布だった、という発見でした。同じ発想を散布図にも応用できる、というのが今回の話です。
層別散布図は「3つ目の変数を、点の色や形で表現する散布図」です。隠れたグループを見つけたり、グループごとの傾向の違いを見るのに役立ちます。
散布図にもう1つの変数を「色」で乗せちゃう発想! 1枚の図で3つの変数をいっぺんに見られるなんて、すごく便利だよね!
2. 層別で見えるもの ─ 全体だと見えない傾向
層別散布図がいちばん威力を発揮するのは、全体で見ると相関が見えにくいのに、層別に見ると明確な相関が浮かび上がるケースです。
例:身長と50m走タイム
先ほどの中学校の例で考えてみましょう。中学2年生100人(男子50人・女子50人)の身長と50m走のタイムを散布図にしたとします。
この散布図を眺めていると、全体的に身長の高い人は50mを早く走れそうだ、と読むことができます。
念のため、同じデータを性別に分けてグラフを出力してみましょう。
男子の場合は高身長の人ほど7秒台で走る人がいる傾向が見えますが、女子は横ばいのようにも見れます。
全体だけ見たときは「まとまった関係」だったのが、層別にすることで2つのグループ間の差と各グループ内での傾向の両方が読めるようになりました──これが層別散布図のメリットです。
「相関がないように見える」が実はあるケース
層別散布図のもうひとつの面白さは、全体では相関なしに見えるのに、層別に分けると相関が見えてくるケースです。
たとえば「年齢と病気のリスク」を全体散布図で見て、ぼんやりとした関係しか見えなかったとしましょう。でも、運動習慣の有無で層別すると、運動なしのグループでは強い正の相関が、運動ありのグループでは弱い相関が見えてくる、ということがあります。「もう1つの変数」が、関係性を整理する鍵になるのです(※ この鍵を見つけるのも分析者の腕といえます)。
散布図でモヤッとした傾向しか見えないとき、「もう1つの変数で分けてみたら、何か見えるかな?」と疑ってみるのがコツです。隠れていた関係性が浮かび上がることがあります。
「全体ではぼんやり、でも層別にしたら明確!」って瞬間、データ分析やってて一番おもしろいところなんだよ! 第2章のヒストグラムでも同じパターンがあったね!
3. 層別散布図の使いどころ
層別散布図は、実務でも研究でも頻繁に使われる便利な図です。具体的な活用シーンを整理しておきます。
- 身長と体重を 性別 で層別 → 男女ごとの体格の傾向が見える
- 勉強時間と成績を 学年 で層別 → 学年ごとの学習効果の違いが見える
- 気温とアイス売上を 店舗の地域 で層別 → 地域差の有無が見える
- 顧客の年齢と購入金額を 商品カテゴリ で層別 → カテゴリ別のターゲット層が見える
- 製品の重量と強度を 製造ライン で層別 → ライン間の品質差が見える
層に使う変数の選び方
層に使う変数は、「データのなかに性質の違うグループがありそう」と疑えるものを選びます。具体的には次のような変数です。
- 属性:性別、年代、職業、所属グループ
- 分類:地域、店舗、製品カテゴリ、製造ライン
- 状態:運動習慣の有無、契約の有無、リピート購入の有無
- 時期:年・月、季節、施策の前後
これらは、ほとんどが質的変数です。層別の発想は、量的変数の関係を見るときに、質的変数を「補助的に」加える──というイメージで覚えておいてください。
4. 層別散布図はExcelでもつくれる
層別散布図は、Excelなら数クリックで作成できます。
層別散布図を作れるようになると、データ分析の引き出しが一気に増えます。「全体だけ見て満足せず、もう1つ視点を加える」という習慣が身につくと、ビジネスでも研究でも、データから引き出せる発見がぐっと多くなります。
層別散布図は、Excel補助資料でぜひ作成練習をしてみてください!
まとめ
層別散布図のポイントを整理しておきましょう。
- 層別散布図:散布図にもう1つの変数(層)を加えて、点を色や形で塗り分けたグラフ
- 層には基本的に質的変数(性別・年代・地域など)を使う
- 層別にすると、異なる傾向が浮かび上がることがある
- 層別の発想は、第2章のヒストグラム・第3章の代表値でも登場した共通のアイデア
- Excelで手早く作成できる。系列を分けて散布図を作成するだけで完成
データ分析では、ひとつの視点だけで判断せず、「もう1つの軸を加えてみる」という発想が大きな違いを生みます。次回は、相関の強さを数値で表現する相関係数に進みます。視覚で見てきた相関を、いよいよ数字で表現する段階に入っていきましょう。