第3章 3-3 / 統計の基礎

相関と関係性の分析

このページで学ぶこと

3-1で学んだピアソンの相関係数は、2変数の関係を「数値」でまとめる方法でした。本ページでは、その手前にある「まず図表で関係性を目で見る」という実践的なステップを扱います。ヒストグラムでデータのバラつきをつかみ、クロス集計表で属性間の偏りを把握し、散布図で2変数の関係を可視化する。そのうえで、購買データの分析などで使われる支持度・信頼度・リフト値という指標にも触れます。

「いきなり相関係数を計算する」のではなく、「まずグラフに描いて全体像をつかむ」という順序を大切にしてください。この順序こそが、データ分析の実務でもっとも大切な基本動作です。

1. ヒストグラムでバラつき方を把握する

ヒストグラム※1は、量的データをいくつかの区間(階級)に区切り、各区間にいくつのデータが入るかを棒の高さで表したグラフです。棒グラフと似ていますが、ヒストグラムは連続した量的データの「分布の形」を見るためのグラフである点が異なります。

ヒストグラムを作るうえで重要なのが、適切なデータ区間(階級幅)の設定です。区間を細かくしすぎると、ギザギザした山が多数現れて全体の傾向が読み取りにくくなります。逆に区間を広く取りすぎると、情報がつぶれて分布の特徴(山が1つか2つか、左右対称かなど)が見えなくなってしまいます。区間の数の目安を求める方法として、データ数の平方根に近い個数に区切る方法や、スタージェスの公式などが知られていますが、DS検定では「区間設定によって見え方が変わる」という原理を理解していることが重要です。

EXAMPLE ― ECサイトの購入金額分布
  • ECサイトの1回あたり購入金額をヒストグラムにすると、多くの顧客が3,000〜5,000円に集中し、一部に高額購入者がいる「右に裾を引く分布」が見える
  • 区間を100円刻みにすると細かすぎてノイズだらけになり、逆に10,000円刻みにすると分布の山がつぶれて見えなくなる
  • 1,000円刻み程度に調整すると、購入金額の「主戦場」がどこにあるかが一目でわかるようになる

ヒストグラムを見ることで、平均値だけではわからない「山が1つか2つか(単峰性・二峰性)」「左右対称か、裾を引いているか」「外れ値がありそうか」といった、分布全体の姿を直感的に把握できます。

POINT

適切なデータ区間設定でヒストグラムを作成し、データのバラつき方を把握することがDS検定の必須項目です。区間の切り方ひとつで見える情報が変わることを覚えておきましょう。

さえちゃん
さえ

ヒストグラムの区間、最初はテキトーに決めがちだけど、実は分析結果の見え方を左右する結構重要なポイントなんだよね。何パターンか試してみるクセをつけよう!

2. クロス集計表で属性間の偏りを把握する

2つの質的変数の関係を把握したいときに使うのがクロス集計表※2です。行と列にそれぞれ別の属性(カテゴリ)を並べ、両方の条件に当てはまるデータの件数を表にまとめます。

会員登録あり会員登録なし合計
リピート購入した320人40人360人
リピート購入しなかった180人460人640人
合計500人500人1,000人

この例では、会員登録の有無とリピート購入の有無を軸にしていますが、適切な軸(どの属性同士を組み合わせるか)を設定することが重要です。会員登録者のリピート率は320÷500=64%、非会員のリピート率は40÷500=8%と、大きな偏りが見えます。単に「会員登録あり」の人数を見るだけでは気づけない、属性間の関係性がクロス集計表によって浮かび上がります。

POINT

適切な軸設定でクロス集計表を作成し、属性間のデータの偏りを把握することがDS検定の必須項目です。件数だけでなく、行・列それぞれの合計に対する割合(構成比)まで見ることで、偏りの大きさが正しく評価できます。

3. 散布図で量的変数どうしの関係を見る

2つの量的変数の関係を把握したいときに使うのが散布図です。片方の変数を横軸、もう片方を縦軸に取り、データ1件ごとに点を打つことで、2変数の関係性を視覚的に捉えます。

散布図の点の並び方から、右上がりの傾向(正の相関)、右下がりの傾向(負の相関)、あるいは特に傾向のないばらけた分布(無相関)を読み取れます。3-1で学んだピアソンの相関係数は、この散布図に現れる直線的な関係の強さを数値化したものです。散布図を先に見ることで、「相関係数を計算する前に、そもそも直線的な関係が成り立っていそうか」を確認できます。相関係数は直線関係しか捉えられないため、たとえばU字型やへの字型のように曲線的な関係がある場合、散布図では明らかに関係があるのに相関係数はほぼ0になる、ということも起こり得ます。

EXAMPLE ― 広告費と売上の散布図
  • 月ごとの広告費(横軸)と売上(縦軸)をプロットすると、右上がりの傾向が見える → 正の相関が示唆される
  • ある店舗の気温(横軸)とアイスの売上(縦軸)は、気温が上がるほど売上も伸びる右上がりの傾向
  • 一方、価格(横軸)と満足度(縦軸)が「安すぎても高すぎても満足度が下がる」山型を描く場合、相関係数だけでは関係の強さを正しく評価できない
POINT

量的変数の散布図を描き、2変数の関係性を把握することがDS検定の必須項目です。相関係数を計算する前に、まず散布図で関係の形(直線的か、そうでないか)を目で確認する習慣をつけましょう。

さえちゃん
さえ

「相関係数が0.1だから関係なし」って即断するのは危険。散布図を見たら実はきれいなU字だった、なんてこともあるから、必ず目で見て確認する癖をつけてね!

4. 条件と事象の関係性 ― 支持度・信頼度・リフト値

ここまでは量的変数同士、あるいは質的変数同士の関係性の把握方法でした。最後に、「ある条件Xのもとで、事象Yがどれだけ起こりやすくなるか」を評価する指標を紹介します。これはアソシエーション分析(バスケット分析)※3と呼ばれる分析手法で使われる代表的な指標で、「商品Aを買った人は商品Bも買う傾向がある」といった購買パターンの発見に用いられます。

指標意味計算のイメージ
支持度(Support)XとYが同時に起こる割合XとYを両方買った件数 ÷ 全体の件数
信頼度(Confidence)Xが起きたときにYも起こる割合XとYを両方買った件数 ÷ Xを買った件数
リフト値(Lift)Xと無関係にYが起こる割合と比べて、Xがある場合にYがどれだけ起こりやすくなるか信頼度 ÷ (Yを買った件数 ÷ 全体の件数)
EXAMPLE ― スーパーのレシート分析
  • 全1,000件のレシートのうち、「パン」と「ジャム」を両方買ったのは50件 → 支持度は50÷1,000=5%
  • 「パン」を買った人は200人中50人が「ジャム」も買った → 信頼度は50÷200=25%
  • 全体でジャムを買った人の割合が10%だとすると、リフト値は25%÷10%=2.5倍。「パンを買った人は、そうでない人より2.5倍ジャムも買いやすい」と読み取れる

リフト値が1より大きければ「XはYを起こりやすくする、プラスの関連がある」、1に近ければ「Xの有無はYの起こりやすさに関係ない」、1未満であれば「XはむしろYを起こりにくくする」と解釈します。支持度だけでは「珍しい組み合わせなのに信頼度が高い」パターンを見落とし、信頼度だけでは「そもそも人気商品なのでどんな条件でも売れやすい」パターンと本当の関連を見分けられないため、3つの指標を合わせて評価することが重要です。

POINT

条件Xと事象Yの関係性を信頼度、支持度、リフト値を用いて評価できることがDS検定のスキルチェック項目です。支持度は「頻度」、信頼度は「条件付き確率」、リフト値は「本当に関連があるかどうかの補正済み指標」というそれぞれの役割を押さえておきましょう。

まとめ

3-3では、相関係数を計算する前段階として、図表を使って関係性を把握する実践的な方法を整理しました。振り返っておきましょう。

  1. ヒストグラム ― 適切な区間設定で、量的データのバラつき方(分布の形)を把握する
  2. クロス集計表 ― 適切な軸設定で、質的変数どうしの偏りを把握する
  3. 散布図 ― 量的変数どうしの関係の向きと形を目で確認する
  4. 支持度・信頼度・リフト値 ― 条件Xと事象Yの関係性を、頻度・条件付き確率・補正済み関連度の3つの側面から評価する

次のページ「3-4. 推定と検定」では、いよいよ統計学の中でも初学者が最もつまずきやすいテーマ、標本から母集団を推測する「推定」と、仮説の正しさを検証する「検定」に進みます。ここまでの記述統計・確率分布の知識を土台に、じっくり丁寧に見ていきましょう。

脚注 ─ 用語解説
  1. ヒストグラム … 量的データをいくつかの区間(階級)に分け、区間ごとのデータ数を棒の高さで表したグラフ。分布の形を把握するために使う。
  2. クロス集計表 … 2つ以上の質的変数を行と列に配置し、各組み合わせに該当するデータの件数をまとめた表。属性間の関係性を把握するために使う。
  3. アソシエーション分析(バスケット分析) … 「Aを買った人はBも買う」といった同時購買パターンを見つける分析手法。支持度・信頼度・リフト値などの指標を使う。