散布図・相関係数・共分散
ここまでは1つの変数の散らばりを見てきました。今回からは2つの変数の関係に踏み込みます。主役は3つ。点を打って関係を眺める散布図、2変数の連動を数値にした共分散 $s_{xy}$、そしてそれを単位の影響から解放した相関係数 $r$ です。
3級でも相関係数には触れましたが、2級では「なぜ共分散を標準偏差で割ると $-1$ から $+1$ に収まるのか」「なぜ単位を変えても $r$ は動かないのか」まで、式の意味を追いかけます。共分散・分散はこの講座を通して$n-1$ で割る方針(1-4 と統一)でそろえます。最後は小さなデータで $r$ を手計算してみましょう。
「2つのデータって、仲がいいの? 悪いの?」を測るのが今回のテーマだよ。まずは散布図で目で見て、それを共分散と相関係数で数字にしていくの。3級の復習+アルファだから、肩の力を抜いていこう!
1. 散布図 ─ 2変数を目で見る
2つの量的変数 $x$ と $y$ があるとき、各データを「横軸 $x$、縦軸 $y$ の1点」として打っていく図を散布図(さんぷず、scatter plot)といいます。たとえば「Aさんの勉強時間3時間・点数60点」なら、$(3,\,60)$ の位置に点を1つ。これを全員分やると、点の散らばり方から2変数の関係が見えてきます。
散布図から読み取る関係には、大きく3つのパターンがあります。点が右上がりなら正の相関、右下がりなら負の相関、向きがはっきりしなければ無相関です。
正の相関 ─ $x$ が増えると $y$ も増える(右上がり)
散布図のうれしいところは、後で出てくる「相関係数が見落としやすいクセ」──外れ値や山なりの関係──にも目で気づけることです。数字を出す前に、まず散布図を描いて見る。これは 1-10 でくわしく扱う大事な習慣です。
2. 共分散 ─ 2変数の連動を数値にする
散布図の「向き」を1つの数値にしたものが共分散(きょうぶんさん、covariance)です。発想はシンプルで、$x$ の偏差と $y$ の偏差をかけて、足し集めるだけ。偏差とは「各データ $-$ 平均」、つまり平均からのズレでしたね。
なぜ偏差の積を見るのでしょうか。1つのデータについて、$x_i-\bar{x}$ と $y_i-\bar{y}$ の符号を考えてみます。
- $x$ も $y$ も平均より大きい → 偏差はどちらもプラス → 積はプラス
- $x$ も $y$ も平均より小さい → 偏差はどちらもマイナス → 積はプラス
- 片方が大きく、もう片方が小さい → 符号が逆 → 積はマイナス
つまり「同じ向きに動く」点はプラスを、「逆向きに動く」点はマイナスを稼ぎます。これを全部足せば、$x$ と $y$ が連動して動く度合いが符号つきで出る──これが共分散です。
標本共分散 $s_{xy}$ は、偏差の積の合計を $n-1$ で割って定義します。 $$s_{xy} = \frac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})$$ ここで $\bar{x},\,\bar{y}$ は $x,\,y$ それぞれの平均、$n$ はデータ数です。
割る数を $n$ ではなく $n-1$ にしているのは、分散を $n-1$ で割った 1-4 と足並みをそろえるためです。あとで出てくる相関係数では、分子の共分散も分母の標準偏差も同じ「$n-1$ で割る」流儀なので、$n-1$ はきれいに約分されて消えます。共分散の符号の意味(プラスなら正の相関、マイナスなら負の相関)は、$n$ で割っても $n-1$ で割っても同じなので、安心してください。
共分散には弱点があります。単位やスケールに依存することです。たとえば身長を $\text{cm}$ から $\text{m}$ に変えると、偏差が $100$ 分の $1$ になり、共分散も $100$ 分の $1$ に縮みます。関係の強さは何も変わっていないのに、数値だけが動いてしまう。これでは「強い・弱い」を共分散の大きさだけで語れません。
3. 相関係数 ─ 単位を消した連動度
共分散の単位依存をなくすには、共分散を $x,\,y$ それぞれの標準偏差で割って規格化すればよいのです。これが(ピアソンの積率)相関係数 $r$ です。標準偏差 $s_x,\,s_y$ は分散 $s_x^2,\,s_y^2$ の正の平方根で、こちらも $n-1$ で割って計算します。
$$r = \frac{s_{xy}}{s_x\, s_y} = \frac{\displaystyle\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\displaystyle\sum_{i=1}^{n}(x_i-\bar{x})^2}\ \sqrt{\displaystyle\sum_{i=1}^{n}(y_i-\bar{y})^2}}$$ 右辺は、左辺の分子・分母にある $n-1$ を約分して消した形です。どちらで計算しても同じ値になります。
なぜ単位によらないのか
$x$ の単位を変える操作は「定数 $c>0$ をかける」ことに相当します。このとき分子の共分散は $c$ 倍になりますが、分母の $s_x$ も同じ $c$ 倍になるので、比 $r$ では $c$ がきれいに打ち消し合います。だから単位を変えても相関係数は変わらない。共分散が「単位つきの連動度」なら、相関係数は「単位を消した連動度」というわけです。
なぜ $-1$ から $+1$ に収まるのか
相関係数は、どんなデータでも必ず $-1 \le r \le +1$ の範囲に入ります。厳密な証明(コーシー・シュワルツの不等式)は 第2章 2-11 や回帰の章にゆずりますが、直感はこうです。すべての点がきれいに右上がりの直線に乗ると、偏差の積がもれなくプラスを稼いで規格化後に $r=+1$、右下がりの直線なら $r=-1$。直線からばらつくほど、プラスとマイナスが混ざって $r$ は $0$ に近づきます。
相関係数の読み方は「符号で向き、絶対値で強さ」。$r=+1$ は完全な正の相関、$r=-1$ は完全な負の相関、$r=0$ は直線的な関係なし。$r=-0.85$ と $r=+0.85$ は「向きは逆だが強さは同じ」です。マイナスは弱いという意味ではありません。
| $|r|$ の値 | 相関の強さ(目安) |
|---|---|
| 0.0 〜 0.2 | ほとんど相関なし |
| 0.2 〜 0.4 | 弱い相関 |
| 0.4 〜 0.7 | 中程度の相関 |
| 0.7 〜 0.9 | 強い相関 |
| 0.9 〜 1.0 | 非常に強い相関 |
この目安はあくまで慣習で、分野によって基準は変わります。「$0.7$ 以上で強い」くらいをふんわり覚えておけば十分です。
共分散は「単位つきの連動度」、相関係数は「単位を消した連動度」。単位を消したからこそ、身長と体重でも、気温と売上でも、ぜんぶ $-1$ 〜 $+1$ の同じものさしで比べられるんだよ!
4. 数値例 ─ 小さなデータで $r$ を計算する
5人の生徒について「1日の勉強時間 $x$(時間)」と「テストの点数 $y$(点)」を測ったとします。実際に共分散と相関係数を、手で計算してみましょう。
| 生徒 | $x$ | $y$ | $x_i-\bar{x}$ | $y_i-\bar{y}$ | $(x_i-\bar{x})(y_i-\bar{y})$ | $(x_i-\bar{x})^2$ | $(y_i-\bar{y})^2$ |
|---|---|---|---|---|---|---|---|
| A | 1 | 35 | $-2$ | $-26$ | $52$ | $4$ | $676$ |
| B | 2 | 55 | $-1$ | $-6$ | $6$ | $1$ | $36$ |
| C | 3 | 60 | $0$ | $-1$ | $0$ | $0$ | $1$ |
| D | 4 | 75 | $1$ | $14$ | $14$ | $1$ | $196$ |
| E | 5 | 80 | $2$ | $19$ | $38$ | $4$ | $361$ |
| 合計 | 15 | 305 | $0$ | $0$ | $110$ | $10$ | $1270$ |
まず平均は $\bar{x}=15/5=3$、$\bar{y}=305/5=61$ です。偏差の列が、どちらも合計 $0$ になっているのを確認してください(平均からのズレの合計はいつでも $0$ です)。表のいちばん下の合計を使って、定義式に代入します。
$n=5$ なので $n-1=4$ で割ります。 $$s_{xy} = \frac{110}{4} = 27.5, \qquad s_x^2 = \frac{10}{4} = 2.5, \qquad s_y^2 = \frac{1270}{4} = 317.5$$ 標準偏差は分散の平方根なので $$s_x = \sqrt{2.5} \approx 1.581, \qquad s_y = \sqrt{317.5} \approx 17.819$$
定義どおり共分散を標準偏差の積で割ります。 $$r = \frac{s_{xy}}{s_x\, s_y} = \frac{27.5}{1.581 \times 17.819} \approx \frac{27.5}{28.17} \approx 0.976$$ 合計だけで一気に計算する右辺の形でも、同じ値です。 $$r = \frac{110}{\sqrt{10}\,\sqrt{1270}} = \frac{110}{\sqrt{12700}} \approx \frac{110}{112.69} \approx 0.976$$
$r \approx 0.98$ なので「非常に強い正の相関」。勉強時間が長い生徒ほど点数も高い、という散布図の右上がりが、数値でもはっきり裏づけられました。
$n-1$ の効能もここで確認できます。$s_{xy}$ も $s_x,\,s_y$ もすべて $4$(=$n-1$)で割っていますが、$r$ を作るときに約分されて消えるので、結局は偏差の合計だけで決まります。だから「$n$ で割っても $n-1$ で割っても $r$ は同じ」なのです。
この勉強時間と点数のデータは、次の散布図のように並びます。ほぼ一直線に右上がりですね。
勉強時間と点数の散布図 ─ ほぼ一直線の右上がり($r \approx 0.98$)
5. 結論と使いどころ
共分散と相関係数は、2変数の「直線的な連動」を要約する道具です。実務では表計算ソフトの関数(共分散・相関)で一瞬に出ますが、出てきた数値の意味を読めることが大切です。符号で向きを、絶対値で強さを確認する。そして、その数値を信じる前に必ず散布図を一度見る。これが鉄則です。
相関係数 $r$ が測るのは、あくまで「直線的な」関係の強さです。$r$ が小さくても関係がないとは限らず(山なりの関係など)、$r$ が大きくても因果があるとは限りません。このクセと注意点は、次の 1-10 でまとめて扱います。
まとめ
第1章 1-9、ポイントを整理します。
- 散布図:2つの量的変数を点で表す。右上がりなら正、右下がりなら負、ばらばらなら無相関
- 共分散:$s_{xy}=\dfrac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})$。符号で向きを示すが、単位に依存する
- 相関係数:$r=\dfrac{s_{xy}}{s_x s_y}$。共分散を標準偏差で割り、単位を消した値で必ず $-1 \le r \le 1$
- $n-1$ で統一:共分散も分散も $n-1$ で割る。$r$ では約分で消えるので、$r$ の値は割り方によらない
- 読み方:符号は向き、絶対値は強さ。$r$ は「直線的な」関係しか測れない
次回 1-10 相関の注意点 では、みかけの相関(擬似相関)・偏相関係数・相関行列・層別散布図など、相関係数を使うときの落とし穴をまとめて押さえます。便利な指標ほど、使い方に注意が必要です。
$r \approx 0.98$、自分の手でも出せたかな? 偏差の積を足して、標準偏差の積で割るだけ。$n-1$ は約分で消えるから怖くないよ。次は「相関にだまされない方法」を学ぶよ!