第1章 1-9 / データの記述と要約

散布図・相関係数・共分散

このページで学ぶこと

ここまでは1つの変数の散らばりを見てきました。今回からは2つの変数の関係に踏み込みます。主役は3つ。点を打って関係を眺める散布図、2変数の連動を数値にした共分散 $s_{xy}$、そしてそれを単位の影響から解放した相関係数 $r$ です。

3級でも相関係数には触れましたが、2級では「なぜ共分散を標準偏差で割ると $-1$ から $+1$ に収まるのか」「なぜ単位を変えても $r$ は動かないのか」まで、式の意味を追いかけます。共分散・分散はこの講座を通して$n-1$ で割る方針(1-4 と統一)でそろえます。最後は小さなデータで $r$ を手計算してみましょう。

さえちゃん
さえ

「2つのデータって、仲がいいの? 悪いの?」を測るのが今回のテーマだよ。まずは散布図で目で見て、それを共分散と相関係数で数字にしていくの。3級の復習+アルファだから、肩の力を抜いていこう!

1. 散布図 ─ 2変数を目で見る

2つの量的変数 $x$ と $y$ があるとき、各データを「横軸 $x$、縦軸 $y$ の1点」として打っていく図を散布図(さんぷず、scatter plot)といいます。たとえば「Aさんの勉強時間3時間・点数60点」なら、$(3,\,60)$ の位置に点を1つ。これを全員分やると、点の散らばり方から2変数の関係が見えてきます。

散布図から読み取る関係には、大きく3つのパターンがあります。点が右上がりなら正の相関、右下がりなら負の相関、向きがはっきりしなければ無相関です。

変数 x → 変数 y →

正の相関 ─ $x$ が増えると $y$ も増える(右上がり)

散布図のうれしいところは、後で出てくる「相関係数が見落としやすいクセ」──外れ値や山なりの関係──にも目で気づけることです。数字を出す前に、まず散布図を描いて見る。これは 1-10 でくわしく扱う大事な習慣です。

2. 共分散 ─ 2変数の連動を数値にする

散布図の「向き」を1つの数値にしたものが共分散(きょうぶんさん、covariance)です。発想はシンプルで、$x$ の偏差と $y$ の偏差をかけて、足し集めるだけ。偏差とは「各データ $-$ 平均」、つまり平均からのズレでしたね。

なぜ偏差の積を見るのでしょうか。1つのデータについて、$x_i-\bar{x}$ と $y_i-\bar{y}$ の符号を考えてみます。

つまり「同じ向きに動く」点はプラスを、「逆向きに動く」点はマイナスを稼ぎます。これを全部足せば、$x$ と $y$ が連動して動く度合いが符号つきで出る──これが共分散です。

FORMULA

標本共分散 $s_{xy}$ は、偏差の積の合計を $n-1$ で割って定義します。 $$s_{xy} = \frac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})$$ ここで $\bar{x},\,\bar{y}$ は $x,\,y$ それぞれの平均、$n$ はデータ数です。

割る数を $n$ ではなく $n-1$ にしているのは、分散を $n-1$ で割った 1-4 と足並みをそろえるためです。あとで出てくる相関係数では、分子の共分散も分母の標準偏差も同じ「$n-1$ で割る」流儀なので、$n-1$ はきれいに約分されて消えます。共分散の符号の意味(プラスなら正の相関、マイナスなら負の相関)は、$n$ で割っても $n-1$ で割っても同じなので、安心してください。

POINT

共分散には弱点があります。単位やスケールに依存することです。たとえば身長を $\text{cm}$ から $\text{m}$ に変えると、偏差が $100$ 分の $1$ になり、共分散も $100$ 分の $1$ に縮みます。関係の強さは何も変わっていないのに、数値だけが動いてしまう。これでは「強い・弱い」を共分散の大きさだけで語れません。

3. 相関係数 ─ 単位を消した連動度

共分散の単位依存をなくすには、共分散を $x,\,y$ それぞれの標準偏差で割って規格化すればよいのです。これが(ピアソンの積率)相関係数 $r$ です。標準偏差 $s_x,\,s_y$ は分散 $s_x^2,\,s_y^2$ の正の平方根で、こちらも $n-1$ で割って計算します。

FORMULA

$$r = \frac{s_{xy}}{s_x\, s_y} = \frac{\displaystyle\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\displaystyle\sum_{i=1}^{n}(x_i-\bar{x})^2}\ \sqrt{\displaystyle\sum_{i=1}^{n}(y_i-\bar{y})^2}}$$ 右辺は、左辺の分子・分母にある $n-1$ を約分して消した形です。どちらで計算しても同じ値になります。

なぜ単位によらないのか

$x$ の単位を変える操作は「定数 $c>0$ をかける」ことに相当します。このとき分子の共分散は $c$ 倍になりますが、分母の $s_x$ も同じ $c$ 倍になるので、比 $r$ では $c$ がきれいに打ち消し合います。だから単位を変えても相関係数は変わらない。共分散が「単位つきの連動度」なら、相関係数は「単位を消した連動度」というわけです。

なぜ $-1$ から $+1$ に収まるのか

相関係数は、どんなデータでも必ず $-1 \le r \le +1$ の範囲に入ります。厳密な証明(コーシー・シュワルツの不等式)は 第2章 2-11 や回帰の章にゆずりますが、直感はこうです。すべての点がきれいに右上がりの直線に乗ると、偏差の積がもれなくプラスを稼いで規格化後に $r=+1$、右下がりの直線なら $r=-1$。直線からばらつくほど、プラスとマイナスが混ざって $r$ は $0$ に近づきます。

POINT

相関係数の読み方は「符号で向き、絶対値で強さ」。$r=+1$ は完全な正の相関、$r=-1$ は完全な負の相関、$r=0$ は直線的な関係なし。$r=-0.85$ と $r=+0.85$ は「向きは逆だが強さは同じ」です。マイナスは弱いという意味ではありません。

$|r|$ の値 相関の強さ(目安)
0.0 〜 0.2ほとんど相関なし
0.2 〜 0.4弱い相関
0.4 〜 0.7中程度の相関
0.7 〜 0.9強い相関
0.9 〜 1.0非常に強い相関

この目安はあくまで慣習で、分野によって基準は変わります。「$0.7$ 以上で強い」くらいをふんわり覚えておけば十分です。

さえちゃん
さえ

共分散は「単位つきの連動度」、相関係数は「単位を消した連動度」。単位を消したからこそ、身長と体重でも、気温と売上でも、ぜんぶ $-1$ 〜 $+1$ の同じものさしで比べられるんだよ!

4. 数値例 ─ 小さなデータで $r$ を計算する

5人の生徒について「1日の勉強時間 $x$(時間)」と「テストの点数 $y$(点)」を測ったとします。実際に共分散と相関係数を、手で計算してみましょう。

生徒$x$$y$ $x_i-\bar{x}$$y_i-\bar{y}$ $(x_i-\bar{x})(y_i-\bar{y})$ $(x_i-\bar{x})^2$$(y_i-\bar{y})^2$
A135$-2$$-26$$52$$4$$676$
B255$-1$$-6$$6$$1$$36$
C360$0$$-1$$0$$0$$1$
D475$1$$14$$14$$1$$196$
E580$2$$19$$38$$4$$361$
合計15305$0$$0$$110$$10$$1270$

まず平均は $\bar{x}=15/5=3$、$\bar{y}=305/5=61$ です。偏差の列が、どちらも合計 $0$ になっているのを確認してください(平均からのズレの合計はいつでも $0$ です)。表のいちばん下の合計を使って、定義式に代入します。

EXAMPLE(共分散・分散)

$n=5$ なので $n-1=4$ で割ります。 $$s_{xy} = \frac{110}{4} = 27.5, \qquad s_x^2 = \frac{10}{4} = 2.5, \qquad s_y^2 = \frac{1270}{4} = 317.5$$ 標準偏差は分散の平方根なので $$s_x = \sqrt{2.5} \approx 1.581, \qquad s_y = \sqrt{317.5} \approx 17.819$$

EXAMPLE(相関係数)

定義どおり共分散を標準偏差の積で割ります。 $$r = \frac{s_{xy}}{s_x\, s_y} = \frac{27.5}{1.581 \times 17.819} \approx \frac{27.5}{28.17} \approx 0.976$$ 合計だけで一気に計算する右辺の形でも、同じ値です。 $$r = \frac{110}{\sqrt{10}\,\sqrt{1270}} = \frac{110}{\sqrt{12700}} \approx \frac{110}{112.69} \approx 0.976$$

$r \approx 0.98$ なので「非常に強い正の相関」。勉強時間が長い生徒ほど点数も高い、という散布図の右上がりが、数値でもはっきり裏づけられました。

$n-1$ の効能もここで確認できます。$s_{xy}$ も $s_x,\,s_y$ もすべて $4$(=$n-1$)で割っていますが、$r$ を作るときに約分されて消えるので、結局は偏差の合計だけで決まります。だから「$n$ で割っても $n-1$ で割っても $r$ は同じ」なのです。

この勉強時間と点数のデータは、次の散布図のように並びます。ほぼ一直線に右上がりですね。

勉強時間 x(時間)→ 点数 y(点)→ 1 2 3 4 5 A B C D E

勉強時間と点数の散布図 ─ ほぼ一直線の右上がり($r \approx 0.98$)

5. 結論と使いどころ

共分散と相関係数は、2変数の「直線的な連動」を要約する道具です。実務では表計算ソフトの関数(共分散・相関)で一瞬に出ますが、出てきた数値の意味を読めることが大切です。符号で向きを、絶対値で強さを確認する。そして、その数値を信じる前に必ず散布図を一度見る。これが鉄則です。

POINT

相関係数 $r$ が測るのは、あくまで「直線的な」関係の強さです。$r$ が小さくても関係がないとは限らず(山なりの関係など)、$r$ が大きくても因果があるとは限りません。このクセと注意点は、次の 1-10 でまとめて扱います。

まとめ

第1章 1-9、ポイントを整理します。

次回 1-10 相関の注意点 では、みかけの相関(擬似相関)・偏相関係数・相関行列・層別散布図など、相関係数を使うときの落とし穴をまとめて押さえます。便利な指標ほど、使い方に注意が必要です。

さえちゃん
さえ

$r \approx 0.98$、自分の手でも出せたかな? 偏差の積を足して、標準偏差の積で割るだけ。$n-1$ は約分で消えるから怖くないよ。次は「相関にだまされない方法」を学ぶよ!