第5章 5-7 / 線形モデル分析

相関係数の検定 — 母相関 ρ=0 のt検定

このページで学ぶこと

1-9 で計算した相関係数 $r$ は、あくまで手元の標本での連動度です。標本がたまたまそう見えただけで、本当の母集団では無相関(母相関係数 $\rho=0$)かもしれません。そこで「この $r$ は、偶然では説明できないほど大きいか?」を判定するのが相関係数の検定です。

主役は検定統計量 $t=\dfrac{r\sqrt{n-2}}{\sqrt{1-r^2}}$(自由度 $n-2$ の $t$ 分布)。さらに、これが単回帰の傾き $\beta=0$ の検定とぴったり同じ結論を出すこと、そして 3-9 で学んだ区間推定(Fisher の $z$ 変換)との役割の違いも整理します。検定と推定、似ているようで使いどころが違うんです。

さえちゃん
さえ

「$r=0.5$ って出たけど、これホントに相関あるの? それともたまたま?」を判定するのが今回。検定統計量は1本の式で、自由度は $n-2$。しかもこれ、回帰の傾きの検定と中身が同じなの。最後にスッキリつながるよ!

1. なぜ相関係数を「検定」するのか

標本から計算した相関係数 $r$ は、母集団の本当の相関 $\rho$(ロー、母相関係数)の推定値にすぎません。データ数が少なければ、本当は無相関でも、偶然 $r$ がそこそこ大きく出ることがあります。たとえば $n=5$ のデータなら、まったく無関係な2変数でも $r=0.5$ くらいは珍しくありません。

POINT

そこで仮説検定の枠組みで、次を問います。

帰無仮説 $H_0$:$\rho = 0$(母集団では無相関)
対立仮説 $H_1$:$\rho \ne 0$(母集団でも相関がある。両側検定)

「観測された $r$ は、$\rho=0$ のもとで偶然起こりうる範囲か、それとも偶然では説明できないほど大きいか」を判定するわけです。

2. 検定統計量 ─ $t$ 分布を使う

母相関 $\rho=0$ のもとでは、$r$ を次のように変換した量が、自由度 $n-2$ の $t$ 分布に従うことが知られています。

FORMULA

$$t = \frac{r\sqrt{n-2}}{\sqrt{1-r^2}}$$ この $t$ は、帰無仮説 $\rho=0$ が正しいとき、自由度 $n-2$ の $t$ 分布に従います。$n$ はデータの組数(ペア数)です。

式の気持ちを読み取ってみましょう。$r$ が0から離れるほど分子が大きくなり、$t$ も大きくなります。また、同じ $r$ でもデータ数 $n$ が多いほど $\sqrt{n-2}$ が効いて $t$ が大きくなる。つまり「相関が強いほど」「データが多いほど」、偶然では説明しづらくなる、という直感どおりの作りです。自由度が $n-2$ なのは、相関係数の計算で2つの平均($\bar{x},\,\bar{y}$)を使ったぶん、自由に動ける情報が2つ減るためと考えると覚えやすいです。

POINT

判定の手順は、ほかの $t$ 検定と同じです。

  • 有意水準 $\alpha$(ふつう $0.05$)を決める。
  • 自由度 $n-2$ の $t$ 分布表から両側の臨界値 $t_{\alpha/2}$ を引く。
  • $|t| > t_{\alpha/2}$ なら $H_0$ を棄却(=相関は有意)、そうでなければ棄却しない。$p$ 値で判断してもよい。

3. 数値例

8人について2つの変数 $x,\,y$ を測り、相関係数 $r=0.870$ が得られたとします($n=8$)。この相関は有意水準5%で有意と言えるでしょうか。両側検定で確かめます。

EXAMPLE(相関の有意性検定)

まず検定統計量を計算します。$r=0.870$、$n=8$ なので $r^2 = 0.7569$、$n-2=6$。 $$ \begin{aligned} t &= \frac{r\sqrt{n-2}}{\sqrt{1-r^2}} = \frac{0.870\times\sqrt{6}}{\sqrt{1-0.7569}} \\[2pt] &= \frac{0.870\times 2.449}{\sqrt{0.2431}} = \frac{2.131}{0.4931} \approx 4.32 \end{aligned} $$ 自由度は $n-2 = 6$。$t$ 分布表より、自由度6・両側5%の臨界値は $t_{0.025}(6)\approx 2.447$ です。

$|t| = 4.32 > 2.447$ なので、帰無仮説 $\rho=0$ を棄却します。$p$ 値は約 $0.005$(5%より小さい)。したがって「母相関は0でない=統計的に有意な相関がある」と結論できます。

さえちゃん
さえ

同じ $r=0.87$ でも、$n$ が小さいと「偶然かも」で有意にならないことがあるよ。検定は $r$ の大きさだけじゃなく、データ数 $n$ もちゃんと効かせて判断してくれるの。だから「$r$ が大きい=有意」とは限らないんだ!

4. 単回帰の傾き $\beta=0$ の検定と同値

ここがこの章の気持ちのよいところです。じつは「母相関 $\rho=0$ の検定」と、5-3 で学んだ「単回帰の傾き $\beta=0$ の検定」は、まったく同じ検定です。検定統計量 $t$ の値も、$p$ 値も、結論も一致します。

POINT

理由は直感的です。単回帰の傾きは $\hat{\beta}_1 = \dfrac{s_{xy}}{s_x^2} = r\,\dfrac{s_y}{s_x}$ と書けます(5-1)。標準偏差 $s_x,\,s_y$ は必ず正なので、「傾き $\beta_1$ が0」と「相関 $\rho$ が0」は、まったく同じ状況を指します。$r=0$ ならば傾きも0、傾きが0ならば $r$ も0。だから、どちらを検定しても同じになるのは当然なのです。実際、両者の検定統計量はどちらも自由度 $n-2$ の $t$ 分布を使い、同じ $t$ 値を返します。

EXAMPLE(傾きの検定でも同じ $t$)

先ほどの $n=8$、$r=0.870$ のデータで単回帰を当てはめると、傾き $\hat{\beta}_1 \approx 0.869$、その標準誤差 $\approx 0.201$ から $$t = \frac{\hat{\beta}_1}{\mathrm{SE}(\hat{\beta}_1)} = \frac{0.869}{0.201} \approx 4.32$$ 相関係数の検定で得た $t\approx 4.32$ とぴったり一致します。自由度も同じ $n-2=6$。同じデータなら、相関の検定と傾きの検定はいつでも同じ答えを返すのです。

5. 検定と区間推定(Fisher z)の役割の違い

相関係数については、3-9区間推定も学びました。あちらでは Fisher の $z$ 変換を使って、$\rho$ の信頼区間(たとえば「$\rho$ は $0.4$ から $0.9$ の間」)を作りました。検定と区間推定、どちらも $\rho$ を扱いますが、役割が違います。

観点 相関の検定(本ページ) 区間推定(3-9)
問い$\rho=0$ と言えるか?(あり/なし)$\rho$ はどのくらいの範囲か?
使う変換$t=\dfrac{r\sqrt{n-2}}{\sqrt{1-r^2}}$Fisher の $z$ 変換
分布自由度 $n-2$ の $t$ 分布($z$ 変換後に)正規分布
得られるもの有意か否かの判定・$p$ 値$\rho$ の信頼区間
使いどころ「相関があると言えるか」を主張したい「相関の強さがどの範囲か」を示したい
POINT

なぜ検定は $t$ 分布で、区間推定は $z$ 変換なのか。$\rho=0$ という特別な点のまわりでは $r$ の分布がほぼ対称になり、シンプルな $t$ 統計量で扱えます。一方、$\rho$ が $0$ から離れる(たとえば $0.9$ 付近の信頼区間を作る)と $r$ の分布が大きく歪むため、それを正規分布に近づける工夫が Fisher の $z$ 変換でした。「0かどうかだけ知りたい」なら検定、「強さの範囲まで知りたい」なら区間推定、と使い分けます。

6. 結論と使いどころ

相関係数 $r$ を見たら、その大きさだけで判断せず「データ数 $n$ を踏まえて有意か」を $t=\dfrac{r\sqrt{n-2}}{\sqrt{1-r^2}}$ で確かめる──これが相関の検定です。少ないデータで出た大きな $r$ は当てにならないことがあり、逆に多いデータなら小さな $r$ でも有意になります。そして、相関の検定は単回帰の傾きの検定と同じ結論を返すので、回帰分析の出力(傾きの $p$ 値)からも相関の有意性が読み取れます。

POINT

最後にひとつ注意。検定が有意でも、それは「直線的な相関が偶然でない」ことを示すだけで、相関が強い・因果があることまでは保証しません。$n$ が非常に大きいと、ごく弱い相関($r=0.05$ など)でも有意になります。「有意かどうか(検定)」と「どのくらい強いか($r$ の値・区間推定)」は、必ずセットで見るのが大人の作法です。

まとめ

第5章 5-7、ポイントを整理します。

次回 5-8 1元配置分散分析 では、3つ以上のグループの平均を一度に比べる分散分析(ANOVA)に進みます。今回ちらっと出てきた「変動を分けて、平均平方の比(F比)で判断する」考え方が、いよいよ主役として活躍しますよ。

さえちゃん
さえ

相関の検定は「$t=\dfrac{r\sqrt{n-2}}{\sqrt{1-r^2}}$、自由度 $n-2$」の1セットを暗記でOK。しかも回帰の傾きの検定と同じ答えになるって知ってると、出題の意図が見えてくるよ。検定(あり/なし)と推定(範囲)の違いも忘れずにね!