第5章 5-3 / 線形モデル分析

回帰係数の区間推定と検定

このページで学ぶこと

5-1 で傾き $\hat{\beta}$ を最小二乗法で求めました。でも $\hat{\beta}$ は手元の標本から計算した1つの推定値にすぎません。別の標本を取れば、少し違う値が出るはずです。今回は「その傾きはどれくらい信用できるのか」を測ります。

道具立ては、推定の章で学んだものとそっくりです。まず誤差のばらつきを $\hat{\sigma}^2=\dfrac{SSE}{n-2}$ で見積もり、そこから傾きの標準誤差 $\mathrm{SE}(\hat{\beta})$ を作ります。あとは $t=\dfrac{\hat{\beta}-\beta_0}{\mathrm{SE}(\hat{\beta})}$ という $t$ 統計量で検定し、$\hat{\beta}\pm t_{\alpha/2,\,n-2}\,\mathrm{SE}(\hat{\beta})$ で信頼区間を作るだけ。なぜ自由度が $n-2$ なのか、その理由も丁寧に追います。

さえちゃん
さえ

傾き $\hat{\beta}$ が「11」って出たとして──それ、ホントに意味のある傾き? たまたま標本がそう出ただけで、本当はゼロ(=$x$ と $y$ は無関係)かもしれないよね。今回はその「傾きの信頼度」を、推定と検定の章で覚えた $t$ の道具で測っていくよ。自由度が $n-2$ になる理由がポイント!

1. なぜ「傾きの推測」が必要か(直感)

回帰分析の本当のゴールは、目の前のデータに直線を引くことではありません。その背後にある母集団のしくみ──「$x$ が $1$ 増えると $y$ は平均してどれだけ変わるのか」を知ることです。そこで、観測されたデータは次の母回帰モデルから生まれたと考えます。

FORMULA

$$y_i = \alpha + \beta x_i + \varepsilon_i, \qquad \varepsilon_i \sim N(0,\,\sigma^2)\ \text{(独立)}$$ $\alpha,\,\beta$ は母数(真の切片・傾き)、$\varepsilon_i$ は平均 $0$・分散 $\sigma^2$ の誤差です。私たちが最小二乗法で得る $\hat{\beta}$ は、この未知の $\beta$ を標本から推定した推定量にすぎません。

母数 $\beta$ はギリシャ文字、推定量 $\hat{\beta}$ にはハット──この役割分担(3-4 と同じ流儀)が、ここからの主役です。$\hat{\beta}$ は標本ごとに変わる確率変数なので、分布を持ちます。その分布の幅が分かれば、「$\hat{\beta}$ がどれくらいブレるか」、ひいては「真の $\beta$ がゼロでないと言えるか」を判断できます。

POINT

傾き $\hat{\beta}$ について知りたいことは2つです。
区間推定:真の傾き $\beta$ は、だいたいどの範囲にありそうか。
検定:$\beta=0$(=$x$ は $y$ の説明にまったく役立たない)と言い切れるか、それとも否定できるか。
どちらも「$\hat{\beta}$ がどれだけバラつくか」、つまり標準誤差がカギになります。

2. 誤差分散の推定 $\hat{\sigma}^2=\dfrac{SSE}{n-2}$

傾きのバラつきを測るには、まずそもそも点が直線からどれだけ散らばっているか、つまり誤差の分散 $\sigma^2$ を知る必要があります。ところが $\sigma^2$ も未知。そこで、直線からの外れ具合である残差二乗和 $SSE=\sum_{i=1}^{n}(y_i-\hat{y}_i)^2$(5-2 で学んだ残差変動)を使って推定します。

FORMULA

誤差分散 $\sigma^2$ の不偏推定量 $$\hat{\sigma}^2 = \frac{SSE}{n-2} = \frac{1}{n-2}\sum_{i=1}^{n}\left(y_i-\hat{y}_i\right)^2$$ この $\hat{\sigma}^2$ を残差分散(または平均二乗誤差)、その平方根 $\hat{\sigma}=\sqrt{\hat{\sigma}^2}$ を残差標準偏差といいます。

なぜ $n-2$ で割るのか

ここが今回いちばん大事なところです。3-7 で母平均の推定をしたとき、不偏分散は $\dfrac{1}{n-1}\sum(X_i-\bar{X})^2$ と $n-1$ で割りました。あのとき $-1$ したのは、$\bar{X}$ という1個の推定量を残差の計算に使ったからでした。平均を1つ推定すると、自由に動ける情報が1つ減るのです。

回帰では、残差 $y_i-\hat{y}_i$ を作るのに $\hat{y}_i=\hat{\alpha}+\hat{\beta}x_i$ を使います。ここには推定したパラメータが2個(切片 $\hat{\alpha}$ と傾き $\hat{\beta}$)含まれています。だから自由度はその分だけ $2$ 減って $n-2$ になる、というわけです。

POINT

合言葉は「推定したパラメータの個数だけ自由度が減る」。標本平均だけなら推定量1個で $n-1$、単回帰は切片と傾きの2個を推定するので $n-2$。この $\hat{\sigma}^2=\dfrac{SSE}{n-2}$ にすることで、$\hat{\sigma}^2$ は $\sigma^2$ の不偏推定量になります($E[\hat{\sigma}^2]=\sigma^2$)。残差は2本の制約(残差の合計が $0$、$x$ との積和も $0$)を受けて自由に動けないので、$n$ 個あっても実質 $n-2$ 個分の情報しかない、と考えると腑に落ちます。

さえちゃん
さえ

「平均だけ推定 → $n-1$」「切片+傾きの2個を推定 → $n-2$」。引く数は推定したパラメータの個数に等しいの! 第6章の重回帰では説明変数が増えるから、さらに引く数が増えていくよ。この“数えかた”を体に入れておこう。

3. 傾きの標準誤差 $\mathrm{SE}(\hat{\beta})$

誤差分散の見積もり $\hat{\sigma}^2$ が手に入ったので、いよいよ傾き $\hat{\beta}$ のバラつきを測ります。理論上、$\hat{\beta}$ の分散は次の形になります。

FORMULA

$$V[\hat{\beta}] = \frac{\sigma^2}{S_{xx}}, \qquad S_{xx}=\sum_{i=1}^{n}(x_i-\bar{x})^2$$ $S_{xx}$ は説明変数 $x$ の偏差平方和($x$ の散らばり)です。

この式は2つのことを教えてくれます。第一に、誤差 $\sigma^2$ が大きいほど傾きはブレる(点が直線から散らばるほど傾きは決めにくい)。第二に、$x$ の散らばり $S_{xx}$ が大きいほど傾きは安定する。$x$ が狭い範囲に固まっていると、わずかな点の上下で傾きが大きく動いてしまいますが、$x$ が広く分布していれば直線はしっかり固定される、という直感どおりです。

実際には $\sigma^2$ が未知なので、§2 で作った $\hat{\sigma}^2$ で置き換えます。分散の平方根を取ったものが標準誤差(standard error)です。

FORMULA

傾き $\hat{\beta}$ の標準誤差 $$\mathrm{SE}(\hat{\beta}) = \sqrt{\frac{\hat{\sigma}^2}{S_{xx}}} = \frac{\hat{\sigma}}{\sqrt{S_{xx}}}$$ $\hat{\sigma}^2=\dfrac{SSE}{n-2}$ を代入すれば、残差二乗和 $SSE$ と $x$ の偏差平方和 $S_{xx}$ だけで計算できます。

4. 傾きの検定 $t=\dfrac{\hat{\beta}-\beta_0}{\mathrm{SE}(\hat{\beta})}$

標準誤差ができれば、検定はもう 3-74-4 の母平均 $t$ 検定とまったく同じ作法です。「推定量 $-$ 仮説の値」を標準誤差で割って $t$ 統計量を作ります。

FORMULA

帰無仮説 $H_0:\beta=\beta_0$ のもとで、 $$t = \frac{\hat{\beta}-\beta_0}{\mathrm{SE}(\hat{\beta})} \sim t_{n-2}\quad(\text{自由度 } n-2 \text{ の } t \text{ 分布})$$ 分母の $\mathrm{SE}(\hat{\beta})$ が $\hat{\sigma}$ を含むため、正規ではなく自由度 $n-2$ の $t$ 分布になります(理由は 3-7 と同じ:分母も確率変数だから裾が重い)。

なぜ自由度が $n-2$ かは、もう答えられますね。標準誤差の中の $\hat{\sigma}^2$ が $\dfrac{SSE}{n-2}$ という自由度 $n-2$ の量だからです。誤差分散の推定に使った自由度が、そのまま $t$ の自由度に引き継がれます。

最重要:$H_0:\beta=0$ の検定

実務で圧倒的によく使うのが $\beta_0=0$、つまり$H_0:\beta=0$(傾きはゼロ)という帰無仮説です。これは「$x$ は $y$ の予測にまったく役立たない(直線に傾きがない)」という主張。これを棄却できれば、「$x$ には $y$ を説明する力がある」と統計的に言えます。このとき $t$ 統計量は次のようにシンプルになります。

FORMULA

$$t = \frac{\hat{\beta}-0}{\mathrm{SE}(\hat{\beta})} = \frac{\hat{\beta}}{\mathrm{SE}(\hat{\beta})}$$ この $|t|$ が、自由度 $n-2$ の $t$ 分布の臨界値 $t_{\alpha/2,\,n-2}$ を超えれば $H_0:\beta=0$ を棄却。「傾きは有意にゼロでない」=回帰が有意と結論します。

POINT

統計ソフトの回帰出力には、係数ごとに「推定値・標準誤差・$t$ 値・$p$ 値」が並びます。この $t$ 値こそ $\dfrac{\hat{\beta}}{\mathrm{SE}(\hat{\beta})}$ のこと。$p$ 値が有意水準(たとえば $0.05$)より小さければ「その係数は有意」と読む──出力の読み取りは試験頻出です。中身は今やった $t$ 検定そのものだと分かれば怖くありません。

5. 傾きの信頼区間

区間推定も母平均のとき(3-7)と同じ型。推定量 $\hat{\beta}$ を中心に、標準誤差の $t_{\alpha/2,\,n-2}$ 倍を両側に振り分けます。

FORMULA

傾き $\beta$ の信頼係数 $1-\alpha$ の信頼区間 $$\hat{\beta}\pm t_{\alpha/2,\,n-2}\,\mathrm{SE}(\hat{\beta})$$ 母平均の $\bar{X}\pm t_{\alpha/2,\,n-1}\dfrac{s}{\sqrt{n}}$ と見比べると、$\bar{X}\to\hat{\beta}$(中心が推定量)、$\dfrac{s}{\sqrt{n}}\to\mathrm{SE}(\hat{\beta})$(標準誤差)、自由度 $n-1\to n-2$ と置き換わっただけです。

POINT

検定と区間推定は表裏一体です。$95\%$ 信頼区間が $0$ をまたがなければ、$H_0:\beta=0$ は有意水準 $5\%$ で棄却される──両者は同じことを別の角度から言っています。区間が $0$ を含むなら「傾きがゼロの可能性を否定できない」、含まないなら「ゼロではない」。検定結果と区間推定が食い違ったら、どこかで計算ミスをしている合図です。

6. 数値例で計算する

1-9 から使ってきた5人の「勉強時間 $x$」と「点数 $y$」のデータで、最後まで通してみます。5-1 で回帰直線は $\hat{y}=28+11x$、つまり $\hat{\beta}=11$ と求まっていました。

生徒$x$$y$ $\hat{y}=28+11x$ 残差 $y-\hat{y}$ $(y-\hat{y})^2$
A13539$-4$$16$
B25550$5$$25$
C36061$-1$$1$
D47572$3$$9$
E58083$-3$$9$
合計15305305$0$$60$

残差の合計が $0$ になっているのは、回帰直線が重心を通ることの表れです。いちばん右の列の合計が残差二乗和 $SSE=60$。また $x$ の偏差平方和は 1-9 で求めた $S_{xx}=\sum(x_i-\bar{x})^2=10$ です。

EXAMPLE 1(誤差分散と標準誤差)

$n=5$ なので自由度は $n-2=3$。残差分散は $$\hat{\sigma}^2 = \frac{SSE}{n-2} = \frac{60}{3} = 20$$ 傾きの標準誤差は $$\mathrm{SE}(\hat{\beta}) = \sqrt{\frac{\hat{\sigma}^2}{S_{xx}}} = \sqrt{\frac{20}{10}} = \sqrt{2} \approx 1.414$$

EXAMPLE 2($H_0:\beta=0$ の検定)

傾きが有意かを有意水準 $5\%$(両側)で検定します。 $$t = \frac{\hat{\beta}}{\mathrm{SE}(\hat{\beta})} = \frac{11}{1.414} \approx 7.78$$ 自由度 $3$ の $t$ 分布の臨界値は $t_{0.025,\,3}=3.182$。$|t|=7.78 > 3.182$ なので $H_0:\beta=0$ を棄却。「傾きは有意にゼロでない」、すなわち勉強時間は点数を説明する力がある、と結論できます($p$ 値 $\approx 0.0044$)。

EXAMPLE 3(傾きの95%信頼区間)

中心 $\hat{\beta}=11$、半幅 $t_{0.025,\,3}\times\mathrm{SE}(\hat{\beta})=3.182\times 1.414\approx 4.50$ なので、 $$11 \pm 3.182\times 1.414 = 11 \pm 4.50$$ 信頼区間は $\mathbf{6.50 \le \beta \le 15.50}$。この区間は $0$ を含まないので、やはり「傾きはゼロでない」と分かります(EXAMPLE 2 の検定結果と一致)。

区間がやや広いのは、$n=5$ と小さく自由度 $3$ の $t$ 臨界値が大きいためです。データが増えれば $\mathrm{SE}(\hat{\beta})$ も臨界値も小さくなり、区間は締まっていきます。

7. 結論と使いどころ

回帰係数の推測は、推定と検定の章で身につけた $t$ の道具を「傾き」に応用しただけ、というのが今回のいちばんのメッセージです。流れを整理しておきましょう。

POINT

傾きの推測の手順──

  • ① 残差二乗和 $SSE=\sum(y_i-\hat{y}_i)^2$ を計算する
  • ② 誤差分散を推定:$\hat{\sigma}^2=\dfrac{SSE}{n-2}$(パラメータ2個分で $n-2$)
  • ③ 標準誤差:$\mathrm{SE}(\hat{\beta})=\sqrt{\dfrac{\hat{\sigma}^2}{S_{xx}}}$
  • ④ 検定:$t=\dfrac{\hat{\beta}-\beta_0}{\mathrm{SE}(\hat{\beta})}$ を自由度 $n-2$ の $t$ と比較(多くは $\beta_0=0$)
  • ⑤ 区間:$\hat{\beta}\pm t_{\alpha/2,\,n-2}\,\mathrm{SE}(\hat{\beta})$

まとめ

第5章 5-3、ポイントを整理します。

次回 5-4 平均への回帰 では、回帰という言葉の語源にもなった「平均への回帰」を扱います。傾き $\hat{\beta}=r\dfrac{s_y}{s_x}$ に $|r|<1$ がひそんでいるせいで予測が平均に引き寄せられる、というふしぎな現象です。

さえちゃん
さえ

$\hat{\sigma}^2=\dfrac{SSE}{n-2}$ から標準誤差を作って $t$ 検定──流れ、つかめたかな? やってることは母平均の $t$ 検定と同じ。違いは「自由度が $n-2$」だけ。理由は“切片と傾きの2個を推定したから”だよ。次は回帰の語源「平均への回帰」のお話!