第5章 5-3 / 線形モデル分析

回帰係数の区間推定と検定

さえ

傾き $\hat{\beta}$ が「11」って出たとして──それ、ホントに意味のある傾き？　たまたま標本がそう出ただけで、本当はゼロ（＝$x$ と $y$ は無関係）かもしれないよね。今回はその「傾きの信頼度」を、推定と検定の章で覚えた $t$ の道具で測っていくよ。自由度が $n-2$ になる理由がポイント！

1. なぜ「傾きの推測」が必要か（直感）

回帰分析の本当のゴールは、目の前のデータに直線を引くことではありません。その背後にある母集団のしくみ──「$x$ が $1$ 増えると $y$ は平均してどれだけ変わるのか」を知ることです。そこで、観測されたデータは次の母回帰モデルから生まれたと考えます。

FORMULA

$$y_i = \alpha + \beta x_i + \varepsilon_i, \qquad \varepsilon_i \sim N(0,\,\sigma^2)\ \text{(独立)}$$ $\alpha,\,\beta$ は母数（真の切片・傾き）、$\varepsilon_i$ は平均 $0$・分散 $\sigma^2$ の誤差です。私たちが最小二乗法で得る $\hat{\beta}$ は、この未知の $\beta$ を標本から推定した推定量にすぎません。

母数 $\beta$ はギリシャ文字、推定量 $\hat{\beta}$ にはハット──この役割分担（3-4 と同じ流儀）が、ここからの主役です。$\hat{\beta}$ は標本ごとに変わる確率変数なので、分布を持ちます。

その分布の幅が分かれば、「$\hat{\beta}$ がどれくらいブレるか」、ひいては「真の $\beta$ がゼロでないと言えるか」を判断できます。

POINT

傾き $\hat{\beta}$ について知りたいことは2つです。
① 区間推定：真の傾き $\beta$ は、だいたいどの範囲にありそうか。
② 検定：$\beta=0$（＝$x$ は $y$ の説明にまったく役立たない）と言い切れるか、それとも否定できるか。
どちらも「$\hat{\beta}$ がどれだけバラつくか」、つまり標準誤差がカギになります。

2. 誤差分散の推定 $\hat{\sigma}^2=\dfrac{SSE}{n-2}$

傾きのバラつきを測るには、まずそもそも点が直線からどれだけ散らばっているか、つまり誤差の分散 $\sigma^2$ を知る必要があります。ところが $\sigma^2$ も未知。

そこで、直線からの外れ具合である残差二乗和 $SSE=\sum_{i=1}^{n}(y_i-\hat{y}_i)^2$（5-2 で学んだ残差変動）を使って推定します。

FORMULA

誤差分散 $\sigma^2$ の不偏推定量 $$\hat{\sigma}^2 = \frac{SSE}{n-2} = \frac{1}{n-2}\sum_{i=1}^{n}\left(y_i-\hat{y}_i\right)^2$$ この $\hat{\sigma}^2$ を残差分散（または平均二乗誤差）、その平方根 $\hat{\sigma}=\sqrt{\hat{\sigma}^2}$ を残差標準偏差といいます。

なぜ $n-2$ で割るのか

ここが今回いちばん大事なところです。3-7 で母平均の推定をしたとき、不偏分散は $\dfrac{1}{n-1}\sum(X_i-\bar{X})^2$ と $n-1$ で割りました。

あのとき $-1$ したのは、$\bar{X}$ という1個の推定量を残差の計算に使ったからでした。平均を1つ推定すると、自由に動ける情報が1つ減るのです。

回帰では、残差 $y_i-\hat{y}_i$ を作るのに $\hat{y}_i=\hat{\alpha}+\hat{\beta}x_i$ を使います。ここには推定したパラメータが2個（切片 $\hat{\alpha}$ と傾き $\hat{\beta}$）含まれています。

だから自由度はその分だけ $2$ 減って $n-2$ になる、というわけです。

POINT

合言葉は「推定したパラメータの個数だけ自由度が減る」。標本平均だけなら推定量1個で $n-1$、単回帰は切片と傾きの2個を推定するので $n-2$。この $\hat{\sigma}^2=\dfrac{SSE}{n-2}$ にすることで、$\hat{\sigma}^2$ は $\sigma^2$ の不偏推定量になります（$E[\hat{\sigma}^2]=\sigma^2$）。残差は2本の制約（残差の合計が $0$、$x$ との積和も $0$）を受けて自由に動けないので、$n$ 個あっても実質 $n-2$ 個分の情報しかない、と考えると腑に落ちます。

さえ

「平均だけ推定 → $n-1$」「切片＋傾きの2個を推定 → $n-2$」。引く数は推定したパラメータの個数に等しいの！　第6章の重回帰では説明変数が増えるから、さらに引く数が増えていくよ。この“数えかた”を体に入れておこう。

3. 傾きの標準誤差 $\mathrm{SE}(\hat{\beta})$

誤差分散の見積もり $\hat{\sigma}^2$ が手に入ったので、いよいよ傾き $\hat{\beta}$ のバラつきを測ります。理論上、$\hat{\beta}$ の分散は次の形になります。

FORMULA

$$V[\hat{\beta}] = \frac{\sigma^2}{S_{xx}}, \qquad S_{xx}=\sum_{i=1}^{n}(x_i-\bar{x})^2$$ $S_{xx}$ は説明変数 $x$ の偏差平方和（$x$ の散らばり）です。

この式は2つのことを教えてくれます。第一に、誤差 $\sigma^2$ が大きいほど傾きはブレる（点が直線から散らばるほど傾きは決めにくい）。第二に、$x$ の散らばり $S_{xx}$ が大きいほど傾きは安定する。

$x$ が狭い範囲に固まっていると、わずかな点の上下で傾きが大きく動いてしまいますが、$x$ が広く分布していれば直線はしっかり固定される、という直感どおりです。

実際には $\sigma^2$ が未知なので、§2 で作った $\hat{\sigma}^2$ で置き換えます。分散の平方根を取ったものが標準誤差（standard error）です。

FORMULA

傾き $\hat{\beta}$ の標準誤差 $$\mathrm{SE}(\hat{\beta}) = \sqrt{\frac{\hat{\sigma}^2}{S_{xx}}} = \frac{\hat{\sigma}}{\sqrt{S_{xx}}}$$ $\hat{\sigma}^2=\dfrac{SSE}{n-2}$ を代入すれば、残差二乗和 $SSE$ と $x$ の偏差平方和 $S_{xx}$ だけで計算できます。

4. 傾きの検定 $t=\dfrac{\hat{\beta}-\beta_0}{\mathrm{SE}(\hat{\beta})}$

標準誤差ができれば、検定はもう 3-7 や 4-4 の母平均 $t$ 検定とまったく同じ作法です。「推定量 $-$ 仮説の値」を標準誤差で割って $t$ 統計量を作ります。

FORMULA

帰無仮説 $H_0:\beta=\beta_0$ のもとで、 $$t = \frac{\hat{\beta}-\beta_0}{\mathrm{SE}(\hat{\beta})} \sim t_{n-2}\quad(\text{自由度 } n-2 \text{ の } t \text{ 分布})$$ 分母の $\mathrm{SE}(\hat{\beta})$ が $\hat{\sigma}$ を含むため、正規ではなく自由度 $n-2$ の $t$ 分布になります（理由は 3-7 と同じ：分母も確率変数だから裾が重い）。

なぜ自由度が $n-2$ かは、もう答えられますね。標準誤差の中の $\hat{\sigma}^2$ が $\dfrac{SSE}{n-2}$ という自由度 $n-2$ の量だからです。誤差分散の推定に使った自由度が、そのまま $t$ の自由度に引き継がれます。

最重要：$H_0:\beta=0$ の検定

実務で圧倒的によく使うのが $\beta_0=0$、つまり$H_0:\beta=0$（傾きはゼロ）という帰無仮説です。これは「$x$ は $y$ の予測にまったく役立たない（直線に傾きがない）」という主張。

これを棄却できれば、「$x$ には $y$ を説明する力がある」と統計的に言えます。このとき $t$ 統計量は次のようにシンプルになります。

FORMULA

$$t = \frac{\hat{\beta}-0}{\mathrm{SE}(\hat{\beta})} = \frac{\hat{\beta}}{\mathrm{SE}(\hat{\beta})}$$ この $|t|$ が、自由度 $n-2$ の $t$ 分布の臨界値 $t_{\alpha/2,\,n-2}$ を超えれば $H_0:\beta=0$ を棄却。「傾きは有意にゼロでない」＝回帰が有意と結論します。

POINT

統計ソフトの回帰出力には、係数ごとに「推定値・標準誤差・$t$ 値・$p$ 値」が並びます。この $t$ 値こそ $\dfrac{\hat{\beta}}{\mathrm{SE}(\hat{\beta})}$ のこと。$p$ 値が有意水準（たとえば $0.05$）より小さければ「その係数は有意」と読む──出力の読み取りは試験頻出です。中身は今やった $t$ 検定そのものだと分かれば怖くありません。

5. 傾きの信頼区間

区間推定も母平均のとき（3-7）と同じ型。推定量 $\hat{\beta}$ を中心に、標準誤差の $t_{\alpha/2,\,n-2}$ 倍を両側に振り分けます。

FORMULA

傾き $\beta$ の信頼係数 $1-\alpha$ の信頼区間 $$\hat{\beta}\pm t_{\alpha/2,\,n-2}\,\mathrm{SE}(\hat{\beta})$$ 母平均の $\bar{X}\pm t_{\alpha/2,\,n-1}\dfrac{s}{\sqrt{n}}$ と見比べると、$\bar{X}\to\hat{\beta}$（中心が推定量）、$\dfrac{s}{\sqrt{n}}\to\mathrm{SE}(\hat{\beta})$（標準誤差）、自由度 $n-1\to n-2$ と置き換わっただけです。

POINT

検定と区間推定は表裏一体です。$95\%$ 信頼区間が $0$ をまたがなければ、$H_0:\beta=0$ は有意水準 $5\%$ で棄却される──両者は同じことを別の角度から言っています。区間が $0$ を含むなら「傾きがゼロの可能性を否定できない」、含まないなら「ゼロではない」。検定結果と区間推定が食い違ったら、どこかで計算ミスをしている合図です。

6. 数値例で計算する

1-9 から使ってきた5人の「勉強時間 $x$」と「点数 $y$」のデータで、最後まで通してみます。5-1 で回帰直線は $\hat{y}=28+11x$、つまり $\hat{\beta}=11$ と求まっていました。

生徒	$x$	$y$	$\hat{y}=28+11x$	残差 $y-\hat{y}$	$(y-\hat{y})^2$
A	1	35	39	$-4$	$16$
B	2	55	50	$5$	$25$
C	3	60	61	$-1$	$1$
D	4	75	72	$3$	$9$
E	5	80	83	$-3$	$9$
合計	15	305	305	$0$	$60$

残差の合計が $0$ になっているのは、回帰直線が重心を通ることの表れです。いちばん右の列の合計が残差二乗和 $SSE=60$。また $x$ の偏差平方和は 1-9 で求めた $S_{xx}=\sum(x_i-\bar{x})^2=10$ です。

EXAMPLE 1（誤差分散と標準誤差）

$n=5$ なので自由度は $n-2=3$。残差分散は $$\hat{\sigma}^2 = \frac{SSE}{n-2} = \frac{60}{3} = 20$$ 傾きの標準誤差は $$\mathrm{SE}(\hat{\beta}) = \sqrt{\frac{\hat{\sigma}^2}{S_{xx}}} = \sqrt{\frac{20}{10}} = \sqrt{2} \approx 1.414$$

EXAMPLE 2（$H_0:\beta=0$ の検定）

傾きが有意かを有意水準 $5\%$（両側）で検定します。 $$t = \frac{\hat{\beta}}{\mathrm{SE}(\hat{\beta})} = \frac{11}{1.414} \approx 7.78$$ 自由度 $3$ の $t$ 分布の臨界値は $t_{0.025,\,3}=3.182$。$|t|=7.78 > 3.182$ なので $H_0:\beta=0$ を棄却。「傾きは有意にゼロでない」、すなわち勉強時間は点数を説明する力がある、と結論できます（$p$ 値 $\approx 0.0044$）。

EXAMPLE 3（傾きの95%信頼区間）

中心 $\hat{\beta}=11$、半幅 $t_{0.025,\,3}\times\mathrm{SE}(\hat{\beta})=3.182\times 1.414\approx 4.50$ なので、 $$11 \pm 3.182\times 1.414 = 11 \pm 4.50$$ 信頼区間は $\mathbf{6.50 \le \beta \le 15.50}$。この区間は $0$ を含まないので、やはり「傾きはゼロでない」と分かります（EXAMPLE 2 の検定結果と一致）。

区間がやや広いのは、$n=5$ と小さく自由度 $3$ の $t$ 臨界値が大きいためです。データが増えれば $\mathrm{SE}(\hat{\beta})$ も臨界値も小さくなり、区間は締まっていきます。

7. 結論と使いどころ

回帰係数の推測は、推定と検定の章で身につけた $t$ の道具を「傾き」に応用しただけ、というのが今回のいちばんのメッセージです。流れを整理しておきましょう。

POINT

傾きの推測の手順──

① 残差二乗和 $SSE=\sum(y_i-\hat{y}_i)^2$ を計算する
② 誤差分散を推定：$\hat{\sigma}^2=\dfrac{SSE}{n-2}$（パラメータ2個分で $n-2$）
③ 標準誤差：$\mathrm{SE}(\hat{\beta})=\sqrt{\dfrac{\hat{\sigma}^2}{S_{xx}}}$
④ 検定：$t=\dfrac{\hat{\beta}-\beta_0}{\mathrm{SE}(\hat{\beta})}$ を自由度 $n-2$ の $t$ と比較（多くは $\beta_0=0$）
⑤ 区間：$\hat{\beta}\pm t_{\alpha/2,\,n-2}\,\mathrm{SE}(\hat{\beta})$

次回 5-4 平均への回帰では、回帰という言葉の語源にもなった「平均への回帰」を扱います。傾き $\hat{\beta}=r\dfrac{s_y}{s_x}$ に $|r|<1$ がひそんでいるせいで予測が平均に引き寄せられる、というふしぎな現象です。

さえ

$\hat{\sigma}^2=\dfrac{SSE}{n-2}$ から標準誤差を作って $t$ 検定──流れ、つかめたかな？　やってることは母平均の $t$ 検定と同じ。違いは「自由度が $n-2$」だけ。理由は“切片と傾きの2個を推定したから”だよ。次は回帰の語源「平均への回帰」のお話！

HANDWRITING — 紙に書いてインプットしよう！

このページに出てきた重要キーワードです。ページを閉じる前に、声に出しながら紙に手で書いてみてください。手を動かすと、読むだけの何倍も速く記憶に定着します。

母回帰モデル
母数
区間推定
標準誤差
残差二乗和
誤差分散
残差標準偏差
不偏推定量
自由度 n−2
傾きの検定
回帰が有意
傾きの信頼区間