発展トラック / 発展5

コクランの定理とその応用

このページで学ぶこと

2級の本編では、不偏分散について $\dfrac{(n-1)s^2}{\sigma^2}\sim\chi^2_{n-1}$ という事実や、分散分析で $F$ 比が作れることを「そういうもの」として使ってきました。じつは、その裏側にいる定理コクランの定理です。正規標本の平方和(二乗和)をいくつかの部分に分けたとき、それぞれが独立な $\chi^2$ 分布に従う──という、地味だけれど強力な結果です。

この記事は試験必須ではありませんが、「なぜ自由度が $n-1$ なのか」「なぜ $\bar{X}$ と $s^2$ が独立と言えるのか」「なぜ群間と群内の比が $F$ 分布になるのか」という根っこの疑問がここで一気に解消します。厳密な証明には踏み込まず、自由度の足し算という1本の糸で全体を見通すのが狙いです。

さえちゃん
さえ

これまで「自由度 $n-1$」とか「$\bar{X}$ と $s^2$ は独立」って、おまじないみたいに使ってたよね。コクランの定理は、そのおまじねの正体なの。「正規データの平方和は、自由度を分け合いながら独立な $\chi^2$ に割れる」──これだけ。難しい証明は追わずに、$n=1+(n-1)$ みたいな自由度の足し算でイメージをつかもう!

1. 出発点:標準正規の二乗和は χ² になる

まず土台を確認します。2-12 で学んだとおり、$\chi^2$ 分布は標準正規変数を二乗して足したものとして生まれます。互いに独立な標準正規変数 $Z_1, Z_2, \dots, Z_n$(各 $Z_i$ は平均 $0$、分散 $1$ の正規分布)を考えます。

FORMULA

独立な標準正規変数 $Z_1,\dots,Z_n$ の二乗和は、自由度 $n$ の $\chi^2$ 分布に従います。 $$\sum_{i=1}^{n} Z_i^2 \;\sim\; \chi^2_{n}$$ ここで自由度 $n$ は、足し合わせた独立な二乗の個数そのものです。

ポイントは「自由度=自由に動ける二乗の個数」という見方です。$Z_1,\dots,Z_n$ には何の制約もなく、$n$ 個が自由にばらつくので自由度は $n$。コクランの定理は、この$n$ という自由度を、いくつかの平方和にどう配分できるかを教えてくれる定理だと思ってください。

POINT

$\chi^2_{n}$ の期待値は $n$、分散は $2n$ です。これは「自由度=二乗の本数」という直感とも合います($E[Z_i^2]=V[Z_i]=1$ を $n$ 個足すので期待値は $n$)。後の数値確認でも、この $E=n$・$V=2n$ を物差しに使います。

2. 二次形式と「平方和を分ける」とはどういうことか

コクランの定理の主役は二次形式です。むずかしく聞こえますが、要は$Z_i$ たちの二乗や積を組み合わせて作った「ばらつきの量」のこと。たとえば $Z_1^2$ も、$(Z_1-Z_2)^2/2$ も、群ごとにまとめた平方和も、すべて二次形式です。

いまの関心は、全体の二乗和 $\sum_{i=1}^{n} Z_i^2$ を、いくつかの二次形式 $Q_1, Q_2, \dots, Q_m$ の足し算に分けることです。

FORMULA

全体の二乗和が、$m$ 個の二次形式の和に分解できたとします。 $$\sum_{i=1}^{n} Z_i^2 \;=\; Q_1 + Q_2 + \dots + Q_m$$ それぞれの $Q_j$ には「自由度」$r_j$ が決まります($Q_j$ が実質いくつの独立な二乗からできているか)。

たとえば分散分析の変動の分解(5-8)を思い出してください。総変動を群間変動と群内変動に分けた、あれもまさに「平方和を二次形式の和に分ける」操作でした。コクランの定理は、そうした分解が起きたときに各成分がどんな分布に従うかを保証してくれます。

さえちゃん
さえ

「二次形式」って言われると身構えちゃうけど、$Z$ たちで作ったばらつきの塊くらいの気持ちでOK! 平方和 $\sum Z_i^2$ を、いくつかの塊 $Q_1, Q_2, \dots$ に切り分ける。そのとき切り分け方さえ良ければ、塊どうしがケンカせず(独立に)、それぞれきれいな $\chi^2$ になってくれる。それがコクランの定理だよ。

3. コクランの定理(自由度の足し算がカギ)

いよいよ本題です。鍵になるのは、各 $Q_j$ の自由度 $r_j$ を全部足すと、ちょうど全体の自由度 $n$ に一致するかどうか、という1点です。

POINT

コクランの定理(要点):独立な標準正規変数 $Z_1,\dots,Z_n$ の二乗和を $m$ 個の二次形式の和に分けたとする。 $$\sum_{i=1}^{n} Z_i^2 = Q_1 + \dots + Q_m,\qquad Q_j \text{ の自由度を } r_j$$ このとき、自由度の合計がちょうど $n$ に一致する、すなわち $$r_1 + r_2 + \dots + r_m = n$$ が成り立つならば、各 $Q_j$ は独立で、それぞれ $Q_j \sim \chi^2_{r_j}$ に従う。

ここがこの定理のいちばん不思議で、いちばん便利なところです。ふつう「平方和を分けただけ」では各成分が独立とは限りません。ところが自由度の合計が元の $n$ にぴったり収まるというたった1つの条件を満たせば、独立性と $\chi^2$ 性が同時に、ただで手に入ってしまうのです。

なぜ自由度の足し算が効くのか(直感)

厳密な証明は線形代数(射影や直交分解)を使いますが、直感はシンプルです。全体の自由度 $n$ は「自由に動ける方向の数」です。これを $Q_1,\dots,Q_m$ に配分するとき、合計が $n$ を超えないのは当然として、ちょうど $n$ になるということは「方向の取り合いがなく、すき間も重なりもなく、$n$ 個の方向をきれいに分け合った」ことを意味します。

重なりがない=それぞれが別々の(直交する)方向を担当する、ということ。別々の独立な方向のばらつきなので、$Q_j$ どうしは独立になり、各々は「自分の担当する $r_j$ 本の方向の二乗和」だから自由度 $r_j$ の $\chi^2$ になる──という流れです。下の図で、$n$ 本の自由度を分け合うイメージを見てみましょう。

全体の自由度 n Σ Zᵢ² ~ χ²(n) Q₁ : r₁ Q₂ : r₂ Q₃ : r₃ r₁ + r₂ + r₃ = n ⇒ 各 Qⱼ は独立な χ²(rⱼ)

全体の自由度 n を、すき間も重なりもなく分け合えたとき(合計が n に一致するとき)、各成分は独立な χ² になる

4. 応用①:不偏分散の自由度 n−1 と「平均と分散の独立」

いちばん身近な応用がこれです。正規母集団 $N(\mu,\sigma^2)$ から無作為標本 $X_1,\dots,X_n$ を取り、標本平均 $\bar{X}=\frac{1}{n}\sum X_i$ と不偏分散 $s^2=\frac{1}{n-1}\sum(X_i-\bar{X})^2$ を作ります。標準化した $Z_i=\dfrac{X_i-\mu}{\sigma}$ は独立な標準正規になり、その二乗和は $\chi^2_{n}$ です。

DERIVATION

各点の母平均からのズレを、標本平均を経由して2つに分けます(5-8 の変動分解と同じ発想)。 $$ \begin{aligned} \sum_{i=1}^{n}\left(\frac{X_i-\mu}{\sigma}\right)^2 &= \frac{1}{\sigma^2}\sum_{i=1}^{n}(X_i-\mu)^2 \\[2pt] &= \frac{1}{\sigma^2}\sum_{i=1}^{n}\Big[(X_i-\bar{X}) + (\bar{X}-\mu)\Big]^2 \\[2pt] &= \underbrace{\frac{1}{\sigma^2}\sum_{i=1}^{n}(X_i-\bar{X})^2}_{Q_1} \;+\; \underbrace{\frac{n(\bar{X}-\mu)^2}{\sigma^2}}_{Q_2} \end{aligned} $$ クロス項は $\sum(X_i-\bar{X})=0$ より消えます。左辺は $\chi^2_{n}$(自由度 $n$)。

ここで自由度を数えます。$Q_2=\dfrac{n(\bar{X}-\mu)^2}{\sigma^2}=\left(\dfrac{\bar{X}-\mu}{\sigma/\sqrt{n}}\right)^2$ は、標準正規を1個だけ二乗した形なので自由度 $1$。すると足し算の帳尻から、残りの $Q_1$ の自由度は $n-1$ でなければなりません。

FORMULA

自由度の足し算は $$n = \underbrace{(n-1)}_{Q_1} + \underbrace{1}_{Q_2}$$ 合計がちょうど $n$ に一致するので、コクランの定理より $Q_1$ と $Q_2$ は独立で、それぞれ $$Q_1=\frac{(n-1)s^2}{\sigma^2}\sim\chi^2_{n-1},\qquad Q_2=\left(\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}\right)^2\sim\chi^2_{1}$$ ここで $Q_1=\dfrac{1}{\sigma^2}\sum(X_i-\bar{X})^2=\dfrac{(n-1)s^2}{\sigma^2}$ を使いました。

POINT

この1本の式から、本編で使った2大事実が同時に出ます。
(1) $\dfrac{(n-1)s^2}{\sigma^2}\sim\chi^2_{n-1}$ ── 自由度が $n-1$ なのは、$\bar{X}$ を推定したぶん $1$ を $Q_2$ に取られたから。
(2) $\bar{X}$ と $s^2$ は独立 ── $Q_2$($\bar{X}$ だけで決まる)と $Q_1$($s^2$ そのもの)が独立だから。
この独立性こそ、母分散が未知のときの $t$ 統計量 $t=\dfrac{\bar{X}-\mu}{s/\sqrt{n}}$ が $t$ 分布に従う根拠です(分子の正規と分母の $\chi^2$ が独立でないと $t$ 分布にならない)。

さえちゃん
さえ

「なんで $n-1$ で割るの?」の答えがこれ! 全体の自由度 $n$ のうち、$1$ 本を $\bar{X}$ の推定に使っちゃうから、ばらつき側に残るのは $n-1$ 本。$n=(n-1)+1$ の足し算がそのまま自由度の引き継ぎになってるの。しかも $\bar{X}$ と $s^2$ が独立っていうオマケまで付いてくる。お得だね!

5. 応用②:分散分析の平方和分解とF比

もう1つの大きな応用が、分散分析(5-8)です。総変動が群間変動と群内変動に分かれる、あの分解の分布論的な根拠がコクランの定理です。

$k$ 群、各群 $n_i$ 個、総数 $n=\sum n_i$ とします。帰無仮説「全群の母平均が等しい」のもとで、標準化した平方和は次のように分かれます。

FORMULA

総変動・群間変動・群内変動を母分散 $\sigma^2$ で割ると、それぞれ $\chi^2$ になります。 $$\frac{SST}{\sigma^2}=\frac{SSB}{\sigma^2}+\frac{SSW}{\sigma^2}$$ 自由度の足し算は $$\underbrace{(n-1)}_{SST} = \underbrace{(k-1)}_{SSB} + \underbrace{(n-k)}_{SSW}$$ 合計が一致するので、コクランの定理より群間と群内は独立で $$\frac{SSB}{\sigma^2}\sim\chi^2_{k-1},\qquad \frac{SSW}{\sigma^2}\sim\chi^2_{n-k}$$

$F$ 分布は2-12で見たとおり「独立な2つの $\chi^2$ を、それぞれの自由度で割った比」でした。群間と群内が独立な $\chi^2$ だと分かったので、まさに $F$ 比が作れます。

DERIVATION

$$ \begin{aligned} F &= \frac{SSB/(k-1)}{SSW/(n-k)} = \frac{\big(SSB/\sigma^2\big)/(k-1)}{\big(SSW/\sigma^2\big)/(n-k)} \\[4pt] &= \frac{\chi^2_{k-1}/(k-1)}{\chi^2_{n-k}/(n-k)} \;\sim\; F(k-1,\ n-k) \end{aligned} $$ 母分散 $\sigma^2$ は分子・分母で打ち消し合うので、未知のままで構いません。

POINT

分散分析の $F$ 比が $F$ 分布に従うためには、群間と群内の平方和が独立な $\chi^2$ である必要があります。その独立性を保証しているのがコクランの定理であり、根拠は $(n-1)=(k-1)+(n-k)$ という自由度の足し算でした。本編で「自由度が縦に足し算でつながる」と確かめたあの検算は、じつはコクランの条件そのものを確認していたのです。

6. 数値で確かめる:自由度は本当に分け合えるか

抽象論が続いたので、最後に簡単な数値で「自由度の足し算」と「期待値が自由度に一致する」ことを体感します。$\chi^2_r$ の期待値は $r$(自由度)でした。

EXAMPLE(自由度の分配を期待値で確認)

独立な標準正規 $Z_1,\dots,Z_8$($n=8$)を考えます。全体は $\sum_{i=1}^{8}Z_i^2\sim\chi^2_{8}$ なので期待値は $8$。これを「標本平均で説明される分」$Q_2\sim\chi^2_1$ と「残差」$Q_1\sim\chi^2_7$ に分けると、自由度は $$8 = 7 + 1$$ と分かれます。期待値で見ると $E[\chi^2_8]=8$、$E[\chi^2_7]=7$、$E[\chi^2_1]=1$ で、$7+1=8$ と帳尻が合います。実際に $20$ 万回シミュレーションで $\sum Z_i^2$ の平均を求めると約 $7.99$、分散は約 $15.95$ となり、理論値の期待値 $n=8$・分散 $2n=16$ とよく一致しました。

分散分析側でも同様です。たとえば $k=3$ 群・各群 $5$ 個($n=15$)なら、自由度は $$\underbrace{14}_{SST}=\underbrace{2}_{SSB}+\underbrace{12}_{SSW}$$ と分かれ、$F(2,\ 12)$ が作れます(5-8 の数値例とぴたり一致)。どの応用でも、確認することはただ1つ──自由度の合計が元に戻るかです。

まとめ

発展5、ポイントを整理します。

次回 発展6 多重比較 では、検定を何度も繰り返すと第1種の誤りが累積する「多重性」の問題を扱います。分散分析が「全体として差があるか」の入口だったのに対し、その後で「どのペアが違うか」を安全に調べるための考え方です。

さえちゃん
さえ

コクランの定理、こわくなかったでしょ? 証明はむずかしくても、使うときに見るのは自由度の足し算だけ。$n=(n-1)+1$、$(n-1)=(k-1)+(n-k)$ ──この帳尻が合えば「独立な $\chi^2$ に割れた!」って判断できる。$n-1$ も $F$ 比も、ぜんぶここから出てたんだね。次は多重比較だよ!