母分散・母比率の検定 — χ²検定とZ検定
前回(4-4)は1標本の母平均 $\mu$ を検定しました。本ページでは検定の相手を2つ広げます。ひとつはばらつき、母分散 $\sigma^2$。もうひとつは割合、母比率 $p$。どちらも実務で頻出する検定です。
母分散には$\chi^2$(カイ二乗)分布を使い、検定統計量は $\chi^2=\dfrac{(n-1)s^2}{\sigma_0^2}$。$\chi^2$ が左右非対称なので、両側検定では左右で別々の確率点を使うのがポイントです。母比率には大標本の正規近似を使い、$Z=\dfrac{\hat{p}-p_0}{\sqrt{p_0(1-p_0)/n}}$ を扱います。ここでは標準誤差に帰無仮説の値 $p_0$ を入れる、という区間推定との違いが要注意です。どちらも数値例まで計算しきります。
今回は「平均」以外の2つを検定するよ。母分散=ばらつきが基準どおりか、と母比率=割合が基準どおりか。母分散は $\chi^2$ 分布を使うんだけど、左右非対称だから両側の棄却域が上下で別の点になるの。母比率はニュースの支持率みたいなアレの検定版! 区間推定(3-8)とそっくりだけど、比率は標準誤差に $p_0$ を入れるのがミソだよ。
1. 母分散の検定:直感と検定統計量
まず母分散 $\sigma^2$ の検定です。問題意識は「製品のばらつきが規格 $\sigma_0^2$ どおりに収まっているか」「測定器の精度が基準を満たすか」のような、平均ではなくばらつき自体を問いたい場面です。帰無仮説は「ばらつきは基準どおり」、つまり $H_0:\sigma^2=\sigma_0^2$ と置きます($\sigma_0^2$ は帰無仮説で定める基準値)。
手元には不偏分散 $s^2=\dfrac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar{X})^2$ があります。これが $\sigma^2$ の推定値ですが、判定するには「$H_0$ が正しいとき $s^2$ がどんな分布に従うか」が要ります。正規母集団からの標本では、偏差平方和を $\sigma^2$ でスケールした量が $\chi^2$ 分布に従います(2-12 標本分布)。
正規母集団 $N(\mu,\sigma^2)$ からの標本について、 $$\frac{(n-1)s^2}{\sigma^2} \sim \chi^2_{n-1}\quad(\text{自由度 } n-1 \text{ の } \chi^2 \text{ 分布})$$ 分子は偏差平方和 $\sum_{i=1}^{n}(X_i-\bar{X})^2$ そのもの($=(n-1)s^2$)です。自由度が $n-1$ なのは、$\bar{X}$ を使った分を1つ引くためです。
検定では、この $\sigma^2$ に帰無仮説の値 $\sigma_0^2$ を代入します。「もし $H_0:\sigma^2=\sigma_0^2$ が正しいなら、次の統計量は自由度 $n-1$ の $\chi^2$ 分布に従うはずだ」という発想です。
母分散の検定統計量(帰無仮説 $H_0:\sigma^2=\sigma_0^2$ のもとで) $$\chi^2 = \frac{(n-1)s^2}{\sigma_0^2}\ \sim\ \chi^2_{n-1}$$ $s^2$ が $\sigma_0^2$ よりずっと大きければ $\chi^2$ は大きく(右裾へ)、ずっと小さければ $\chi^2$ は小さく(左裾へ)出ます。この外れ具合で $H_0$ を判定します。
2. 棄却域:両側は左右で別の点
対立仮説の置き方で棄却域が変わります。$\chi^2$ 分布は $0$ 以上で右に裾を引く左右非対称な分布なので、両側検定では上下の棄却域に別々の確率点を使うのが特徴です。
χ²分布は非対称なので、両側検定の棄却域は左右で別の点。上側に α/2 を残す点が χ²(α/2)、下側に α/2 を残す点が χ²(1−α/2)
上側確率点の記法(2-12)では、$\chi^2_{\alpha/2,\,n-1}$ が「上側に $\alpha/2$ を残す(右の大きい)点」、$\chi^2_{1-\alpha/2,\,n-1}$ が「上側に $1-\alpha/2$ を残す(左の小さい)点」です。対立仮説別にまとめると次のとおり。
| 対立仮説 $H_1$ | 棄却条件(有意水準 $\alpha$) |
|---|---|
| $\sigma^2 \ne \sigma_0^2$(両側) | $\chi^2 > \chi^2_{\alpha/2,\,n-1}$ または $\chi^2 < \chi^2_{1-\alpha/2,\,n-1}$ |
| $\sigma^2 > \sigma_0^2$(右片側) | $\chi^2 > \chi^2_{\alpha,\,n-1}$ |
| $\sigma^2 < \sigma_0^2$(左片側) | $\chi^2 < \chi^2_{1-\alpha,\,n-1}$ |
3. 母分散の数値例
ある充填機は、内容量のばらつきが規格 $\sigma_0^2=6.0$ に保たれているはずです。正規分布に従うとみなせる製品を $n=20$ 個測ったところ、不偏分散は $s^2=10.5$ でした。「ばらつきが規格どおりか」を有意水準 $\alpha=0.05$ の両側で検定します。仮説は $H_0:\sigma^2=6.0$、$H_1:\sigma^2\ne 6.0$。
検定統計量は $$\chi^2 = \frac{(n-1)s^2}{\sigma_0^2} = \frac{(20-1)\times 10.5}{6.0} = \frac{199.5}{6.0} = 33.25$$ 自由度は $n-1=19$。$\alpha/2=0.025$ で、$\chi^2$ 分布表から上側の点 $\chi^2_{0.025,\,19}=32.85$、下側の点 $\chi^2_{0.975,\,19}=8.907$。
$\chi^2=33.25$ は上側の棄却点 $32.85$ をわずかに超えています($33.25>32.85$)。よって帰無仮説を棄却し、「ばらつきは規格と異なる(大きい方へずれている)と言える」と判断します。$p$ 値はおよそ $0.045$ で、$0.05$ をわずかに下回ります。
4. 母比率の検定:直感と検定統計量
次は割合 $p$ の検定です。「不良率が基準 $p_0$ を超えていないか」「支持率が $50\%$ と言えるか」のように、割合が基準値どおりかを問います。帰無仮説は $H_0:p=p_0$($p_0$ は帰無仮説で定める基準の比率)。
$n$ 個のうちある事象が起きた回数を $X$ とすると、標本比率は $\hat{p}=\dfrac{X}{n}$。$X$ は二項分布に従いますが、$n$ が大きければ二項分布は正規分布で近似でき(2-13c の二項分布の正規近似)、$\hat{p}$ も近似的に正規分布に従います。$H_0$ が正しいとき、$\hat{p}$ の期待値は $p_0$、分散は $\dfrac{p_0(1-p_0)}{n}$ です。
帰無仮説 $H_0:p=p_0$ が正しく、$n$ が十分大きいとき、標本比率は近似的に $$\hat{p} \approx N\!\left(p_0,\ \frac{p_0(1-p_0)}{n}\right)$$ に従います。これを標準化すると検定統計量が得られます。
$$ \begin{aligned} Z &= \frac{\hat{p}-E[\hat{p}]}{\sqrt{V[\hat{p}]}} &&\text{(標準化の定義)}\\[4pt] &= \frac{\hat{p}-p_0}{\sqrt{p_0(1-p_0)/n}} &&\text{(} H_0 \text{ のもとで } E[\hat{p}]=p_0,\ V[\hat{p}]=\tfrac{p_0(1-p_0)}{n}\text{)}\\[4pt] &\approx N(0,1) &&\text{(大標本の正規近似)} \end{aligned} $$
母比率の検定統計量(帰無仮説 $H_0:p=p_0$ のもとで) $$Z = \frac{\hat{p}-p_0}{\sqrt{\dfrac{p_0(1-p_0)}{n}}}\ \approx\ N(0,1)$$ 標準正規分布の上側 $\alpha/2$ 点 $z_{\alpha/2}$(両側 $5\%$ なら $1.96$)と比べて判定します。
ここが区間推定との大きな違いです。区間推定(3-8)では標準誤差に $\hat{p}$ を入れましたが、検定では帰無仮説の値 $p_0$ を入れます。「$H_0$ が正しいと仮定したらどうなるか」を調べるのが検定だからです。$H_0$ が定める $p_0$ なら、標準誤差 $\sqrt{p_0(1-p_0)/n}$ も $p_0$ から計算するのが筋、というわけです。テストで取り違えやすい頻出ポイントなので、要チェックです。
ここ超重要! 検定の標準誤差は $p_0$、区間推定は $\hat{p}$。検定は「$H_0$ が正しいと仮定したら?」を考えるから、分散も $H_0$ の値 $p_0$ で計算するの。区間推定は仮定する基準値がないから、手元の $\hat{p}$ を使うしかない。この使い分け、毎年のように狙われるよ!
正規近似が使える目安は、$n p_0$ と $n(1-p_0)$ がともに $5$(厳しめなら $10$)以上であること。これを満たさない小標本では、二項分布の確率を直接使う正確検定(本講座の範囲外)に切り替えます。
5. 母比率の数値例
あるコインが「表の出やすさが $1/2$ かどうか」を確かめます。$n=200$ 回投げて表が $X=115$ 回出ました。仮説は $H_0:p=0.5$、$H_1:p\ne 0.5$、有意水準 $\alpha=0.05$ の両側。
標本比率は $\hat{p}=\dfrac{115}{200}=0.575$。近似の条件 $np_0=200\times 0.5=100$、$n(1-p_0)=100$ はどちらも十分大きく問題ありません。標準誤差は帰無値 $p_0=0.5$ で計算します。
$$\sqrt{\frac{p_0(1-p_0)}{n}} = \sqrt{\frac{0.5\times 0.5}{200}} = \sqrt{0.00125} \approx 0.03536$$
検定統計量は $$Z = \frac{0.575-0.5}{0.03536} = \frac{0.075}{0.03536} \approx 2.121$$
両側 $5\%$ の棄却点は $z_{0.025}=1.96$。$|Z|=2.121>1.96$ なので帰無仮説を棄却し、「このコインは表が出やすい($p\ne 0.5$)と言える」と判断します。$p$ 値はおよそ $0.034$ で、$0.05$ を下回ります。
6. 結論と使いどころ
検定の相手が平均でも分散でも比率でも、骨格は4-3で見た同じ型です。「$H_0$ が正しいと仮定して検定統計量を作り、その統計量が従うはずの分布で外れ具合を測り、棄却域に入れば $H_0$ を棄却する」。変わるのはどの分布を使うかと統計量の作り方だけです。
| 検定する母数 | 検定統計量($H_0$ のもとで) | 従う分布 |
|---|---|---|
| 母平均 $\mu$(分散既知) | $Z=\dfrac{\bar{X}-\mu_0}{\sigma/\sqrt{n}}$ | 標準正規 |
| 母平均 $\mu$(分散未知) | $t=\dfrac{\bar{X}-\mu_0}{s/\sqrt{n}}$ | $t$(自由度 $n-1$) |
| 母分散 $\sigma^2$ | $\chi^2=\dfrac{(n-1)s^2}{\sigma_0^2}$ | $\chi^2$(自由度 $n-1$) |
| 母比率 $p$(大標本) | $Z=\dfrac{\hat{p}-p_0}{\sqrt{p_0(1-p_0)/n}}$ | 正規近似 |
試験で押さえる2つの落とし穴──(1) 母分散の両側検定は $\chi^2$ が非対称なので、上下の棄却点が別の値($\chi^2_{\alpha/2}$ と $\chi^2_{1-\alpha/2}$)。(2) 母比率の標準誤差は帰無値 $p_0$ で作る(区間推定の $\hat{p}$ とは違う)。この2点を意識すれば計算ミスはぐっと減ります。
まとめ
第4章 4-5、ポイントを整理します。
- 母分散の統計量:$\chi^2=\dfrac{(n-1)s^2}{\sigma_0^2}\sim\chi^2_{n-1}$(帰無値 $\sigma_0^2$ を代入)
- 母分散の棄却域:両側は $\chi^2>\chi^2_{\alpha/2,\,n-1}$ または $\chi^2<\chi^2_{1-\alpha/2,\,n-1}$。非対称ゆえ上下で別の点
- 母比率の統計量:$Z=\dfrac{\hat{p}-p_0}{\sqrt{p_0(1-p_0)/n}}\approx N(0,1)$(大標本の正規近似)
- 標準誤差は $p_0$:検定は帰無値 $p_0$ で作る。区間推定の $\hat{p}$ と取り違えない
- 近似の目安:$np_0$ と $n(1-p_0)$ がともに $5$ 以上
次回 4-6 2標本:母平均の差の検定 からは、2つの集団を比べる検定に進みます。分散既知・等分散・不等分散・対応ありの4ケースを、使い分けのフローとともに整理します。
平均・分散・比率、1標本の検定がそろったね! 型はぜんぶ同じで、使う分布と統計量の作り方が変わるだけ。母分散の「上下で別の点」と、母比率の「標準誤差は $p_0$」──この2つさえ押さえれば完璧。次は2標本、いよいよ「差」の検定だよ!