第3章 3-8 / 統計的推定

母分散・母比率の区間推定 — χ²分布と正規近似

このページで学ぶこと

ここまで(3-6・3-7)は、推定の相手はずっと母平均 $\mu$ でした。本ページでは相手を2つ広げます。ひとつはばらつきそのもの、母分散 $\sigma^2$。もうひとつは割合、母比率 $p$。どちらも実務で頻出します。

母分散には$\chi^2$(カイ二乗)分布を使います。ここでの注意点は、区間の左右で使う確率点が入れ替わること。母比率には大標本の正規近似を使い、世論調査でおなじみの $\hat{p}\pm z_{\alpha/2}\sqrt{\dfrac{\hat{p}(1-\hat{p})}{n}}$ を扱います。どちらも数値例まで計算しきります。

さえちゃん
さえ

今回は「平均」以外の2つを推定するよ。母分散=ばらつきの大きさと、母比率=割合。母分散は $\chi^2$ 分布を使うんだけど、左右非対称だから区間の上端と下端で確率点が入れ替わる、っていうトリッキーな所がある。母比率はニュースの「支持率○○%、誤差±△」のアレ! 身近な例で計算しよう。

1. 母分散の区間推定:使う統計量(直感)

まず母分散 $\sigma^2$ です。手元には不偏分散 $s^2=\dfrac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar{X})^2$ があります。これが $\sigma^2$ の点推定値ですが、区間を作るには「$s^2$ がどんな分布に従うか」が必要です。

正規母集団からの標本では、$s^2$ を適切にスケールした量が $\chi^2$ 分布に従うことが知られています。2-12 標本分布 で「$\chi^2$ は標準正規の二乗和」と学びましたが、偏差の二乗和 $\sum(X_i-\bar{X})^2$ がまさにその姿をしているのです。

FORMULA

正規母集団 $N(\mu,\sigma^2)$ からの標本について、 $$\frac{(n-1)s^2}{\sigma^2} \sim \chi^2_{n-1}\quad(\text{自由度 } n-1 \text{ の } \chi^2 \text{ 分布})$$ 分子は偏差平方和 $\sum_{i=1}^{n}(X_i-\bar{X})^2$ そのもの($=(n-1)s^2$)です。自由度が $n-1$ なのは、$t$ のときと同じく $\bar{X}$ を使った分を1つ引くからです。

2. 母分散の信頼区間と「確率点の入れ替わり」

$\chi^2$ 分布は左右非対称($0$ 以上で右に裾を引く)なので、中央 $1-\alpha$ をはさむときは左右でちがう確率点を使います。下側に $\alpha/2$、上側に $\alpha/2$ を残すように、2つの点で挟みます。

χ²(1−α/2) χ²(α/2) 1 − α α/2 α/2

χ²分布は非対称なので、中央 1−α をはさむ左右の点は別の値。下側に α/2 を残す点が χ²(1−α/2)、上側に α/2 を残す点が χ²(α/2)

上側確率点の記法(2-12)では、$\chi^2_{\alpha/2,\,n-1}$ は「上側に $\alpha/2$ を残す(右寄りの大きい)点」、$\chi^2_{1-\alpha/2,\,n-1}$ は「上側に $1-\alpha/2$ を残す(左寄りの小さい)点」です。これで統計量を挟みます。

DERIVATION

$$ \begin{aligned} P\!\left(\chi^2_{1-\alpha/2,\,n-1} \le \frac{(n-1)s^2}{\sigma^2} \le \chi^2_{\alpha/2,\,n-1}\right) &= 1-\alpha &&\text{(中央を2点ではさむ)}\\[4pt] P\!\left(\frac{\chi^2_{1-\alpha/2,\,n-1}}{(n-1)s^2} \le \frac{1}{\sigma^2} \le \frac{\chi^2_{\alpha/2,\,n-1}}{(n-1)s^2}\right) &= 1-\alpha &&\text{(各辺を } (n-1)s^2 \text{ で割る)}\\[4pt] P\!\left(\frac{(n-1)s^2}{\chi^2_{\alpha/2,\,n-1}} \le \sigma^2 \le \frac{(n-1)s^2}{\chi^2_{1-\alpha/2,\,n-1}}\right) &= 1-\alpha &&\text{(逆数をとり不等号を反転)} \end{aligned} $$

最後の逆数をとるステップで不等号の向きが反転し、その結果分母の確率点が左右で入れ替わります。区間の下端には大きい確率点 $\chi^2_{\alpha/2}$ が、上端には小さい確率点 $\chi^2_{1-\alpha/2}$ が来る──ここが母分散の区間推定で最も間違えやすい点です。

FORMULA

母分散 $\sigma^2$ の信頼係数 $1-\alpha$ の信頼区間 $$\frac{(n-1)s^2}{\chi^2_{\alpha/2,\,n-1}}\ \le\ \sigma^2\ \le\ \frac{(n-1)s^2}{\chi^2_{1-\alpha/2,\,n-1}}$$ 母標準偏差 $\sigma$ の区間がほしければ、両端の平方根をとります。$\chi^2$ が非対称なので、この区間は $s^2$ を中心とした左右対称にはなりません。

さえちゃん
さえ

ここ、テストで一番ミスが出るよ! 下端には大きい点 $\chi^2_{\alpha/2}$、上端には小さい点 $\chi^2_{1-\alpha/2}$。逆数をとったから入れ替わるの。「大きい数で割ると小さくなる」って思い出せばOK。母平均の区間と違って $s^2$ が真ん中じゃない(左右非対称)のも、$\chi^2$ ならではだよ!

3. 母分散の数値例

EXAMPLE 1(母分散の95%信頼区間)

正規分布に従うとみなせるある製品の重さを $n=16$ 個測ったところ、不偏分散 $s^2 = 25.0$(つまり $s=5.0$)でした。母分散 $\sigma^2$ の $95\%$ 信頼区間を求めます。

自由度は $n-1=15$。$\alpha/2=0.025$ で、$\chi^2$ 分布表から $\chi^2_{0.025,\,15}=27.49$、$\chi^2_{0.975,\,15}=6.262$。$(n-1)s^2 = 15\times 25.0 = 375$ を使って、

$$\frac{375}{27.49} \le \sigma^2 \le \frac{375}{6.262}$$

計算すると $\mathbf{13.64 \le \sigma^2 \le 59.88}$。下端で大きい点 $27.49$、上端で小さい点 $6.262$ を使っているのを確認してください。母標準偏差なら平方根をとって $\mathbf{3.69 \le \sigma \le 7.74}$ です。

4. 母比率の区間推定:正規近似(直感)

話を割合 $p$ に移します。$n$ 人にアンケートを取り、ある回答をした人が $X$ 人いたとします。標本比率は $\hat{p}=\dfrac{X}{n}$。$X$ は二項分布に従いますが、$n$ が大きければ二項分布は正規分布で近似できる(2-13c の二項分布の正規近似)ので、$\hat{p}$ もまた近似的に正規分布に従います。

FORMULA

$n$ が十分大きいとき、標本比率 $\hat{p}$ は近似的に $$\hat{p} \approx N\!\left(p,\ \frac{p(1-p)}{n}\right)$$ に従います。期待値は母比率 $p$、分散は $\dfrac{p(1-p)}{n}$。標準誤差は $\sqrt{\dfrac{p(1-p)}{n}}$ です。

標準誤差に未知の $p$ が入っているのが悩みどころですが、$n$ が大きければ $\hat{p}$ が $p$ にかなり近いので、$p$ を $\hat{p}$ で置き換えて標準誤差を見積もります。これで母平均(分散既知)のときと同じ型に持ち込めます。

DERIVATION

$$ \begin{aligned} Z &= \frac{\hat{p}-p}{\sqrt{p(1-p)/n}} \approx N(0,1) &&\text{(標準化、正規近似)}\\[4pt] P\!\left(-z_{\alpha/2} \le \frac{\hat{p}-p}{\sqrt{\hat{p}(1-\hat{p})/n}} \le z_{\alpha/2}\right) &\approx 1-\alpha &&\text{(分母の } p \text{ を } \hat{p} \text{ で代用)}\\[4pt] P\!\left(\hat{p}-z_{\alpha/2}\sqrt{\tfrac{\hat{p}(1-\hat{p})}{n}} \le p \le \hat{p}+z_{\alpha/2}\sqrt{\tfrac{\hat{p}(1-\hat{p})}{n}}\right) &\approx 1-\alpha &&\text{(} p \text{ について解く)} \end{aligned} $$

FORMULA

母比率 $p$ の信頼係数 $1-\alpha$ の信頼区間(大標本・正規近似) $$\hat{p}\pm z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}$$ 母平均(分散既知)の $\bar{X}\pm z_{\alpha/2}\dfrac{\sigma}{\sqrt{n}}$ と同じ形。標準偏差 $\sigma$ の役割を $\sqrt{\hat{p}(1-\hat{p})}$ が担っています。

POINT

この近似が使えるのは標本が大きいときだけです。目安として、$n\hat{p}$ と $n(1-\hat{p})$ がともに $5$(厳しめなら $10$)以上であることが、二項分布を正規で近似できる条件の目安です。サンプルが小さすぎたり、$\hat{p}$ が $0$ や $1$ に極端に近いときは、この公式は精度が落ちます。

5. 母比率の数値例

EXAMPLE 2(世論調査の支持率)

ある政策について $n=600$ 人に賛否を尋ねたところ、賛成が $288$ 人でした。賛成率(母比率 $p$)の $95\%$ 信頼区間を求めます。

標本比率は $\hat{p}=\dfrac{288}{600}=0.48$。近似の条件 $n\hat{p}=288$、$n(1-\hat{p})=312$ はどちらも十分大きく、問題ありません。標準誤差は

$$\sqrt{\frac{\hat{p}(1-\hat{p})}{n}} = \sqrt{\frac{0.48\times 0.52}{600}} \approx 0.0204$$

$95\%$ なので $z_{0.025}=1.96$ を掛けて、半幅は $1.96\times 0.0204 \approx 0.0400$。よって、

$$0.48 \pm 0.040$$

信頼区間は $\mathbf{0.440 \le p \le 0.520}$。パーセントで言えば「賛成率はおよそ $44.0\%$ から $52.0\%$ の範囲、信頼度 $95\%$」。ニュースの「賛成 $48\%$、誤差 $\pm 4\%$ ポイント」という言い回しは、まさにこの計算の半幅 $\pm 0.040$ のことです。

6. 結論と使いどころ

推定の相手が平均でも分散でも比率でも、骨格は3-6で確認した同じ型です。「母数を含む統計量を、分布の分かる量に変換し、その分布で中央 $1-\alpha$ をはさんで、母数について解く」。変わるのはどの分布を使うか確率点の取り方だけです。

推定する母数使う分布信頼区間
母平均 $\mu$(分散既知)標準正規$\bar{X}\pm z_{\alpha/2}\dfrac{\sigma}{\sqrt{n}}$
母平均 $\mu$(分散未知)$t$(自由度 $n-1$)$\bar{X}\pm t_{\alpha/2,\,n-1}\dfrac{s}{\sqrt{n}}$
母分散 $\sigma^2$$\chi^2$(自由度 $n-1$)$\dfrac{(n-1)s^2}{\chi^2_{\alpha/2,\,n-1}}\le\sigma^2\le\dfrac{(n-1)s^2}{\chi^2_{1-\alpha/2,\,n-1}}$
母比率 $p$(大標本)正規近似$\hat{p}\pm z_{\alpha/2}\sqrt{\dfrac{\hat{p}(1-\hat{p})}{n}}$
POINT

試験で押さえるべき2つの落とし穴──(1) 母分散の区間は $\chi^2$ が非対称なので、区間の下端・上端で確率点が入れ替わる($s^2$ が中心に来ない)。(2) 母比率の正規近似は大標本でのみ有効($n\hat{p}$ と $n(1-\hat{p})$ が十分大きいか確認)。この2点を意識すれば、計算ミスはぐっと減ります。

まとめ

第3章 3-8、ポイントを整理します。

次回 3-9 相関係数の区間推定 では、2変数の関係の強さ──相関係数 $r$ の区間推定に進みます。$r$ の分布は扱いにくいので、フィッシャーのz変換という工夫で正規に近づけてから区間を作る、という新しいテクニックが登場します。

さえちゃん
さえ

平均・分散・比率、3種類の区間推定がそろったね! 型はぜんぶ同じで、使う分布と確率点が変わるだけ。母分散の「入れ替わり」と、母比率の「大標本でだけOK」──この2つの注意点さえ押さえれば完璧だよ。次は相関係数。$z$ 変換っていう面白い技が出てくるから、お楽しみに!