母平均の区間推定(分散既知)— 信頼区間の作り方
前回(3-5 区間推定の論理)で「なぜ信頼区間が作れるのか」をつかみました。本ページでは、いちばん基本的なケース──正規母集団で、母分散 $\sigma^2$ が分かっている場合の母平均 $\mu$ の信頼区間を、実際に計算できるようにします。
主役の公式は $\bar{X}\pm z_{\alpha/2}\dfrac{\sigma}{\sqrt{n}}$ です。$95\%$ 区間なら $z=1.96$、$99\%$ なら $z=2.576$。式の形を覚えるだけでなく、区間の幅が標本サイズ $n$ と信頼係数でどう変わるかまで腹落ちさせれば、応用問題にも強くなります。具体的な数値で最後まで計算してみましょう。
いよいよ信頼区間を「手で計算する」回だよ! 今回は母分散 $\sigma^2$ が分かってるという、いちばんシンプルな設定。公式 $\bar{X}\pm z_{\alpha/2}\frac{\sigma}{\sqrt{n}}$ がどこから来て、$\pm$ の幅が何で決まるのかを、一緒に式から追っていこう。$z=1.96$ と $z=2.576$ は超頻出だから、この回で仲良くなっておこうね!
1. 設定の確認(直感)
まず、どんな状況を考えているのかをはっきりさせます。母集団が正規分布 $N(\mu,\sigma^2)$ に従い、そこから大きさ $n$ の標本 $X_1, X_2, \dots, X_n$ を無作為に取り出します。このとき、母平均 $\mu$ は分からないが、母分散 $\sigma^2$ は分かっているとします。
「分散だけ既知って、ちょっと不自然では?」と感じるかもしれません。実務では確かにまれですが、たとえば測定器の誤差ばらつきが仕様で分かっている場合などが当てはまります。なにより、ここで筋を通しておくと、次回の分散未知のケース($t$ 分布)がぐっと理解しやすくなります。いちばんやさしい入口、という位置づけです。
出発点は標本平均 $\bar{X}=\dfrac{1}{n}\sum_{i=1}^{n} X_i$ の分布です。正規母集団から取った標本平均は、ぴったり正規分布に従います。
母集団が $N(\mu,\sigma^2)$ なら、標本平均 $\bar{X}$ は $$\bar{X} \sim N\!\left(\mu,\ \frac{\sigma^2}{n}\right)$$ に従います。期待値は $E[\bar{X}]=\mu$、分散は $V[\bar{X}]=\dfrac{\sigma^2}{n}$。標本サイズ $n$ が大きいほど $\bar{X}$ のばらつき(標準偏差 $\sigma/\sqrt{n}$)は小さくなります。
2. 標準化して確率で挟む
$\bar{X}$ の分布が分かったので、これを標準正規分布に変換(標準化)します。標準化とは「平均を引いて標準偏差で割る」操作でした。$\bar{X}$ の標準偏差は $\sigma/\sqrt{n}$ なので、
$$Z = \frac{\bar{X}-\mu}{\sigma/\sqrt{n}} \sim N(0,1)$$ $\sigma$ は既知なので、この $Z$ は(未知の $\mu$ を除けば)計算できる量です。これが標準正規分布に従うことが、区間推定の土台になります。
標準正規分布では、中央の $1-\alpha$ の確率を真ん中に取り、両側に $\alpha/2$ ずつ捨てると、その境目が上側確率点 $\pm z_{\alpha/2}$ になります(上側確率点については 2-12 標本分布 を参照)。式で書くと次の通りです。
$$P\!\left(-z_{\alpha/2} \le Z \le z_{\alpha/2}\right) = 1-\alpha$$ ここで $z_{\alpha/2}$ は「上側の面積が $\alpha/2$ になる点」。たとえば $1-\alpha=0.95$ なら $\alpha/2=0.025$ で $z_{0.025}=1.96$、$1-\alpha=0.99$ なら $\alpha/2=0.005$ で $z_{0.005}=2.576$ です。
標準正規分布:中央に確率 1−α を取り、両側へ α/2 ずつ捨てる。その境目が ±z(α/2)
3. 信頼区間の導出
あとは、$Z$ の中身を $\dfrac{\bar{X}-\mu}{\sigma/\sqrt{n}}$ に戻して、不等式を $\mu$ について解くだけです。各ステップで何をしているかを添えながら進めます。
$$ \begin{aligned} P\!\left(-z_{\alpha/2} \le \frac{\bar{X}-\mu}{\sigma/\sqrt{n}} \le z_{\alpha/2}\right) &= 1-\alpha &&\text{(} Z \text{ を中身に戻す)}\\[4pt] P\!\left(-z_{\alpha/2}\,\frac{\sigma}{\sqrt{n}} \le \bar{X}-\mu \le z_{\alpha/2}\,\frac{\sigma}{\sqrt{n}}\right) &= 1-\alpha &&\text{(各辺に } \tfrac{\sigma}{\sqrt{n}} \text{ を掛ける)}\\[4pt] P\!\left(-\bar{X}-z_{\alpha/2}\,\frac{\sigma}{\sqrt{n}} \le -\mu \le -\bar{X}+z_{\alpha/2}\,\frac{\sigma}{\sqrt{n}}\right) &= 1-\alpha &&\text{(各辺から } \bar{X} \text{ を引く)}\\[4pt] P\!\left(\bar{X}-z_{\alpha/2}\,\frac{\sigma}{\sqrt{n}} \le \mu \le \bar{X}+z_{\alpha/2}\,\frac{\sigma}{\sqrt{n}}\right) &= 1-\alpha &&\text{(} -1 \text{ を掛けて不等号の向きを反転)} \end{aligned} $$
最後の行が答えです。$-1$ を掛けたときに不等号の向きが入れ替わる点だけ注意すれば、あとは中学校で習った一次不等式の変形と同じです。これで母平均 $\mu$ をはさむ区間が、確率 $1-\alpha$ で得られました。
母平均 $\mu$ の信頼係数 $1-\alpha$ の信頼区間(母分散既知) $$\bar{X}-z_{\alpha/2}\,\frac{\sigma}{\sqrt{n}}\ \le\ \mu\ \le\ \bar{X}+z_{\alpha/2}\,\frac{\sigma}{\sqrt{n}}$$ まとめて $\displaystyle \bar{X}\pm z_{\alpha/2}\,\frac{\sigma}{\sqrt{n}}$ と書きます。中心は標本平均 $\bar{X}$、左右の幅(誤差の限界)が $z_{\alpha/2}\dfrac{\sigma}{\sqrt{n}}$ です。
「確率 $1-\alpha$」の意味の取り扱いには注意です。区間を作る前は $\bar{X}$ が確率変数なので「区間が $\mu$ を含む確率は $1-\alpha$」と言えますが、データを観測して数値が確定した後の区間に対しては「$\mu$ がこの中にある確率」とは言いません。「同じ手続きを何度も繰り返せば、そのうち $1-\alpha$ の割合の区間が $\mu$ を捉える」という意味です。ここは 3-5 で扱った信頼区間の解釈そのものです。
4. よく使う信頼係数と $z$ の値
試験で頻出する信頼係数と、対応する $z_{\alpha/2}$ をまとめておきます。この2つ(特に $1.96$)は暗記してしまって損はありません。
| 信頼係数 $1-\alpha$ | $\alpha$ | $\alpha/2$ | $z_{\alpha/2}$ |
|---|---|---|---|
| $90\%$ | $0.10$ | $0.05$ | $1.645$ |
| $95\%$ | $0.05$ | $0.025$ | $1.960$ |
| $99\%$ | $0.01$ | $0.005$ | $2.576$ |
信頼係数を上げる(たとえば $95\%\to 99\%$)と、より確実に $\mu$ を捕まえたいわけですから、当然 $z_{\alpha/2}$ は大きくなります。$1.96$ から $2.576$ へ。これが次節の「区間幅」の話に直結します。
5. 区間幅は何で決まるか
信頼区間の半分の幅(誤差の限界)は $E = z_{\alpha/2}\dfrac{\sigma}{\sqrt{n}}$ です。この式をじっと見ると、幅を左右する要素が3つあると分かります。
誤差の限界 $E = z_{\alpha/2}\dfrac{\sigma}{\sqrt{n}}$ について──
- 信頼係数 $1-\alpha$ を上げる → $z_{\alpha/2}$ が大きくなる → 区間は広くなる(確実さと引き換えに精度が落ちる)
- 標本サイズ $n$ を増やす → $\sqrt{n}$ が大きくなる → 区間は狭くなる(ただし $\sqrt{n}$ なので、幅を半分にするには $n$ を $4$ 倍必要)
- 母標準偏差 $\sigma$ が大きい → 区間は広くなる(もとのばらつきが大きいほど推定は不確か)
とくに $n$ と幅の関係は試験頻出です。幅は $\dfrac{1}{\sqrt{n}}$ に比例するので、区間幅を $\dfrac{1}{2}$ にしたければ標本サイズは $4$ 倍、$\dfrac{1}{3}$ にしたければ $9$ 倍。精度を上げるコストは思ったより重い、というのが現場の感覚です。
同じ中心でも、信頼係数を上げると区間は広がり、標本サイズを増やすと区間は狭まる
区間幅の3要素、セットで覚えてね! 「確実さを上げると広がる、データを増やすと狭まる、もとのばらつきが大きいと広がる」。とくに $n$ は $\sqrt{n}$ で効くから、幅を半分にしたいなら $n$ は $4$ 倍──ここ、ひっかけ問題の常連だよ!
6. 数値例で計算してみる
実際に手を動かしてみましょう。設定を読みながら、公式に当てはめていきます。
ある工場で作る部品の長さは正規分布に従い、母標準偏差は $\sigma = 8.0\,\text{mm}$ と分かっています。無作為に $n=25$ 個を測ったところ、標本平均は $\bar{x}=152.0\,\text{mm}$ でした。母平均 $\mu$ の $95\%$ 信頼区間を求めます。
標準誤差は $\dfrac{\sigma}{\sqrt{n}} = \dfrac{8.0}{\sqrt{25}} = \dfrac{8.0}{5} = 1.6\,\text{mm}$。$95\%$ なので $z_{0.025}=1.96$ を使い、
$$152.0 \pm 1.96 \times 1.6 = 152.0 \pm 3.136$$
よって信頼区間は $\mathbf{148.86 \le \mu \le 155.14}$(単位 $\text{mm}$、小数第2位まで)。「母平均はおよそ $149$ から $155\,\text{mm}$ の範囲にあると、信頼度 $95\%$ で言える」と読みます。
いまの例で、信頼係数だけ $99\%$ に上げてみます。標準誤差 $1.6\,\text{mm}$ はそのまま、$z$ を $z_{0.005}=2.576$ に差し替えると、
$$152.0 \pm 2.576 \times 1.6 = 152.0 \pm 4.122$$
信頼区間は $\mathbf{147.88 \le \mu \le 156.12}$。$95\%$ のときの幅(半幅 $3.136$)より広がりました(半幅 $4.122$)。比は $2.576/1.96 \approx 1.31$ 倍。「より確実に捕まえる代わりに、区間は広く(精度は粗く)なる」という、前節のトレードオフがそのまま数字に表れています。
7. 結論と使いどころ
母分散既知のケースは実務では限定的ですが、「標本平均を標準化して、標準正規で確率的に挟み、$\mu$ について解く」という信頼区間づくりの王道の型がすべて詰まっています。この型は、次回の $t$ 分布でも、母比率でも、基本はまったく同じです。
信頼区間を作るときの手順は、いつでも次の3ステップです。
- (1) 推定したい母数を含む統計量を、分布が分かる形(標準正規・$t$・$\chi^2$ など)に標準化する
- (2) その分布で中央 $1-\alpha$ を確率点ではさむ
- (3) 不等式を母数について解く
母分散既知の母平均では、(1) が $Z=\dfrac{\bar{X}-\mu}{\sigma/\sqrt{n}}$、確率点が $z_{\alpha/2}$、というだけのことです。
まとめ
第3章 3-6、ポイントを整理します。
- 前提:正規母集団 $N(\mu,\sigma^2)$、母分散 $\sigma^2$ は既知。$\bar{X}\sim N(\mu,\sigma^2/n)$
- 標準化:$Z=\dfrac{\bar{X}-\mu}{\sigma/\sqrt{n}}\sim N(0,1)$ を中央 $1-\alpha$ ではさむ
- 信頼区間:$\bar{X}\pm z_{\alpha/2}\dfrac{\sigma}{\sqrt{n}}$。$95\%$ なら $z=1.96$、$99\%$ なら $z=2.576$
- 区間幅:信頼係数を上げると広がり、$n$ を増やすと狭まる($1/\sqrt{n}$ 比例)、$\sigma$ が大きいと広がる
- 注意:幅を半分にするには $n$ を $4$ 倍。観測後の区間に「$\mu$ が入る確率」とは言わない
次回 3-7 母平均の区間推定(分散未知・t分布) では、より現実的な「母分散が分からない」場合に進みます。$\sigma$ の代わりに標本から推定した不偏分散を使うと、なぜ正規分布ではなく $t$ 分布が顔を出すのか──そこを丁寧に解きほぐします。
信頼区間、自分の手で計算できたね! $\bar{X}\pm z_{\alpha/2}\frac{\sigma}{\sqrt{n}}$ は、標準化して確率で挟んで解いただけ。次は $\sigma$ が分からないという、もっとリアルな設定。同じ型なのに $t$ 分布が登場する理由を見にいこう。今日の導出を一度、自分でも紙に書いてみてね!