第3章 3-5 / 統計的推定

区間推定の論理 — 信頼区間はなぜ作れるのか

このページで学ぶこと

前回の点推定は、母平均を「$\bar{x}=170.2$」のように一点でズバリ当てるものでした。でも一点だけだと、その推定がどれくらい当たっていそうかがわかりません。そこで「$\mu$ はおよそ $166$ から $174$ の間にありそう」とで示すのが区間推定、その幅を信頼区間といいます。

本ページの主役は2つ。ひとつは信頼区間がなぜ作れるのかを、$\bar{X}$ の標準化から $\mu$ について解くという形で1ステップずつ導くこと。もうひとつが、合格者でも間違えやすい「95%信頼区間」の正しい解釈です。「$\mu$ が区間に入る確率が95%」は誤り──なぜそう言えないのかを、図とともにスッキリさせます。

さえちゃん
さえ

「95%信頼区間」って言葉、なんとなく使ってない? 実はここ、めちゃくちゃ誤解が多いの! 正解は「$\mu$ が入る確率が95%」じゃないんだよ。ランダムなのは区間のほうで、$\mu$ は動かない一定の値。この主役交代がわかると、信頼区間が一気にクリアになるよ。導出と解釈、両方やっつけよう!

1. なぜ「幅」で示すのか(直感)

点推定 $\bar{x}$ は、確かに母平均 $\mu$ のいちばんもっともらしい一点です。けれど標本平均は標本ごとにブレる確率変数。たまたま取った標本によっては、真の $\mu$ から少し外れた値が出ることもあります。「$\bar{x}=170.2$」と言われても、それが $\mu$ にどれだけ近いのか、$\pm0.5$ の精度なのか $\pm5$ なのか、一点だけでは何も語れません。

そこで発想を変えます。一点で当てにいくのをやめ、「この幅の中に $\mu$ がありそうだ」という区間を、推定の精度(信頼の度合い)とセットで示す。これが区間推定です。鍵になるのは、$\bar{X}$ が $\mu$ のまわりにどれくらいの幅でばらつくかを、私たちはすでに知っているということ。その武器が中心極限定理です。

2. 出発点 ─ 標本平均の分布と標準化

母平均 $\mu$、母分散 $\sigma^2$ の母集団から、大きさ $n$ の標本を取ります。ここではまず母分散 $\sigma^2$ は既知とします(未知の場合は次々回 3-7 で $t$ 分布を使います)。2-13c 中心極限定理 より、$n$ が十分大きければ標本平均 $\bar{X}$ は次の正規分布に従います。

FORMULA

$$\bar{X} \sim N\!\left(\mu,\ \frac{\sigma^2}{n}\right)$$ 期待値は $\mu$(3-4 の不偏性)、分散は $\sigma^2/n$(2-13b)。母集団が正規分布なら $n$ が小さくてもこの式は厳密に成り立ち、そうでなくても中心極限定理で $n$ 大なら近似的に成り立ちます。

正規分布は標準化すると標準正規分布 $N(0,1)$ になります。$\bar{X}$ から期待値 $\mu$ を引き、標準偏差 $\sigma/\sqrt{n}$ で割ると、

FORMULA(標準化)

$$Z = \frac{\bar{X}-\mu}{\sigma/\sqrt{n}} \sim N(0,1)$$ この $Z$ が議論の出発点です。母数 $\mu$ を含んでいますが、分布そのものは $N(0,1)$ という誰でも数表で扱える形に固定されている──ここがミソです。

3. 信頼区間の構成(導出★)

標準正規分布では、「真ん中の $95\%$ がどこからどこまでか」を数表から読めます。中央に確率 $1-\alpha$ を残すように左右対称に切る境界値を $z_{\alpha/2}$ と書きます(上側確率 $\alpha/2$ の点)。たとえば $1-\alpha=0.95$ なら $\alpha=0.05$、$z_{0.025}=1.96$ です。

−z(α/2) +z(α/2) 0 1 − α α/2 α/2

標準正規分布の中央に確率 1−α を残す。左右の裾にそれぞれ α/2 ずつ。境界が ±z(α/2)。

$Z$ が $N(0,1)$ に従うので、$Z$ がこの中央区間に入る確率はちょうど $1-\alpha$。式で書くと出発点はこうです。

FORMULA

$$P\!\left(-z_{\alpha/2} \le Z \le z_{\alpha/2}\right) = 1-\alpha$$

導出:$\mu$ について解く

ここからが導出の山場です。$Z=\dfrac{\bar{X}-\mu}{\sigma/\sqrt{n}}$ を代入し、不等式を$\mu$ について解いていきます。確率の中身(不等式)を変形しても、$Z$ がその範囲に入る確率は変わらないことに注意してください。同じ変形を不等式の3辺すべてに施します。

DERIVATION

$$ \begin{aligned} 1-\alpha &= P\!\left(-z_{\alpha/2} \le \frac{\bar{X}-\mu}{\sigma/\sqrt{n}} \le z_{\alpha/2}\right) &&\text{(} Z \text{ を代入)}\\[4pt] &= P\!\left(-z_{\alpha/2}\cdot\frac{\sigma}{\sqrt{n}} \le \bar{X}-\mu \le z_{\alpha/2}\cdot\frac{\sigma}{\sqrt{n}}\right) &&\text{(3辺に } \tfrac{\sigma}{\sqrt{n}}>0 \text{ を掛ける)}\\[4pt] &= P\!\left(-\bar{X}-z_{\alpha/2}\cdot\frac{\sigma}{\sqrt{n}} \le -\mu \le -\bar{X}+z_{\alpha/2}\cdot\frac{\sigma}{\sqrt{n}}\right) &&\text{(3辺から } \bar{X} \text{ を引く)}\\[4pt] &= P\!\left(\bar{X}-z_{\alpha/2}\cdot\frac{\sigma}{\sqrt{n}} \le \mu \le \bar{X}+z_{\alpha/2}\cdot\frac{\sigma}{\sqrt{n}}\right) &&\text{(3辺に } -1 \text{ を掛け、不等号の向きを反転)} \end{aligned} $$

最後の行で $-1$ を掛けたとき、不等号の向きが反転し、両端が入れ替わって左から「小さい → 大きい」のきれいな並びに戻っています。こうして、$\mu$ をはさむ区間が確率 $1-\alpha$ で得られました。

FORMULA(信頼区間・分散既知)

信頼係数 $1-\alpha$ の母平均の信頼区間は $$\left[\,\bar{X}-z_{\alpha/2}\cdot\frac{\sigma}{\sqrt{n}},\ \ \bar{X}+z_{\alpha/2}\cdot\frac{\sigma}{\sqrt{n}}\,\right] \quad\text{すなわち}\quad \bar{X} \pm z_{\alpha/2}\cdot\frac{\sigma}{\sqrt{n}}$$ 中心は点推定 $\bar{X}$、その左右に $z_{\alpha/2}\cdot\frac{\sigma}{\sqrt{n}}$ ずつ広げた区間です。この半幅 $z_{\alpha/2}\cdot\frac{\sigma}{\sqrt{n}}$ を誤差の限界(マージン)といいます。

POINT(幅を決める3つの要素)

半幅 $z_{\alpha/2}\cdot\dfrac{\sigma}{\sqrt{n}}$ を見ると、区間の幅は次で決まります。(1) 信頼係数を上げる($1-\alpha$ を大きく)と $z_{\alpha/2}$ が大きくなり区間は広がる(確実を求めるほど幅が要る)。(2) 母標準偏差 $\sigma$ が大きいほど広い。(3) 標本サイズ $n$ が大きいほど $\sqrt{n}$ で割られて狭くなる。データを増やすほど精度が上がる、という直感どおりです。

4. 「95%信頼区間」の正しい解釈

さて、導出した式 $P\big(\bar{X}-z_{\alpha/2}\frac{\sigma}{\sqrt{n}}\le\mu\le\bar{X}+z_{\alpha/2}\frac{\sigma}{\sqrt{n}}\big)=1-\alpha$ を見ると、つい「$\mu$ がこの区間に入る確率が $1-\alpha$」と読みたくなります。これがよくある誤解です。正しい読み方を、誰がランダムで誰が定数かに注目して整理しましょう。

POINT(主役は誰か)

この式の中でランダムに動くのは $\bar{X}$(=区間の両端)です。母平均 $\mu$ は、知らないだけで一つに定まった定数。動かない $\mu$ に対して「確率」を語ることはできません。だから正しくは、「標本を取って区間を作る、という手続きを繰り返したとき、できた区間が $\mu$ を含む割合が $1-\alpha$」と読みます。確率は $\mu$ にではなく、ランダムに作られる区間のほうにかかっているのです。

イメージはこうです。同じ母集団から標本を取り、そのたびに信頼区間を作る。これを何度も繰り返すと、毎回ちがう場所・ちがう幅の区間ができます($\bar{X}$ が毎回ちがうから)。真の $\mu$ は一本の縦線として動かずそこにいて、作った区間のうち約 $95\%$ が $\mu$ をまたぎ、約 $5\%$ は外す。これが「$95\%$ 信頼区間」の意味です。

真の母平均 μ(定数・動かない) 外した区間 標本を取り直すたびに区間が作られる →

100本の区間を作れば約95本が μ をまたぎ(黒)、約5本は外す(アクセント色)。μ は動かず、ランダムなのは区間のほう。

よくある誤解正しい解釈
言い方「$\mu$ がこの区間に入る確率は95%」「この手続きで作る区間が $\mu$ を含む割合が95%」
ランダムなのは$\mu$(と暗に思っている)区間の両端 $\bar{X}\pm\cdots$
$\mu$ の扱い確率的に動く未知だが一つに定まった定数
作った1本の区間は95%の確率で当たりすでに当たりか外れのどちらか(確率ではない)

最後の行が肝心です。すでに計算してしまった一本の区間、たとえば $[166.9,\ 173.1]$ について「$\mu$ がここに入る確率は95%」とは言えません。$\mu$ はもう決まった数なので、この区間は当たっているか外れているかのどちらか。$95\%$ という数字は、「こういう区間を作り続けたら $95\%$ が当たる」という手続きの信頼度であって、目の前の一本に貼る確率ではないのです。

さえちゃん
さえ

ここ、本当に試験で狙われるよ! 合言葉は「動くのは区間、$\mu$ は動かない」。95%は「区間を作る手続きの成功率」なの。だから「この1本に $\mu$ が入る確率95%」はバツ。$\mu$ はもう決まってるから、その1本は当たりか外れか、確率の出る幕じゃないんだよ。図の縦線($\mu$)がピクリとも動かないのがポイント!

5. 数値例で確かめる

EXAMPLE 1(95%信頼区間を作る)

ある集団から $n=25$ 人を無作為に選び身長を測ったところ、標本平均 $\bar{x}=170\ \text{cm}$ でした。母標準偏差は $\sigma=8\ \text{cm}$ と既知とします。母平均 $\mu$ の $95\%$ 信頼区間を求めます。

$1-\alpha=0.95$ なので $z_{\alpha/2}=z_{0.025}=1.96$。半幅は $$z_{0.025}\cdot\frac{\sigma}{\sqrt{n}} = 1.96\times\frac{8}{\sqrt{25}} = 1.96\times\frac{8}{5} = 1.96\times1.6 = 3.136$$

よって信頼区間は $$170 \pm 3.136 = [\,166.864,\ 173.136\,]\ \text{cm}$$

「母平均はおよそ $166.9$ から $173.1\ \text{cm}$ の間にあると、$95\%$ の信頼度で推定できる」と結論します。この一本について「$\mu$ が入る確率95%」とは言わないのがお約束でしたね。

EXAMPLE 2(信頼係数を上げると幅が広がる)

同じデータで $99\%$ 信頼区間にすると? $1-\alpha=0.99$ なら $z_{0.005}=2.576$。半幅は $2.576\times1.6 = 4.122$ となり、区間は $$170 \pm 4.122 = [\,165.878,\ 174.122\,]\ \text{cm}$$

$95\%$ のときより幅が広がりました。「より確実」を求めるほど区間は広くなる──これがマージンに $z_{\alpha/2}$ が効いている証拠です。逆に幅を狭めたければ $n$ を増やすしかありません。

EXAMPLE 3(被覆率をシミュレーションで確認)

「手続きを繰り返すと約95%が $\mu$ を含む」を数値で確かめます。母平均 $\mu=50$、$\sigma=10$ の母集団から $n=25$ の標本を取り、毎回 $95\%$ 信頼区間 $\bar{x}\pm1.96\cdot\frac{10}{\sqrt{25}}$ を作る作業を20万回繰り返し、$\mu=50$ を含んだ区間の割合(被覆率)を数えます。

  • 実際に $\mu$ を含んだ割合:約 95.02%
  • 狙った信頼係数:95%

ねらいどおり、約 $95\%$ の区間が $\mu$ を含みました。残り約 $5\%$ はちゃんと外しているのもポイント。「手続きの成功率が95%」という解釈が、そのまま数値で再現されたわけです。

6. 結論と使いどころ

POINT

区間推定の論理は、「$\bar{X}$ の分布がわかる → 標準化して $N(0,1)$ にする → 中央 $1-\alpha$ の範囲を $\mu$ について解く」という一本道です。この流れさえ押さえれば、母分散未知のとき($t$ 分布)、母比率、母分散など、これから出てくる区間推定はすべて同じ骨格の使い回しです。そして解釈は「動くのは区間、$\mu$ は定数」。導出と解釈、この2本柱が3章後半の土台になります。

ここでは話を簡単にするため $\sigma$ を既知としましたが、現実には母標準偏差はたいてい未知です。その場合は前回学んだ不偏分散 $s^2$ から $\sigma$ を推定して代用しますが、それにともなって正規分布の代わりに $t$ 分布が登場します。骨格は今日とまったく同じ。次節以降で、具体的な区間推定を一つずつ組み立てていきましょう。

まとめ

第3章 3-5、ポイントを整理します。

次回 3-6 母平均の区間推定(分散既知) では、今日の骨格を使って、実際の問題を解く手順を細かく詰めます。$z$ 値の読み方、$n$ の決め方(必要な標本サイズの設計)など、試験で直接問われる実践に踏み込みます。

さえちゃん
さえ

信頼区間、作り方も意味もバッチリだね! 「標準化して $\mu$ について解く」が作り方、「動くのは区間・$\mu$ は定数」が解釈。この2つはセットで体に入れてね。シミュレーションでも約95%が当たったでしょ? 次からはこの骨格で、いろんな区間推定をどんどん解いていくよ!