第3章 3-5 / 統計的推定

区間推定の論理 — 信頼区間はなぜ作れるのか

さえ

「95%信頼区間」って言葉、なんとなく使ってない?　実はここ、めちゃくちゃ誤解が多いの！　正解は「$\mu$ が入る確率が95%」じゃないんだよ。ランダムなのは区間のほうで、$\mu$ は動かない一定の値。この主役交代がわかると、信頼区間が一気にクリアになるよ。導出と解釈、両方やっつけよう！

1. なぜ「幅」で示すのか（直感）

点推定 $\bar{x}$ は、確かに母平均 $\mu$ のいちばんもっともらしい一点です。けれど標本平均は標本ごとにブレる確率変数。たまたま取った標本によっては、真の $\mu$ から少し外れた値が出ることもあります。

「$\bar{x}=170.2$」と言われても、それが $\mu$ にどれだけ近いのか、$\pm0.5$ の精度なのか $\pm5$ なのか、一点だけでは何も語れません。

そこで発想を変えます。一点で当てにいくのをやめ、「この幅の中に $\mu$ がありそうだ」という区間を、推定の精度（信頼の度合い）とセットで示す。これが区間推定です。

鍵になるのは、$\bar{X}$ が $\mu$ のまわりにどれくらいの幅でばらつくかを、私たちはすでに知っているということ。その武器が中心極限定理です。

2. 出発点 ─ 標本平均の分布と標準化

母平均 $\mu$、母分散 $\sigma^2$ の母集団から、大きさ $n$ の標本を取ります。ここではまず母分散 $\sigma^2$ は既知とします（未知の場合は次々回 3-7 で $t$ 分布を使います）。

2-13c 中心極限定理より、$n$ が十分大きければ標本平均 $\bar{X}$ は次の正規分布に従います。

FORMULA

$$\bar{X} \sim N\!\left(\mu,\ \frac{\sigma^2}{n}\right)$$ 期待値は $\mu$（3-4 の不偏性）、分散は $\sigma^2/n$（2-13b）。母集団が正規分布なら $n$ が小さくてもこの式は厳密に成り立ち、そうでなくても中心極限定理で $n$ 大なら近似的に成り立ちます。

正規分布は標準化すると標準正規分布 $N(0,1)$ になります。$\bar{X}$ から期待値 $\mu$ を引き、標準偏差 $\sigma/\sqrt{n}$ で割ると、

FORMULA（標準化）

$$Z = \frac{\bar{X}-\mu}{\sigma/\sqrt{n}} \sim N(0,1)$$ この $Z$ が議論の出発点です。母数 $\mu$ を含んでいますが、分布そのものは $N(0,1)$ という誰でも数表で扱える形に固定されている──ここがミソです。

3. 信頼区間の構成（導出★）

標準正規分布では、「真ん中の $95\%$ がどこからどこまでか」を数表から読めます。中央に確率 $1-\alpha$ を残すように左右対称に切る境界値を $z_{\alpha/2}$ と書きます（上側確率 $\alpha/2$ の点）。

たとえば $1-\alpha=0.95$ なら $\alpha=0.05$、$z_{0.025}=1.96$ です。

標準正規分布の中央に確率 1−α を残す。左右の裾にそれぞれ α/2 ずつ。境界が ±z(α/2)。

$Z$ が $N(0,1)$ に従うので、$Z$ がこの中央区間に入る確率はちょうど $1-\alpha$。式で書くと出発点はこうです。

FORMULA

$$P\!\left(-z_{\alpha/2} \le Z \le z_{\alpha/2}\right) = 1-\alpha$$

導出：$\mu$ について解く

ここからが導出の山場です。$Z=\dfrac{\bar{X}-\mu}{\sigma/\sqrt{n}}$ を代入し、不等式を$\mu$ について解いていきます。

確率の中身（不等式）を変形しても、$Z$ がその範囲に入る確率は変わらないことに注意してください。同じ変形を不等式の3辺すべてに施します。

DERIVATION

$$ \begin{aligned} 1-\alpha &= P\!\left(-z_{\alpha/2} \le \frac{\bar{X}-\mu}{\sigma/\sqrt{n}} \le z_{\alpha/2}\right) &&\text{(} Z \text{ を代入)}\\[4pt] &= P\!\left(-z_{\alpha/2}\cdot\frac{\sigma}{\sqrt{n}} \le \bar{X}-\mu \le z_{\alpha/2}\cdot\frac{\sigma}{\sqrt{n}}\right) &&\text{(3辺に } \tfrac{\sigma}{\sqrt{n}}>0 \text{ を掛ける)}\\[4pt] &= P\!\left(-\bar{X}-z_{\alpha/2}\cdot\frac{\sigma}{\sqrt{n}} \le -\mu \le -\bar{X}+z_{\alpha/2}\cdot\frac{\sigma}{\sqrt{n}}\right) &&\text{(3辺から } \bar{X} \text{ を引く)}\\[4pt] &= P\!\left(\bar{X}-z_{\alpha/2}\cdot\frac{\sigma}{\sqrt{n}} \le \mu \le \bar{X}+z_{\alpha/2}\cdot\frac{\sigma}{\sqrt{n}}\right) &&\text{(3辺に } -1 \text{ を掛け、不等号の向きを反転)} \end{aligned} $$

最後の行で $-1$ を掛けたとき、不等号の向きが反転し、両端が入れ替わって左から「小さい → 大きい」のきれいな並びに戻っています。こうして、$\mu$ をはさむ区間が確率 $1-\alpha$ で得られました。

FORMULA（信頼区間・分散既知）

信頼係数 $1-\alpha$ の母平均の信頼区間は $$\left[\,\bar{X}-z_{\alpha/2}\cdot\frac{\sigma}{\sqrt{n}},\ \ \bar{X}+z_{\alpha/2}\cdot\frac{\sigma}{\sqrt{n}}\,\right] \quad\text{すなわち}\quad \bar{X} \pm z_{\alpha/2}\cdot\frac{\sigma}{\sqrt{n}}$$ 中心は点推定 $\bar{X}$、その左右に $z_{\alpha/2}\cdot\frac{\sigma}{\sqrt{n}}$ ずつ広げた区間です。この半幅 $z_{\alpha/2}\cdot\frac{\sigma}{\sqrt{n}}$ を誤差の限界（マージン）といいます。

POINT（幅を決める3つの要素）

半幅 $z_{\alpha/2}\cdot\dfrac{\sigma}{\sqrt{n}}$ を見ると、区間の幅は次で決まります。(1) 信頼係数を上げる（$1-\alpha$ を大きく）と $z_{\alpha/2}$ が大きくなり区間は広がる（確実を求めるほど幅が要る）。(2) 母標準偏差 $\sigma$ が大きいほど広い。(3) 標本サイズ $n$ が大きいほど $\sqrt{n}$ で割られて狭くなる。データを増やすほど精度が上がる、という直感どおりです。

4. 「95%信頼区間」の正しい解釈

さて、導出した式 $P\big(\bar{X}-z_{\alpha/2}\frac{\sigma}{\sqrt{n}}\le\mu\le\bar{X}+z_{\alpha/2}\frac{\sigma}{\sqrt{n}}\big)=1-\alpha$ を見ると、つい「$\mu$ がこの区間に入る確率が $1-\alpha$」と読みたくなります。

これがよくある誤解です。正しい読み方を、誰がランダムで誰が定数かに注目して整理しましょう。

POINT（主役は誰か）

この式の中でランダムに動くのは $\bar{X}$（＝区間の両端）です。母平均 $\mu$ は、知らないだけで一つに定まった定数。動かない $\mu$ に対して「確率」を語ることはできません。だから正しくは、「標本を取って区間を作る、という手続きを繰り返したとき、できた区間が $\mu$ を含む割合が $1-\alpha$」と読みます。確率は $\mu$ にではなく、ランダムに作られる区間のほうにかかっているのです。

イメージはこうです。同じ母集団から標本を取り、そのたびに信頼区間を作る。これを何度も繰り返すと、毎回ちがう場所・ちがう幅の区間ができます（$\bar{X}$ が毎回ちがうから）。

真の $\mu$ は一本の縦線として動かずそこにいて、作った区間のうち約 $95\%$ が $\mu$ をまたぎ、約 $5\%$ は外す。これが「$95\%$ 信頼区間」の意味です。

100本の区間を作れば約95本が μ をまたぎ（黒）、約5本は外す（アクセント色）。μ は動かず、ランダムなのは区間のほう。

	よくある誤解	正しい解釈
言い方	「$\mu$ がこの区間に入る確率は95%」	「この手続きで作る区間が $\mu$ を含む割合が95%」
ランダムなのは	$\mu$（と暗に思っている）	区間の両端 $\bar{X}\pm\cdots$
$\mu$ の扱い	確率的に動く	未知だが一つに定まった定数
作った1本の区間は	95%の確率で当たり	すでに当たりか外れのどちらか（確率ではない）

最後の行が肝心です。すでに計算してしまった一本の区間、たとえば $[166.9,\ 173.1]$ について「$\mu$ がここに入る確率は95%」とは言えません。

$\mu$ はもう決まった数なので、この区間は当たっているか外れているかのどちらか。$95\%$ という数字は、「こういう区間を作り続けたら $95\%$ が当たる」という手続きの信頼度であって、目の前の一本に貼る確率ではないのです。

さえ

ここ、本当に試験で狙われるよ！　合言葉は「動くのは区間、$\mu$ は動かない」。95%は「区間を作る手続きの成功率」なの。だから「この1本に $\mu$ が入る確率95%」はバツ。$\mu$ はもう決まってるから、その1本は当たりか外れか、確率の出る幕じゃないんだよ。図の縦線（$\mu$）がピクリとも動かないのがポイント！

5. 数値例で確かめる

EXAMPLE 1（95%信頼区間を作る）

ある集団から $n=25$ 人を無作為に選び身長を測ったところ、標本平均 $\bar{x}=170\ \text{cm}$ でした。母標準偏差は $\sigma=8\ \text{cm}$ と既知とします。母平均 $\mu$ の $95\%$ 信頼区間を求めます。

$1-\alpha=0.95$ なので $z_{\alpha/2}=z_{0.025}=1.96$。半幅は $$z_{0.025}\cdot\frac{\sigma}{\sqrt{n}} = 1.96\times\frac{8}{\sqrt{25}} = 1.96\times\frac{8}{5} = 1.96\times1.6 = 3.136$$

よって信頼区間は $$170 \pm 3.136 = [\,166.864,\ 173.136\,]\ \text{cm}$$

「母平均はおよそ $166.9$ から $173.1\ \text{cm}$ の間にあると、$95\%$ の信頼度で推定できる」と結論します。この一本について「$\mu$ が入る確率95%」とは言わないのがお約束でしたね。

EXAMPLE 2（信頼係数を上げると幅が広がる）

同じデータで $99\%$ 信頼区間にすると? $1-\alpha=0.99$ なら $z_{0.005}=2.576$。半幅は $2.576\times1.6 = 4.122$ となり、区間は $$170 \pm 4.122 = [\,165.878,\ 174.122\,]\ \text{cm}$$

$95\%$ のときより幅が広がりました。「より確実」を求めるほど区間は広くなる──これがマージンに $z_{\alpha/2}$ が効いている証拠です。逆に幅を狭めたければ $n$ を増やすしかありません。

EXAMPLE 3（被覆率をシミュレーションで確認）

「手続きを繰り返すと約95%が $\mu$ を含む」を数値で確かめます。母平均 $\mu=50$、$\sigma=10$ の母集団から $n=25$ の標本を取り、毎回 $95\%$ 信頼区間 $\bar{x}\pm1.96\cdot\frac{10}{\sqrt{25}}$ を作る作業を20万回繰り返し、$\mu=50$ を含んだ区間の割合（被覆率）を数えます。

実際に $\mu$ を含んだ割合：約 95.02%
狙った信頼係数：95%

ねらいどおり、約 $95\%$ の区間が $\mu$ を含みました。残り約 $5\%$ はちゃんと外しているのもポイント。「手続きの成功率が95%」という解釈が、そのまま数値で再現されたわけです。

6. 結論と使いどころ

POINT

区間推定の論理は、「$\bar{X}$ の分布がわかる → 標準化して $N(0,1)$ にする → 中央 $1-\alpha$ の範囲を $\mu$ について解く」という一本道です。この流れさえ押さえれば、母分散未知のとき（$t$ 分布）、母比率、母分散など、これから出てくる区間推定はすべて同じ骨格の使い回しです。そして解釈は「動くのは区間、$\mu$ は定数」。導出と解釈、この2本柱が3章後半の土台になります。

ここでは話を簡単にするため $\sigma$ を既知としましたが、現実には母標準偏差はたいてい未知です。

その場合は前回学んだ不偏分散 $s^2$ から $\sigma$ を推定して代用しますが、それにともなって正規分布の代わりに $t$ 分布が登場します。骨格は今日とまったく同じ。次節以降で、具体的な区間推定を一つずつ組み立てていきましょう。

次回 3-6 母平均の区間推定（分散既知）では、今日の骨格を使って、実際の問題を解く手順を細かく詰めます。$z$ 値の読み方、$n$ の決め方（必要な標本サイズの設計）など、試験で直接問われる実践に踏み込みます。

さえ

信頼区間、作り方も意味もバッチリだね！　「標準化して $\mu$ について解く」が作り方、「動くのは区間・$\mu$ は定数」が解釈。この2つはセットで体に入れてね。シミュレーションでも約95%が当たったでしょ?　次からはこの骨格で、いろんな区間推定をどんどん解いていくよ！

HANDWRITING — 紙に書いてインプットしよう！

このページに出てきた重要キーワードです。ページを閉じる前に、声に出しながら紙に手で書いてみてください。手を動かすと、読むだけの何倍も速く記憶に定着します。

点推定
標本平均
区間推定
中心極限定理
母分散
標準正規分布
標準化
信頼区間
信頼係数
誤差の限界（マージン）
母標準偏差
標本サイズ
被覆率