発展トラック / 発展2

発展2 確率分布間の近似的関係 — 分布たちのつながりを1枚の地図にする

さえ

今日は「分布の家系図」づくり！　二項分布もポアソンも正規分布も、ぜんぶ親戚なんだよ。「$n$ を増やす」「自由度を上げる」みたいな条件をかけると、ある分布がスーッと別の分布に近づいていくの。バラバラに暗記してた分布が1枚の地図でつながると、めちゃくちゃ見通しがよくなるよ！

1. なぜ「近似」を考えるのか

そもそも、分布どうしの近似がうれしいのはなぜでしょう。理由は2つあります。1つは計算がラクになること。たとえば $\mathrm{Bin}(1000,\,0.003)$ の確率を組合せで真面目に計算するのは大変ですが、ポアソン分布で近似すれば一発です。

もう1つは正規分布の道具一式が使えること。区間推定や検定の公式の多くは正規分布を前提にしています。「この分布は正規で近似できる」とわかれば、その道具をそのまま流用できます。

近似のエンジンになっているのは、ほとんどの場合中心極限定理（多数の独立な量を足すと正規に近づく）と大数の効果（$n$ や自由度が大きいと分布が安定する）です。以下、6本の矢印を1本ずつ見ていきます。

2. 二項分布 → ポアソン分布（$n$ 大・$p$ 小）

まず二項分布からポアソン分布へ。試行回数 $n$ が非常に大きく、成功確率 $p$ が非常に小さいとき、二項分布はポアソン分布で近似できます。「めったに起きないこと（小さい $p$）を、たくさん試す（大きい $n$）」場面です。

POINT（近似の条件）

$n\to\infty$、$p\to 0$ で、積 $np=\lambda$ を一定に保つとき、 $$\mathrm{Bin}(n,p) \;\approx\; \mathrm{Poisson}(\lambda),\qquad \lambda=np$$ 目安は $n\ge 50$ かつ $p\le 0.1$（このとき $\lambda=np$ がほどほどの大きさ）。

なぜ近づくのか。ポアソン分布はもともと「単位時間・単位面積あたりに、まれな事象が平均 $\lambda$ 回起きる」分布として導かれます（2-8）。

二項分布で「試行をどんどん細かく刻み（$n$ 大）、1回あたりの成功確率を小さく（$p$ 小）」しても、平均の発生回数 $np$ を一定 $\lambda$ に保てば、まさにポアソンの設定そのものになります。$p$ が小さいので「同じ試行で2回成功」がほぼ起きず、回数の分布がポアソンに一致していくのです。

EXAMPLE 1（二項 → ポアソン）

ある稀な不良が確率 $p=0.003$ で起きる工程を $n=1000$ 回観察します。$\lambda=np=1000\times0.003=3$。不良がちょうど $2$ 回起きる確率を、二項とポアソンで比べます。

真の二項 $\mathrm{Bin}(1000,0.003)$：$P(X=2)\approx \mathbf{0.2242}$
ポアソン近似 $\mathrm{Poisson}(3)$：$P(X=2)=\dfrac{3^2 e^{-3}}{2!}\approx \mathbf{0.2240}$

差はわずか $0.0002$。$n$ が大きく $p$ が小さいので、ポアソン近似がほぼ完璧に効いています。

3. 二項分布 → 正規分布（中心極限定理）

次は二項分布から正規分布へ。これは中心極限定理のいちばん身近な応用で、2-13c でじっくり扱いました。二項分布は「独立なベルヌーイ試行 $n$ 個の和」なので、$n$ が大きければ正規分布に近づきます。

POINT（近似の条件）

$$\mathrm{Bin}(n,p) \;\approx\; N\big(np,\ np(1-p)\big)$$ 目安は $np\ge 5$ かつ $n(1-p)\ge 5$（より安全には両方 $\ge 10$）。離散を連続で近似するので連続修正（$\pm0.5$）を併用すると精度が上がります。

なぜ近づくのか。$np$ も $n(1-p)$ も十分大きいと、二項分布の山が左右対称な釣鐘型になり、$p$ が $0$ や $1$ に偏っていない限りなめらかな正規曲線に重なります。

ポアソン近似が「$p$ が小さいとき」だったのに対し、正規近似は「$p$ がほどほどで $n$ が大きいとき」と、すみ分けて覚えると混乱しません。

4. ポアソン分布 → 正規分布（$\lambda$ 大）

ポアソン分布も、平均 $\lambda$ が大きくなると正規分布に近づきます。これも中心極限定理の現れです。ポアソン分布は「再生性」を持ち、$\mathrm{Poisson}(\lambda)$ は $\mathrm{Poisson}(\lambda/m)$ を $m$ 個足したものと見なせます。

つまり $\lambda$ が大きいポアソンは「たくさんの独立なポアソンの和」なので、釣鐘型になっていくのです。

POINT（近似の条件）

$$\mathrm{Poisson}(\lambda) \;\approx\; N(\lambda,\ \lambda) \qquad (\lambda \text{ が大きいとき})$$ 目安は $\lambda\ge 10$（教科書により $\ge 20$ など）。ポアソンは平均と分散がともに $\lambda$ なので、近似先の正規分布も平均 $\lambda$・分散 $\lambda$ になります。離散なので連続修正が有効です。

EXAMPLE 2（ポアソン → 正規）

平均 $\lambda=100$ 件/日の問い合わせ件数 $X\sim\mathrm{Poisson}(100)$。$110$ 件以下になる確率 $P(X\le110)$ を、真値と正規近似で比べます。平均 $100$、分散 $100$、標準偏差 $10$。

$$P(X\le110)\approx \Phi\!\left(\frac{110+0.5-100}{10}\right)=\Phi(1.05)\approx \mathbf{0.8531}$$

正規近似＋連続修正：約 $\mathbf{0.8531}$
真のポアソン確率：約 $\mathbf{0.8529}$

差は $0.0002$。$\lambda=100$ と大きいので、正規近似がよく効いています。

5. 超幾何分布 → 二項分布（$N$ 大）

発展1で予告した関係です。母集団 $N$ が標本 $n$ に比べて十分大きいと、超幾何分布は二項分布に近づきます。

非復元抽出でも、母集団が巨大なら「1個取り出したくらいでは当たりの割合が変わらない」ので、復元抽出（＝二項分布）とほとんど区別がつかなくなるのです。

POINT（近似の条件）

$$\text{超幾何}(N,K,n) \;\approx\; \mathrm{Bin}\!\left(n,\ \frac{K}{N}\right) \qquad (N \gg n)$$ 目安は標本比率 $\dfrac{n}{N}\le 0.05$（標本が母集団の $5\%$ 以下）。このとき分散の有限母集団修正 $\dfrac{N-n}{N-1}$ が $1$ に近づき、二項分布の分散と一致します。

EXAMPLE 3（超幾何 → 二項）

当たり割合 $K/N=0.4$ の母集団から $n=10$ 個を非復元で引くとき、当たりが $4$ 個出る確率 $P(X=4)$ を、母集団サイズを変えて比べます。

$N=50,\,K=20$（$n/N=0.2$）：超幾何 $P(X=4)\approx 0.2801$
$N=10000,\,K=4000$（$n/N=0.001$）：超幾何 $P(X=4)\approx 0.2509$
二項 $\mathrm{Bin}(10,0.4)$：$P(X=4)\approx \mathbf{0.2508}$

母集団を大きくするほど超幾何が二項に寄っていき、$N=10000$ ではほぼ一致します。母集団が小さい $N=50$ では、まだ差がはっきり残ります。

6. $t$ 分布 → 正規分布／$\chi^2$ 分布 → 正規分布（自由度大）

最後は標本分布（2-12）の仲間です。$t$ 分布も $\chi^2$ 分布も、自由度を大きくすると正規分布に近づきます。

$t$ 分布 → 標準正規分布

$t$ 分布は、正規母集団の平均を「母分散がわからないので標本から推定して」標準化したときに現れる、正規分布よりすそが重い分布です。すそが重いのは、分母に使う標本標準偏差そのものがばらつくぶん、余計な不確かさが乗るから。

ところが自由度（≒標本サイズ $-1$）が大きくなると、標本標準偏差が母標準偏差にほぼ一致するようになり、その余計なばらつきが消えて標準正規分布 $N(0,1)$ に近づきます。

POINT

自由度 $\nu$ の $t$ 分布は、$\nu\to\infty$ で $N(0,1)$ に一致します。実用上、$\nu\ge 30$ あたりでほぼ正規と見なせます。たとえば両側 $95\%$ 点は、$\nu=30$ で約 $2.04$、$\nu=100$ で約 $1.98$ と、正規の $1.96$ にどんどん近づきます。「標本が大きければ $t$ 検定と $z$ 検定の結果はほぼ同じ」という実感の裏づけです。

$\chi^2$ 分布 → 正規分布

$\chi^2$ 分布は、標準正規の2乗を自由度ぶん足し合わせた分布です。「独立な量の和」なので、ここでも中心極限定理が効きます。足す個数（自由度 $k$）が大きくなれば、和の分布は釣鐘型になり、平均 $k$・分散 $2k$ の正規分布に近づきます。

POINT

自由度 $k$ の $\chi^2$ 分布は、$k$ が大きいとき $$\chi^2_k \;\approx\; N(k,\ 2k)$$ で近似できます（目安 $k\ge 30$ 程度）。自由度が小さいうちは右に大きくゆがんでいますが、$k$ を増やすとゆがみが取れて左右対称に近づいていきます。

さえ

$t$ も $\chi^2$ も「自由度を上げると正規に近づく」って共通点で覚えるとラク！　$t$ はすそが重い→自由度大で軽くなって正規、$\chi^2$ は右にゆがんでる→自由度大で対称になって正規。理由はどっちも「たくさんの独立な量が混ざると釣鐘になる」っていう中心極限定理の仲間だよ。結局みんな正規分布に集まってくるの、おもしろいよね！

7. 関係図 ─ 1枚にまとめる

6本の矢印を1枚の地図にまとめます。矢印の向きは「条件を満たすと、こちらの分布で近似できる」を表します。中央右の正規分布に多くの矢印が集まっているのが見どころ。これは中心極限定理が、さまざまな分布を正規分布へ引き寄せているからです。

確率分布の関係地図。矢印は「条件を満たすと近似できる」向き。中心極限定理が多くの分布を正規分布へ引き寄せる

近似	条件	なぜ近づくか（直感）
二項 → ポアソン	$n$ 大・$p$ 小、$np=\lambda$ 一定	まれな事象を多数試す＝ポアソンの設定そのもの
二項 → 正規	$np\ge5$ かつ $n(1-p)\ge5$	独立試行の和（中心極限定理）
ポアソン → 正規	$\lambda$ 大（目安 $\ge10$）	独立なポアソンの和（中心極限定理）
超幾何 → 二項	$N\gg n$（$n/N\le0.05$）	母集団が巨大なら復元と非復元の差が消える
$t$ → 正規	自由度大（目安 $\ge30$）	標本標準偏差が母標準偏差に一致し、すそが軽くなる
$\chi^2$ → 正規	自由度大（目安 $\ge30$）	独立な2乗和（中心極限定理）でゆがみが取れる

8. 結論と使いどころ

POINT

この地図のいちばんの教訓は、「多くの分布は条件しだいで正規分布に化ける」こと。その大本にあるのが中心極限定理です。だからこそ正規分布が推測統計の中心に座り、$z$ 検定や信頼区間の公式が広く使えます。試験で「この近似はなぜ使えるのか」と問われたら、まず「中心極限定理（独立な量の和）」か「まれな事象（ポアソン）」か「母集団が巨大（超幾何→二項）」かを見分けるのが第一手です。

実務でも、アンケートの賛成率（二項→正規）、コールセンターの着信数（ポアソン→正規）、有限母集団からの抜き取り検査（超幾何→二項）など、近似はそこら中で使われています。「正確な分布」と「扱いやすい近似分布」をうまく使い分けられると、計算の手間がぐっと減ります。

次回発展3 検出力・検出力関数では、検定の話題に戻ります。第4章で名前だけ出てきた「第2種の誤り」と「検出力」を正面から扱い、検出力が標本サイズや効果の大きさでどう変わるかを検出力関数として描きます。

さえ

分布の家系図、完成！　「条件を満たすと別の分布で近似できる」──この見方ができると、バラバラだった分布たちがグッとつながるよね。そして道はみんな正規分布に通じてる＝中心極限定理が主役。発展トラックもいい感じに進んでるよ。次は検出力、検定の世界に戻ってさらに深掘りしよう！

HANDWRITING — 紙に書いてインプットしよう！

このページに出てきた重要キーワードです。ページを閉じる前に、声に出しながら紙に手で書いてみてください。手を動かすと、読むだけの何倍も速く記憶に定着します。

中心極限定理
二項分布
ポアソン分布
正規分布
連続修正
超幾何分布
有限母集団修正
t分布
χ²分布（カイ二乗分布）
自由度
検出力関数