発展トラック / 発展1

発展1 超幾何分布・多項分布・負の二項分布 — 二項分布から広がる離散分布の仲間たち

さえ

今日のテーマは「二項分布の仲間さがし」！　二項分布は「成功確率 $p$ を毎回キープしたまま $n$ 回くり返す」分布だったよね。じゃあ、毎回 $p$ が変わっちゃったら？　成功・失敗の2択じゃなく3択以上なら？　成功回数じゃなく試行回数を数えたら？　──そんな「もしも」が、ぜんぶ別の分布になるんだよ。違いは1つずつだから、こわがらないで！

1. 超幾何分布 ─ くじを戻さずに引く

まずは超幾何分布（hypergeometric distribution）。二項分布との違いは、ひとことで言えば「引いたものを箱に戻すか、戻さないか」です。

二項分布は毎回同じ確率 $p$ でくり返す復元抽出でした。これに対し超幾何分布は、引いたら戻さない非復元抽出を扱います。

設定はこうです。全部で $N$ 個のものがあり、そのうち「当たり」が $K$ 個（「はずれ」は $N-K$ 個）。

ここから戻さずに $n$ 個を取り出すとき、当たりの個数 $X$ が従うのが超幾何分布です。たとえば「50枚のカードのうち20枚が赤、そこから10枚引いたときの赤の枚数」がこれにあたります。

FORMULA

当たり $K$ 個を含む $N$ 個から $n$ 個を非復元で取り出すとき、当たりの個数 $X$ の確率関数（pmf）： $$P(X=k) = \frac{\dbinom{K}{k}\dbinom{N-K}{n-k}}{\dbinom{N}{n}}$$ （$\max(0,\,n-(N-K)) \le k \le \min(n,\,K)$）

なぜこの式になるのか

分母の $\binom{N}{n}$ は「$N$ 個から $n$ 個を選ぶ全パターン数」。

分子は「当たり $K$ 個から $k$ 個を選ぶ $\binom{K}{k}$ 通り」と「はずれ $N-K$ 個から残り $n-k$ 個を選ぶ $\binom{N-K}{n-k}$ 通り」の積です。

つまり（当たり $k$ 個・はずれ $n-k$ 個になる選び方）÷（全選び方）という、素朴な「場合の数の割り算」になっています。難しい確率の掛け算ではなく、組合せの比だと見ると安心です。

期待値と分散

ここで $p=\dfrac{K}{N}$（母集団に占める当たりの割合）とおくと、期待値は二項分布とまったく同じ形になります。

FORMULA

$$E[X] = n\frac{K}{N} = np, \qquad V[X] = n\frac{K}{N}\frac{N-K}{N}\cdot\frac{N-n}{N-1} = np(1-p)\cdot\frac{N-n}{N-1}$$

期待値 $E[X]=np$ は二項分布と同じです。直感的には、$n$ 回引けば平均して割合 $p$ ぶんだけ当たりが混じる、というだけのこと。

一方で分散には $\dfrac{N-n}{N-1}$ という余分な因子がつきます。これは有限母集団修正（finite population correction）と呼ばれ、$1$ 以下の値です。

POINT

非復元だと分散が小さくなる──これが超幾何分布の最大の特徴です。引いたものを戻さないと、「もう箱に当たりが残っていない」という情報が次の一手を縛るので、結果のばらつきが抑えられるのです。修正因子 $\dfrac{N-n}{N-1}$ は、$n=1$ なら $1$（1個だけなら復元も非復元も同じ）、$n$ が $N$ に近いほど $0$ に近づきます（ほぼ全部引けば結果はほぼ決まる＝ばらつかない）。

二項分布との関係

母集団 $N$ が標本 $n$ に比べてうんと大きいと、$1$ 個取り出したくらいでは当たりの割合 $p=K/N$ はほとんど変わりません。すると「戻す／戻さない」の差が消え、超幾何分布は二項分布 $\mathrm{Bin}(n,p)$ に近づきます。

実際、修正因子 $\dfrac{N-n}{N-1}$ も $N$ が大きければ $1$ に近づきます。この近似は次回発展2 で改めて扱います。

EXAMPLE 1（超幾何 vs 二項）

$50$ 枚のカードのうち $20$ 枚が赤（$N=50,\ K=20$）。ここから $10$ 枚引くとき、赤が $4$ 枚出る確率と、赤の枚数 $X$ の期待値・分散を求めます。割合は $p=K/N=0.4$ です。

$$P(X=4) = \frac{\dbinom{20}{4}\dbinom{30}{6}}{\dbinom{50}{10}} \approx 0.280$$

期待値：$E[X]=n\dfrac{K}{N}=10\times0.4=\mathbf{4}$ 枚
分散：$V[X]=np(1-p)\dfrac{N-n}{N-1}=10\times0.4\times0.6\times\dfrac{40}{49}\approx \mathbf{1.959}$

比べてみましょう。同じ設定を復元（毎回戻す＝二項 $\mathrm{Bin}(10,0.4)$）にすると、期待値はやはり $4$ ですが、分散は $np(1-p)=2.4$。非復元の $1.959$ の方が小さく、修正因子 $40/49\approx0.816$ ぶんだけ抑えられているのが確認できます。

2. 多項分布 ─ 二項分布を「多カテゴリ」に広げる

次は多項分布（multinomial distribution）。二項分布は「成功か失敗か」の2択でした。これを3択以上のカテゴリに拡張したのが多項分布です。

たとえばサイコロ（6面）を何度も振ったときに各目が出る回数、アンケートで「賛成・反対・どちらでもない」の人数など、結果が複数のカテゴリに分かれる場面で登場します。

設定です。1回の試行で、結果が $m$ 個のカテゴリ $1,2,\dots,m$ のどれかに入り、カテゴリ $j$ に入る確率を $p_j$ とします（$p_1+p_2+\cdots+p_m=1$）。

これを独立に $n$ 回くり返したとき、各カテゴリの回数 $X_1,X_2,\dots,X_m$（合計は $n$）が従うのが多項分布です。

FORMULA

$x_1+x_2+\cdots+x_m=n$ をみたす非負整数 $x_1,\dots,x_m$ について、 $$P(X_1=x_1,\dots,X_m=x_m) = \frac{n!}{x_1!\,x_2!\cdots x_m!}\,p_1^{x_1}p_2^{x_2}\cdots p_m^{x_m}$$

なぜこの式になるのか

二項分布の pmf $\binom{n}{k}p^{k}(1-p)^{n-k}$ と見比べてください。後半の $p_1^{x_1}\cdots p_m^{x_m}$ は、「ある特定の順番で各カテゴリがその回数だけ出る確率」を独立性から掛け合わせたもの。

前半の $\dfrac{n!}{x_1!\cdots x_m!}$ は、その回数の組をいろいろな順番で並べる場合の数（多項係数）です。

二項分布の $\binom{n}{k}=\dfrac{n!}{k!\,(n-k)!}$ が、カテゴリが増えて $\dfrac{n!}{x_1!\cdots x_m!}$ になっただけ、と見れば自然な拡張です。

各成分の周辺分布は二項分布

多項分布の便利な性質は、1つのカテゴリだけに注目すると、それは二項分布になることです。たとえばカテゴリ $1$ について「カテゴリ $1$ か、それ以外か」と2択でとらえ直せば、これは成功確率 $p_1$ の二項試行を $n$ 回くり返した話に戻ります。

POINT

多項分布のカテゴリ $j$ の回数 $X_j$ の周辺分布は $$X_j \sim \mathrm{Bin}(n,\,p_j), \qquad E[X_j]=np_j,\quad V[X_j]=np_j(1-p_j)$$ 「他のカテゴリをひとまとめに『それ以外』へ束ねる」と二項分布に戻る、と覚えましょう。だから多項分布の期待値・分散は、二項分布の公式をそのまま各成分に当てはめるだけです。なお異なるカテゴリ間には負の相関（$\mathrm{Cov}[X_i,X_j]=-np_ip_j$）があります。合計が $n$ で固定されているので、一方が増えれば他方は減る、という直感どおりです。

EXAMPLE 2（多項分布の pmf）

ある商品のレビューが「高評価 $20\%$・中評価 $30\%$・低評価 $50\%$」の割合で付くとします（$p=(0.2,\,0.3,\,0.5)$）。無作為に $10$ 件のレビューを見たとき、ちょうど「高 $2$ 件・中 $3$ 件・低 $5$ 件」になる確率は？

$$P = \frac{10!}{2!\,3!\,5!}\,(0.2)^2(0.3)^3(0.5)^5 = 2520 \times 0.04 \times 0.027 \times 0.03125 \approx 0.0850$$

約 $8.5\%$。また、高評価の件数 $X_1$ だけに注目すると $X_1\sim\mathrm{Bin}(10,\,0.2)$ で、$P(X_1=2)\approx0.302$、$E[X_1]=10\times0.2=2$ 件。周辺が二項分布になることが効いています。

3. 負の二項分布 ─ 「成功回数」ではなく「試行回数」を数える

最後は負の二項分布（negative binomial distribution）。これは二項分布の視点を入れ替えた分布です。二項分布は「試行回数 $n$ を固定して、成功回数 $X$ を数える」ものでした。

負の二項分布は逆に、「成功回数 $r$ を固定して、それに到達するまでの回数を数える」分布です。何を固定し、何を数えるかが入れ替わっている、と押さえてください。

数え方には2つの流儀があり、混同しやすいので最初に区別します。$r$ 回目の成功が出るまでに要した「総試行回数 $X$」を数えるか、その間に出た「失敗回数 $Y$」を数えるか。両者は $X=Y+r$ の関係で結ばれているだけです。

FORMULA

成功確率を $p$ とする。
(A) 失敗回数 $Y$ で数える流儀（$Y=0,1,2,\dots$）： $$P(Y=y) = \binom{y+r-1}{y}\,p^{r}(1-p)^{y}$$ (B) 総試行回数 $X$ で数える流儀（$X=r,r+1,\dots$）： $$P(X=x) = \binom{x-1}{r-1}\,p^{r}(1-p)^{x-r}$$

なぜこの式になるのか

流儀 (B) で考えます。$x$ 回目でちょうど $r$ 回目の成功が出るには、(i) $x$ 回目は必ず成功、(ii) それより前の $x-1$ 回のうち、ちょうど $r-1$ 回が成功している、の両方が必要です。

(ii) の並べ方は $\binom{x-1}{r-1}$ 通り。成功 $r$ 回・失敗 $x-r$ 回の確率は独立性から $p^{r}(1-p)^{x-r}$。掛け合わせると上の式になります。

「最後の1回は成功で固定し、残りを組合せで数える」のがコツです。$r=1$ とすると幾何分布（2-8）に一致します。負の二項分布は幾何分布の一般化なのです。

期待値と分散

FORMULA

失敗回数 $Y$ で数える流儀： $$E[Y] = \frac{r(1-p)}{p}, \qquad V[Y] = \frac{r(1-p)}{p^{2}}$$ 総試行回数 $X=Y+r$ で数える流儀： $$E[X] = \frac{r}{p}, \qquad V[X] = \frac{r(1-p)}{p^{2}}$$

期待値 $E[X]=\dfrac{r}{p}$ は直感的です。1回の成功に平均 $\dfrac{1}{p}$ 回かかる（幾何分布の期待値）のだから、$r$ 回ぶんで $\dfrac{r}{p}$。

分散は両流儀で同じ（定数 $r$ を足してもばらつきは変わらないため）です。なお負の二項分布は、独立な $r$ 個の幾何分布の和として導くこともできます──ここでも「和に分解」の発想（2-7）が効きます。

EXAMPLE 3（負の二項分布）

成功確率 $p=0.4$ の試行をくり返し、$3$ 回目の成功（$r=3$）が出るまで続けます。

「$3$ 回成功するまでに失敗が $4$ 回出る」確率（流儀A、$y=4$）： $$P(Y=4)=\binom{4+3-1}{4}(0.4)^3(0.6)^4 = \binom{6}{4}\times0.064\times0.1296 \approx 0.124$$
失敗回数の期待値：$E[Y]=\dfrac{r(1-p)}{p}=\dfrac{3\times0.6}{0.4}=\mathbf{4.5}$ 回
分散：$V[Y]=\dfrac{r(1-p)}{p^{2}}=\dfrac{3\times0.6}{0.16}=\mathbf{11.25}$
総試行回数の期待値：$E[X]=\dfrac{r}{p}=\dfrac{3}{0.4}=\mathbf{7.5}$ 回

「平均すると $7.5$ 回くらい試せば $3$ 回成功できる」と読めます。成功 $1$ 回あたり平均 $1/0.4=2.5$ 回かかる勘定で、$3$ 回ぶんが $7.5$ 回。きれいに整合します。

さえ

負の二項分布は「総試行回数で数えるか、失敗回数で数えるか」の2流儀があるのが混乱ポイント！　期待値が $\dfrac{r}{p}$ なのか $\dfrac{r(1-p)}{p}$ なのか、問題文が「何回目で成功」を聞いているか「失敗が何回」を聞いているかで決まるよ。式を覚えるより、「最後の1回は成功で固定」って導出の絵を思い出すのが安全だよ！

4. 二項分布との関係を地図にする

3つの分布は、どれも二項分布の「どこか1か所」を変えたものでした。表に整理すると関係が一目でわかります。

分布	二項分布からの変更点	数えるもの	期待値
二項分布 $\mathrm{Bin}(n,p)$	（基準）復元・2択・試行回数固定	成功回数	$np$
超幾何分布	復元 → 非復元	当たりの個数	$n\dfrac{K}{N}$
多項分布	2択 → 多カテゴリ	各カテゴリの回数	$np_j$（各成分）
負の二項分布	試行回数固定 → 成功回数固定	試行回数（または失敗回数）	$\dfrac{r}{p}$（試行回数）

二項分布を中心に、変更点ひとつで3つの分布へ枝分かれする様子

次回発展2 確率分布間の近似的関係では、今日ちらっと触れた「超幾何 → 二項」のような分布どうしのつながりを地図にします。

二項 → ポアソン、二項 → 正規、$t$ → 正規…。バラバラに見えた分布たちが、実は条件しだいで互いに姿を変える親戚同士だったとわかる回です。

さえ

3つの新しい分布、おつかれさま！　ぜんぶ二項分布を起点に「1か所だけ変えた」と思えば、もう怖くないよね。発展トラックは合格に必須じゃないけど、ここまで来られたあなたなら絶対わかるレベル。次は分布どうしのつながりを地図にするよ。バラバラだった知識が1枚につながる、気持ちいい回だから楽しみにしててね！

HANDWRITING — 紙に書いてインプットしよう！

このページに出てきた重要キーワードです。ページを閉じる前に、声に出しながら紙に手で書いてみてください。手を動かすと、読むだけの何倍も速く記憶に定着します。

超幾何分布（hypergeometric distribution）
復元抽出
非復元抽出
有限母集団修正（finite population correction）
多項分布（multinomial distribution）
負の二項分布（negative binomial distribution）
総試行回数
失敗回数