第4章 4-6 / 統計的仮説検定

2標本：母平均の差の検定 — z・プールt・Welch・対応あり

さえ

2標本の検定は公式が4種類あって「うっ」となりがち。でも安心して！　どれも「差 $\div$ 標準誤差」で検定統計量を作る形は同じだよ。違うのは標準誤差の中身と、$z$ か $t$ かだけ。最初に判断フローで「自分はどのケース？」を見分けるのがコツ。一緒に整理していこう！

1. まず使い分けの判断フロー

母平均の差の検定は、すべて点推定値 $\bar{X}_1-\bar{X}_2$ を出発点にします。帰無仮説は「差はない」つまり $H_0:\mu_1-\mu_2=0$。検定統計量は「（差の推定値）$-$（帰無の差 $0$）を、その標準誤差で割る」という共通の形です。

違うのは標準誤差の中身と使う分布だけ。まず全体像を表で見ましょう。

状況	検定統計量	使う分布
母分散 $\sigma_1^2,\sigma_2^2$ が既知	$Z=\dfrac{\bar{X}_1-\bar{X}_2}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}}$	標準正規 $z$
分散未知・等分散 $\sigma_1^2=\sigma_2^2$	$t=\dfrac{\bar{X}_1-\bar{X}_2}{s_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}$	$t$（自由度 $n_1+n_2-2$）
分散未知・不等分散（Welch）	$t=\dfrac{\bar{X}_1-\bar{X}_2}{\sqrt{\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}}}$	$t$（自由度は近似式）
対応のある2標本	差 $D$ の1標本 $t$ に帰着（§5）	$t$（自由度 $n-1$）

POINT

選び方の流れは──(1) まず「2標本はペアで結びつくか？」を見る。結びつくなら対応あり（§5へ）。(2) 対応なしなら「母分散は既知か？」。既知なら $z$ 検定。(3) 未知なら「2群の分散は等しいとみなせるか？」。等しければプール $t$、等しくなければWelch。この順で判定すれば迷いません。

2. 分散既知：z検定

$\sigma_1^2,\sigma_2^2$ が分かっている理想的な場合です。2つの標本平均が独立なら、差 $\bar{X}_1-\bar{X}_2$ の分散は「それぞれの分散の和」になります（2-5c の和の分散の性質）。

FORMULA

差の標準誤差は $\sqrt{\dfrac{\sigma_1^2}{n_1}+\dfrac{\sigma_2^2}{n_2}}$。帰無仮説 $H_0:\mu_1-\mu_2=0$ のもとで $$Z = \frac{\bar{X}_1-\bar{X}_2}{\sqrt{\dfrac{\sigma_1^2}{n_1}+\dfrac{\sigma_2^2}{n_2}}}\ \sim\ N(0,1)$$ 標準正規の点 $z_{\alpha/2}$（両側 $5\%$ なら $1.96$）と比べて判定します。

3. 等分散：プールしたt検定

母分散は未知だが「2群のばらつきは等しい」とみなせるとき。2群のデータを合わせて共通の分散を推定すれば、情報を無駄なく使えます。

この合算した分散推定量をプールした分散 $s_p^2$ といい、各群の不偏分散 $s_1^2,s_2^2$ を自由度で重み付けして平均します。

FORMULA

プールした分散 $$s_p^2 = \frac{(n_1-1)s_1^2 + (n_2-1)s_2^2}{n_1+n_2-2}$$ を使って、帰無仮説 $H_0:\mu_1-\mu_2=0$ のもとで $$t = \frac{\bar{X}_1-\bar{X}_2}{s_p\sqrt{\dfrac{1}{n_1}+\dfrac{1}{n_2}}}\ \sim\ t_{\,n_1+n_2-2}$$ 自由度は $n_1+n_2-2$（各群で1つずつ平均を推定したぶん $2$ 減る）です。

$s_p^2$ は $s_1^2$ と $s_2^2$ の自由度 $(n_1-1),(n_2-1)$ を重みにした加重平均です。データ数が多い群の分散ほど信頼できるので、重く扱うわけです。「等分散とみなしてよいか」自体は、次回（4-7）の $F$ 検定で確かめられます。

4. 不等分散：Welchのt検定

2群のばらつきが明らかに違いそうなときは、無理に等分散を仮定せず、各群の分散をそのまま使います。これがWelch（ウェルチ）の $t$ 検定。

標準誤差は $z$ 検定の $\sigma$ を $s$ に置き換えた素直な形ですが、自由度が整数にならず、近似式（Welch–Satterthwaite）で求めます。

FORMULA

帰無仮説 $H_0:\mu_1-\mu_2=0$ のもとで $$t = \frac{\bar{X}_1-\bar{X}_2}{\sqrt{\dfrac{s_1^2}{n_1}+\dfrac{s_2^2}{n_2}}}$$ 近似自由度は $$\nu = \frac{\left(\dfrac{s_1^2}{n_1}+\dfrac{s_2^2}{n_2}\right)^{2}}{\dfrac{1}{n_1-1}\left(\dfrac{s_1^2}{n_1}\right)^{2}+\dfrac{1}{n_2-1}\left(\dfrac{s_2^2}{n_2}\right)^{2}}$$ （$\nu$ は通常は小数になるので、切り捨てて $t$ 分布表を引くか、そのまま補間します。）

POINT

プール $t$ とWelch $t$ で、分子（$\bar{X}_1-\bar{X}_2$）はまったく同じ。違うのは標準誤差の作り方と自由度だけです。等分散が怪しいときに無理にプールすると検定が不正確になるので、迷ったらWelchのほうが安全だと覚えておきましょう。

5. 対応のある2標本：差Dの1標本t検定

ここが2標本でいちばん混乱しやすいポイントです。対応のある（対）データとは、同じ対象を2回測ったような、ペアで結びついたデータのこと。「同じ人の服用前 $X$ と服用後 $Y$」「同じ畑の去年 $X$ と今年 $Y$」などです。

ペアどうしは独立ではないので、§2〜§4の独立2標本の式は使えません。

POINT

対応があるときは、ペアごとに差 $D_i = X_i - Y_i$ を取り、1つの変数として扱うのがコツ。すると「差 $D$ の母平均 $\mu_D$ が $0$ かを検定する」という、ただの1標本 $t$ 検定（4-4）に早変わりします。2標本の難しさが消えるのです。

FORMULA

差 $D_i=X_i-Y_i$ の標本平均を $\bar{D}$、不偏分散を $s_D^2$、ペア数を $n$ とすると、帰無仮説 $H_0:\mu_D=0$ のもとで $$t = \frac{\bar{D}-0}{s_D/\sqrt{n}}\ \sim\ t_{\,n-1}$$ 自由度は $n-1$（差のデータは $n$ 個）です。

さえ

「同じ人を前後で測った？」が合言葉！　Yesなら対応あり → 差 $D$ を取って1標本 $t$ に変身。Noなら対応なし → §2〜§4の独立2標本。ここを間違えると公式ごと変わっちゃう。対応があるのに独立として計算すると、ペア内の連動を無視しちゃって、本当はある差を見逃しやすくなるよ！

6. 数値例

代表的なケースを実際に計算します。すべて両側・有意水準 $\alpha=0.05$ で判定します。

EXAMPLE 1（分散既知・$z$ 検定）

2つの製法で作った部品の強度を比べます。製法1は $n_1=50$ 個で平均 $\bar{X}_1=518$、製法2は $n_2=60$ 個で平均 $\bar{X}_2=502$。母標準偏差は過去の蓄積から既知で $\sigma_1=40$、$\sigma_2=45$。仮説は $H_0:\mu_1-\mu_2=0$、$H_1:\mu_1-\mu_2\ne 0$。

標準誤差は $$\sqrt{\frac{40^2}{50}+\frac{45^2}{60}} = \sqrt{32.0+33.75} = \sqrt{65.75}\approx 8.109$$ 検定統計量は $$Z = \frac{518-502}{8.109} = \frac{16}{8.109}\approx 1.973$$ 両側 $5\%$ の棄却点 $z_{0.025}=1.96$。$|Z|=1.973>1.96$ なのでぎりぎり棄却し、「2製法の強度に差がある」と判断します（$p$ 値はおよそ $0.048$）。

EXAMPLE 2（等分散・プール $t$ 検定）

A組 $n_1=10$ 人で平均 $\bar{X}_1=72$、不偏分散 $s_1^2=64$。B組 $n_2=12$ 人で平均 $\bar{X}_2=66$、不偏分散 $s_2^2=100$。等分散を仮定して $H_0:\mu_1-\mu_2=0$ を検定します。

プールした分散は $$s_p^2 = \frac{(10-1)\times 64 + (12-1)\times 100}{10+12-2} = \frac{576+1100}{20} = \frac{1676}{20} = 83.8,\quad s_p\approx 9.154$$ 標準誤差は $$s_p\sqrt{\frac{1}{10}+\frac{1}{12}} = 9.154\times\sqrt{0.1833}\approx 9.154\times 0.4282 \approx 3.920$$ 検定統計量は $$t = \frac{72-66}{3.920} = \frac{6}{3.920}\approx 1.531$$ 自由度 $n_1+n_2-2=20$ で $t_{0.025}(20)\approx 2.086$。$|t|=1.531<2.086$ なので棄却できません。「2組の平均に差があるとは言えない」（$p$ 値はおよそ $0.14$）。

EXAMPLE 3（対応のある $t$ 検定）

$8$ 人の被験者について、トレーニング前後の記録の差 $D=\text{後}-\text{前}$ を測ったところ $$D:\ 3,\ 5,\ -1,\ 4,\ 2,\ 6,\ 0,\ 3$$ 「トレーニングで記録が変わったか」を $H_0:\mu_D=0$ で検定します。

平均は $\bar{D}=\dfrac{22}{8}=2.75$、不偏分散から $s_D\approx 2.376$。ペア数 $n=8$、自由度 $7$。標準誤差は $\dfrac{s_D}{\sqrt{n}}=\dfrac{2.376}{\sqrt{8}}\approx 0.840$。 $$t = \frac{2.75-0}{0.840}\approx 3.274$$ $t_{0.025}(7)\approx 2.365$。$|t|=3.274>2.365$ なので棄却し、「トレーニングで記録が向上したと言える」と判断します（$p$ 値はおよそ $0.014$）。同じデータを誤って独立2標本として扱うと標準誤差が大きくなり、この明確な差を見逃しかねません。対応はちゃんと活かすのが大切です。

7. 結論と使いどころ

公式は4つありますが、骨格はすべて「（差の推定値 $-\,0$）$\div$ 標準誤差」で共通です。違うのは、(1) 標準誤差の中身、(2) $z$ か $t$ か、(3) 自由度、の3点だけ。判断フローで状況を見極めれば、あとは代入の流れ作業です。

POINT

判定は検定統計量を棄却点と比べるだけ。両側なら $|Z|>z_{\alpha/2}$、$|t|>t_{\alpha/2}$ で棄却します。これは区間推定（3-10）で「区間が $0$ を含むか」を見るのと表裏一体──含まない＝棄却、含む＝棄却できない、と一致します。

次回 4-7 2標本：母分散の比・母比率の差の検定では、$F$ 検定でばらつきの差を、正規近似で比率の差を検定します。等分散かどうかの判定（$F$ 検定）は、本ページのケース選びの根拠にもなります。

さえ

4種類の公式に圧倒されないで！　「差 $\div$ 標準誤差」の形はぜんぶ一緒、変わるのは中身だけ。最初に判断フローで「ペア？分散既知？等分散？」を見極めるのが一番のコツだよ。対応ありを独立扱いしないこと、これだけは忘れないでね。次はいよいよ分散と比率の2標本検定！

HANDWRITING — 紙に書いてインプットしよう！

このページに出てきた重要キーワードです。ページを閉じる前に、声に出しながら紙に手で書いてみてください。手を動かすと、読むだけの何倍も速く記憶に定着します。

判断フロー
母平均の差の検定
z検定
プールt検定
プールした分散
Welchのt検定
対応のある2標本
差D
1標本t検定