2標本:母平均の差の検定 — z・プールt・Welch・対応あり
前回まで(4-4・4-5)は1つの集団を相手にしました。今回は2つの集団を比べる検定です。「新薬と旧薬で効果に差はあるか」「A工場とB工場で平均が違うか」──こうした問いに、母平均の差 $\mu_1-\mu_2$ の検定でイエス/ノーを出します。
母平均の差の検定は、状況で4つに枝分かれします。分散既知の $z$ 検定、等分散のプール $t$ 検定(自由度 $n_1+n_2-2$)、不等分散のWelchの $t$ 検定、そして対応のある場合(差 $D$ の1標本 $t$ 検定)。どれを使うかの判断フローを表で整理し、代表例を数値計算します。区間推定版(3-10)と骨格は同じです。
2標本の検定は公式が4種類あって「うっ」となりがち。でも安心して! どれも「差 $\div$ 標準誤差」で検定統計量を作る形は同じだよ。違うのは標準誤差の中身と、$z$ か $t$ かだけ。最初に判断フローで「自分はどのケース?」を見分けるのがコツ。一緒に整理していこう!
1. まず使い分けの判断フロー
母平均の差の検定は、すべて点推定値 $\bar{X}_1-\bar{X}_2$ を出発点にします。帰無仮説は「差はない」つまり $H_0:\mu_1-\mu_2=0$。検定統計量は「(差の推定値)$-$(帰無の差 $0$)を、その標準誤差で割る」という共通の形です。違うのは標準誤差の中身と使う分布だけ。まず全体像を表で見ましょう。
| 状況 | 検定統計量 | 使う分布 |
|---|---|---|
| 母分散 $\sigma_1^2,\sigma_2^2$ が既知 | $Z=\dfrac{\bar{X}_1-\bar{X}_2}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}}$ | 標準正規 $z$ |
| 分散未知・等分散 $\sigma_1^2=\sigma_2^2$ | $t=\dfrac{\bar{X}_1-\bar{X}_2}{s_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}$ | $t$(自由度 $n_1+n_2-2$) |
| 分散未知・不等分散(Welch) | $t=\dfrac{\bar{X}_1-\bar{X}_2}{\sqrt{\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}}}$ | $t$(自由度は近似式) |
| 対応のある2標本 | 差 $D$ の1標本 $t$ に帰着(§5) | $t$(自由度 $n-1$) |
選び方の流れは──(1) まず「2標本はペアで結びつくか?」を見る。結びつくなら対応あり(§5へ)。(2) 対応なしなら「母分散は既知か?」。既知なら $z$ 検定。(3) 未知なら「2群の分散は等しいとみなせるか?」。等しければプール $t$、等しくなければWelch。この順で判定すれば迷いません。
2. 分散既知:z検定
$\sigma_1^2,\sigma_2^2$ が分かっている理想的な場合です。2つの標本平均が独立なら、差 $\bar{X}_1-\bar{X}_2$ の分散は「それぞれの分散の和」になります(2-5c の和の分散の性質)。
差の標準誤差は $\sqrt{\dfrac{\sigma_1^2}{n_1}+\dfrac{\sigma_2^2}{n_2}}$。帰無仮説 $H_0:\mu_1-\mu_2=0$ のもとで $$Z = \frac{\bar{X}_1-\bar{X}_2}{\sqrt{\dfrac{\sigma_1^2}{n_1}+\dfrac{\sigma_2^2}{n_2}}}\ \sim\ N(0,1)$$ 標準正規の点 $z_{\alpha/2}$(両側 $5\%$ なら $1.96$)と比べて判定します。
3. 等分散:プールしたt検定
母分散は未知だが「2群のばらつきは等しい」とみなせるとき。2群のデータを合わせて共通の分散を推定すれば、情報を無駄なく使えます。この合算した分散推定量をプールした分散 $s_p^2$ といい、各群の不偏分散 $s_1^2,s_2^2$ を自由度で重み付けして平均します。
プールした分散 $$s_p^2 = \frac{(n_1-1)s_1^2 + (n_2-1)s_2^2}{n_1+n_2-2}$$ を使って、帰無仮説 $H_0:\mu_1-\mu_2=0$ のもとで $$t = \frac{\bar{X}_1-\bar{X}_2}{s_p\sqrt{\dfrac{1}{n_1}+\dfrac{1}{n_2}}}\ \sim\ t_{\,n_1+n_2-2}$$ 自由度は $n_1+n_2-2$(各群で1つずつ平均を推定したぶん $2$ 減る)です。
$s_p^2$ は $s_1^2$ と $s_2^2$ の自由度 $(n_1-1),(n_2-1)$ を重みにした加重平均です。データ数が多い群の分散ほど信頼できるので、重く扱うわけです。「等分散とみなしてよいか」自体は、次回(4-7)の $F$ 検定で確かめられます。
4. 不等分散:Welchのt検定
2群のばらつきが明らかに違いそうなときは、無理に等分散を仮定せず、各群の分散をそのまま使います。これがWelch(ウェルチ)の $t$ 検定。標準誤差は $z$ 検定の $\sigma$ を $s$ に置き換えた素直な形ですが、自由度が整数にならず、近似式(Welch–Satterthwaite)で求めます。
帰無仮説 $H_0:\mu_1-\mu_2=0$ のもとで $$t = \frac{\bar{X}_1-\bar{X}_2}{\sqrt{\dfrac{s_1^2}{n_1}+\dfrac{s_2^2}{n_2}}}$$ 近似自由度は $$\nu = \frac{\left(\dfrac{s_1^2}{n_1}+\dfrac{s_2^2}{n_2}\right)^{2}}{\dfrac{1}{n_1-1}\left(\dfrac{s_1^2}{n_1}\right)^{2}+\dfrac{1}{n_2-1}\left(\dfrac{s_2^2}{n_2}\right)^{2}}$$ ($\nu$ は通常は小数になるので、切り捨てて $t$ 分布表を引くか、そのまま補間します。)
プール $t$ とWelch $t$ で、分子($\bar{X}_1-\bar{X}_2$)はまったく同じ。違うのは標準誤差の作り方と自由度だけです。等分散が怪しいときに無理にプールすると検定が不正確になるので、迷ったらWelchのほうが安全だと覚えておきましょう。
5. 対応のある2標本:差Dの1標本t検定
ここが2標本でいちばん混乱しやすいポイントです。対応のある(対)データとは、同じ対象を2回測ったような、ペアで結びついたデータのこと。「同じ人の服用前 $X$ と服用後 $Y$」「同じ畑の去年 $X$ と今年 $Y$」などです。ペアどうしは独立ではないので、§2〜§4の独立2標本の式は使えません。
対応があるときは、ペアごとに差 $D_i = X_i - Y_i$ を取り、1つの変数として扱うのがコツ。すると「差 $D$ の母平均 $\mu_D$ が $0$ かを検定する」という、ただの1標本 $t$ 検定(4-4)に早変わりします。2標本の難しさが消えるのです。
差 $D_i=X_i-Y_i$ の標本平均を $\bar{D}$、不偏分散を $s_D^2$、ペア数を $n$ とすると、帰無仮説 $H_0:\mu_D=0$ のもとで $$t = \frac{\bar{D}-0}{s_D/\sqrt{n}}\ \sim\ t_{\,n-1}$$ 自由度は $n-1$(差のデータは $n$ 個)です。
「同じ人を前後で測った?」が合言葉! Yesなら対応あり → 差 $D$ を取って1標本 $t$ に変身。Noなら対応なし → §2〜§4の独立2標本。ここを間違えると公式ごと変わっちゃう。対応があるのに独立として計算すると、ペア内の連動を無視しちゃって、本当はある差を見逃しやすくなるよ!
6. 数値例
代表的なケースを実際に計算します。すべて両側・有意水準 $\alpha=0.05$ で判定します。
2つの製法で作った部品の強度を比べます。製法1は $n_1=50$ 個で平均 $\bar{X}_1=518$、製法2は $n_2=60$ 個で平均 $\bar{X}_2=502$。母標準偏差は過去の蓄積から既知で $\sigma_1=40$、$\sigma_2=45$。仮説は $H_0:\mu_1-\mu_2=0$、$H_1:\mu_1-\mu_2\ne 0$。
標準誤差は $$\sqrt{\frac{40^2}{50}+\frac{45^2}{60}} = \sqrt{32.0+33.75} = \sqrt{65.75}\approx 8.109$$ 検定統計量は $$Z = \frac{518-502}{8.109} = \frac{16}{8.109}\approx 1.973$$ 両側 $5\%$ の棄却点 $z_{0.025}=1.96$。$|Z|=1.973>1.96$ なのでぎりぎり棄却し、「2製法の強度に差がある」と判断します($p$ 値はおよそ $0.048$)。
A組 $n_1=10$ 人で平均 $\bar{X}_1=72$、不偏分散 $s_1^2=64$。B組 $n_2=12$ 人で平均 $\bar{X}_2=66$、不偏分散 $s_2^2=100$。等分散を仮定して $H_0:\mu_1-\mu_2=0$ を検定します。
プールした分散は $$s_p^2 = \frac{(10-1)\times 64 + (12-1)\times 100}{10+12-2} = \frac{576+1100}{20} = \frac{1676}{20} = 83.8,\quad s_p\approx 9.154$$ 標準誤差は $$s_p\sqrt{\frac{1}{10}+\frac{1}{12}} = 9.154\times\sqrt{0.1833}\approx 9.154\times 0.4282 \approx 3.920$$ 検定統計量は $$t = \frac{72-66}{3.920} = \frac{6}{3.920}\approx 1.531$$ 自由度 $n_1+n_2-2=20$ で $t_{0.025}(20)\approx 2.086$。$|t|=1.531<2.086$ なので棄却できません。「2組の平均に差があるとは言えない」($p$ 値はおよそ $0.14$)。
$8$ 人の被験者について、トレーニング前後の記録の差 $D=\text{後}-\text{前}$ を測ったところ $$D:\ 3,\ 5,\ -1,\ 4,\ 2,\ 6,\ 0,\ 3$$ 「トレーニングで記録が変わったか」を $H_0:\mu_D=0$ で検定します。
平均は $\bar{D}=\dfrac{22}{8}=2.75$、不偏分散から $s_D\approx 2.376$。ペア数 $n=8$、自由度 $7$。標準誤差は $\dfrac{s_D}{\sqrt{n}}=\dfrac{2.376}{\sqrt{8}}\approx 0.840$。 $$t = \frac{2.75-0}{0.840}\approx 3.274$$ $t_{0.025}(7)\approx 2.365$。$|t|=3.274>2.365$ なので棄却し、「トレーニングで記録が向上したと言える」と判断します($p$ 値はおよそ $0.014$)。同じデータを誤って独立2標本として扱うと標準誤差が大きくなり、この明確な差を見逃しかねません。対応はちゃんと活かすのが大切です。
7. 結論と使いどころ・まとめ
公式は4つありますが、骨格はすべて「(差の推定値 $-\,0$)$\div$ 標準誤差」で共通です。違うのは、(1) 標準誤差の中身、(2) $z$ か $t$ か、(3) 自由度、の3点だけ。判断フローで状況を見極めれば、あとは代入の流れ作業です。
判定は検定統計量を棄却点と比べるだけ。両側なら $|Z|>z_{\alpha/2}$、$|t|>t_{\alpha/2}$ で棄却します。これは区間推定(3-10)で「区間が $0$ を含むか」を見るのと表裏一体──含まない=棄却、含む=棄却できない、と一致します。
第4章 4-6、ポイントを整理します。
- 分散既知:$Z=\dfrac{\bar{X}_1-\bar{X}_2}{\sqrt{\sigma_1^2/n_1+\sigma_2^2/n_2}}\sim N(0,1)$
- 等分散:プール $s_p^2=\dfrac{(n_1-1)s_1^2+(n_2-1)s_2^2}{n_1+n_2-2}$、$t$ の自由度は $n_1+n_2-2$
- 不等分散(Welch):標準誤差 $\sqrt{s_1^2/n_1+s_2^2/n_2}$、自由度は近似式
- 対応あり:差 $D=X-Y$ を取り、$t=\dfrac{\bar{D}}{s_D/\sqrt{n}}$ の1標本 $t$ 検定(自由度 $n-1$)
- 判定の順:ペアか? → 分散既知か? → 等分散か? で4ケースを選ぶ
次回 4-7 2標本:母分散の比・母比率の差の検定 では、$F$ 検定でばらつきの差を、正規近似で比率の差を検定します。等分散かどうかの判定($F$ 検定)は、本ページのケース選びの根拠にもなります。
4種類の公式に圧倒されないで! 「差 $\div$ 標準誤差」の形はぜんぶ一緒、変わるのは中身だけ。最初に判断フローで「ペア? 分散既知? 等分散?」を見極めるのが一番のコツだよ。対応ありを独立扱いしないこと、これだけは忘れないでね。次はいよいよ分散と比率の2標本検定!