片側・両側検定と2種類の誤り
4-1 で検定の骨組み($H_0$・$H_1$・$\alpha$・p値)をつかみました。今回はその精度を上げる2つのテーマ。ひとつは棄却域をどちら側に置くか──片側検定と両側検定。もうひとつは、検定が原理的に避けられない2種類の誤りです。
検定は「正しい・間違い」をズバリ言い当てる魔法ではありません。本当は $H_0$ が正しいのに棄却してしまう第1種の誤り($\alpha$)と、本当は $H_1$ が正しいのに見逃す第2種の誤り($\beta$)。この2つはシーソーのようにトレードオフの関係にあります。見逃さない力検出力 $1-\beta$まで含めて、$H_0$ と $H_1$ の分布を重ねた1枚の図で一気に見通しましょう。
検定にも「やらかし」が2種類あるんだ。無実の人を有罪にしちゃう第1種の誤り $\alpha$ と、真犯人を見逃しちゃう第2種の誤り $\beta$。しかもこの2つ、片方を減らすともう片方が増えるシーソー関係! 今日はこの2人の関係を、図でばっちり塗り分けて理解しちゃおう!
1. 片側検定と両側検定
まず棄却域の置き方から。検定統計量が「ここに入ったら $H_0$ を棄却する」と決めた範囲が棄却域、入らない中央部分が採択域(正しくは「$H_0$ を棄却できない領域」)でした。この棄却域を両端に置くか、片側だけに置くかは、対立仮説 $H_1$ の形で決まります。
両側検定 ── $H_1$ が「$\neq$」のとき
対立仮説が「等しくない($\neq$)」のときは両側検定です。たとえば母平均の検定なら
- $H_0:\ \mu = \mu_0$
- $H_1:\ \mu \neq \mu_0$(大きいかもしれないし、小さいかもしれない)
ここで $\mu_0$ は帰無値(比べる基準の値)です。「ズレているか」を左右どちらの向きでも拾いたいので、棄却域を両端に取ります。有意水準 $\alpha=0.05$ なら、左右に $\tfrac{\alpha}{2}=0.025$ ずつ振り分けます。標準正規分布での境界は $\pm 1.96$ です。
片側検定 ── $H_1$ が「$>$」「$<$」のとき
対立仮説が「より大きい($>$)」または「より小さい($<$)」と向きを持つときは片側検定です。新薬が従来薬より効くかを調べるなら
- $H_0:\ \mu = \mu_0$
- $H_1:\ \mu > \mu_0$(従来より大きい、という向きだけに関心)
この場合、棄却域は右側だけ。$\alpha=0.05$ をまるごと片側に割り当てるので、境界は $1.96$ より内側の $1.645$ になります(片側に5%が入る点)。
片側か両側かは「$H_1$ が向きを持つか」だけで決まります。「違う・等しくない」なら両側、「大きい・増えた・優れている」「小さい・減った・劣っている」など向きがあるなら片側。なお片側のほうが境界値が手前にある($1.645 < 1.96$)ぶん、同じ $\alpha$ でも棄却しやすい(検出力が高い)。ただし向きを取り違えると逆側の変化を一切拾えないので、$H_1$ はデータを見る前に決めるのが大原則です。
2. 真実 × 判断の4通り
ここから誤りの話に入ります。検定の結論は「$H_0$ を棄却する/しない」の2通り。一方、神様だけが知る真実も「$H_0$ が正しい/$H_1$ が正しい」の2通り。掛け合わせると4つのマスができ、そのうち2つが「正解」、2つが「誤り」です。
| 真実:$H_0$ が正しい | 真実:$H_1$ が正しい | |
|---|---|---|
| 判断:$H_0$ を棄却 | 第1種の誤り(確率 $\alpha$) | 正しい判断(確率 $1-\beta$=検出力) |
| 判断:$H_0$ を棄却しない | 正しい判断(確率 $1-\alpha$) | 第2種の誤り(確率 $\beta$) |
対角線(左下と右上)が正解、逆対角線(左上と右下)が2種類の誤りです。裁判にたとえると、$H_0$ は「被告は無罪」という前提。無実なのに有罪にするのが第1種の誤り、真犯人を取り逃がすのが第2種の誤り、というわけです。
第1種の誤り(あわてんぼうの誤り)
第1種の誤り(type I error)は、本当は $H_0$ が正しいのに、$H_0$ を棄却してしまう誤りです。その確率はちょうど有意水準 $\alpha$ に等しくなります。「ないものを、ある」と早とちりするので「あわてんぼうの誤り」とも呼ばれます。$\alpha$ を自分で決めるということは、この誤りを犯す確率を自分でコントロールしているということなんです。
第2種の誤り(ぼんやりの誤り)
第2種の誤り(type II error)は、本当は $H_1$ が正しい(差がある)のに、$H_0$ を棄却できず見逃してしまう誤りです。その確率を $\beta$(ベータ)で表します。「あるものを、ない」と見落とすので「ぼんやりの誤り」とも。$\alpha$ と違って $\beta$ は自分で直接は決められず、後で見るように $H_1$ の状況しだいで変わります。
3. 検出力 $1-\beta$ ── 差を見抜く力
第2種の誤り $\beta$ の裏返しが検出力です。
$$\text{検出力} = 1 - \beta = P(\,H_0 \text{ を棄却} \mid H_1 \text{ が正しい}\,)$$ 検出力(けんしゅつりょく、power)とは、「本当に差があるとき、それをちゃんと差ありと見抜ける確率」です。$\beta$ が見逃す確率なら、$1-\beta$ は見逃さない確率。検定の「目の良さ」を表します。
検出力は高いほど良い指標です。実務では「検出力80%($1-\beta=0.8$)を確保できる標本サイズを決める」といった使い方をします。$\alpha$ で「冤罪の確率」を抑えつつ、$1-\beta$ で「見逃さない力」を確保する──この両にらみが、良い検定設計のコツです。
4. $\alpha$ と $\beta$ を図で塗り分ける
ここがこのページの山場です。2種類の誤りは、$H_0$ が正しいときの分布と $H_1$ が正しいときの分布を重ねて描くと、塗り分けで一目瞭然になります。
左の山が「$H_0$ が正しい($\mu=\mu_0$)ときの統計量の分布」、右の山が「$H_1$ が正しい($\mu=\mu_1$)ときの分布」。右側に引いた赤い縦線が棄却の境界です。$H_0$ の山のうち境界より右の部分の面積が $\alpha$(本当は $H_0$ なのに棄却してしまう確率)、$H_1$ の山のうち境界より左の部分の面積が $\beta$(本当は $H_1$ なのに棄却できず見逃す確率)。そして $H_1$ の山の境界より右、つまり残りが検出力 $1-\beta$ です。
左の山=$H_0$ が正しいときの分布、右の山=$H_1$ が正しいときの分布。境界より右の $H_0$ の面積が $\alpha$(赤)、境界より左の $H_1$ の面積が $\beta$(オレンジ)、残りの $H_1$ が検出力 $1-\beta$(緑)
この図がすべてを語ります。境界線を1本動かすと、$\alpha$ と $\beta$ が同時に逆向きに変わるのが見て取れますね。これが次のトレードオフの正体です。
5. $\alpha$ と $\beta$ のトレードオフ
上の図で、棄却の境界線を右へずらしてみましょう。$H_0$ の山で境界より右の面積($\alpha$)は小さくなります。冤罪は減って一安心。ところが同時に、$H_1$ の山で境界より左の面積($\beta$)は大きくなってしまいます。見逃しが増えるのです。
逆に境界を左へずらせば、$\beta$ は減りますが $\alpha$ が増えます。どちらか一方だけを、$n$ を変えずにタダで減らすことはできない──これが第1種・第2種の誤りのトレードオフです。
$\alpha$ を小さくする($H_0$ を棄却しにくくする)と、$\beta$ は大きくなる(見逃しが増える)。シーソーの関係です。だからこそ、まず社会的に重い誤り(ふつうは冤罪=第1種)の確率 $\alpha$ を $0.05$ などに固定し、その制約のもとで $\beta$ をできるだけ小さく(検出力を高く)する、という順番で設計します。
数値で確かめる
母平均の片側検定 $H_0:\mu=100$、$H_1:\mu>100$ を考えます。母標準偏差 $\sigma=15$、標本サイズ $n=25$ とすると、標本平均の標準偏差(標準誤差)は $\dfrac{\sigma}{\sqrt{n}}=\dfrac{15}{5}=3$ です。真の値が $\mu_1=108$ だったとして、$\alpha$ を変えると $\beta$ はどう動くでしょうか。
$\alpha=0.05$ のとき、境界の標本平均は $100+1.645\times 3 \approx 104.93$。真の値 $\mu_1=108$ から見ると見逃し確率は $\beta\approx 0.153$、つまり検出力 $1-\beta\approx 0.847$。
ここで冤罪を嫌って $\alpha=0.01$ に厳しくすると、境界は $100+2.326\times 3 \approx 106.98$ まで右に動きます。すると $\beta\approx 0.367$ に増えてしまい、検出力は $1-\beta\approx 0.633$ に低下。$\alpha$ を $0.05\to0.01$ と下げた代償に、見逃しが約15%から約37%へ跳ね上がった、というわけです。
「$\alpha$ を厳しくすれば安全」って思いがちだけど、その裏で $\beta$ がこっそり増えてるの! さっきの例だと $\alpha$ を $0.05\to0.01$ にしたら、見逃しが $15\% \to 37\%$ に倍以上! 「冤罪を恐れすぎて真犯人を逃す」みたいな話だね。バランスが大事なんだ。
6. 標本サイズ $n$ と効果の大きさ
トレードオフと聞くと八方ふさがりに見えますが、抜け道があります。標本サイズ $n$ を増やすことです。$n$ を増やすと標準誤差 $\dfrac{\sigma}{\sqrt{n}}$ が小さくなり、2つの山がどちらも細くスリムになる。結果、山どうしの重なりが減って、$\alpha$ を据え置いたまま $\beta$ だけを下げられるのです。これがトレードオフの唯一の正攻法の崩し方です。
EXAMPLE 1 と同じ設定($\mu_0=100$、$\mu_1=108$、$\sigma=15$、$\alpha=0.05$ の片側)で、$n$ を $25$ から $100$ に増やします。標準誤差は $\dfrac{15}{\sqrt{100}}=1.5$ と半分に。境界の標本平均は $100+1.645\times 1.5 \approx 102.47$ まで左に寄り、$\mu_1=108$ はもう余裕で棄却域。検出力は $1-\beta\approx 0.9999$、ほぼ確実に差を見抜けます。$\alpha$ は $0.05$ のままで、$\beta$ だけが激減しました。
もうひとつ検出力を左右するのが効果の大きさ、つまり $\mu_0$ と真の値 $\mu_1$ の離れ具合です。2つの山の中心が大きく離れているほど重なりは小さく、見逃しにくい(検出力が高い)。逆に、ごくわずかな差($\mu_1$ が $\mu_0$ のすぐ隣)は山がべったり重なるので、見抜くには大きな $n$ が必要になります。
検出力 $1-\beta$ を上げる方法は3つ。
① $\alpha$ を大きくする(ただし冤罪が増えるのでふつうは固定)
② 標本サイズ $n$ を増やす(山が細くなり、$\alpha$ そのままで $\beta$ が下がる王道)
③ 効果が大きい(山の中心が離れている)ほど見抜きやすい
実務で自由に動かせるのは主に $n$。「検出力を確保するために必要な $n$ を見積もる」のが標本サイズ設計です。
まとめ
第4章 4-2、ポイントを整理します。
- 両側検定:$H_1$ が「$\neq$」。棄却域を両端に、$\alpha=0.05$ なら左右 $0.025$ ずつ(境界 $\pm1.96$)
- 片側検定:$H_1$ が「$>$」「$<$」。棄却域は片側だけ($\alpha=0.05$ の境界 $1.645$)。$H_1$ の向きは事前に決める
- 第1種の誤り:本当は $H_0$ なのに棄却。確率は $\alpha$(自分で決められる)
- 第2種の誤り:本当は $H_1$ なのに見逃す。確率は $\beta$
- 検出力:$1-\beta$。差があるときに見抜ける確率。高いほど良い
- トレードオフ:$n$ を固定したまま $\alpha$ を下げると $\beta$ が上がる(シーソー)
- 崩し方:$n$ を増やせば $\alpha$ そのままで $\beta$ を下げられる。効果が大きいほど検出力も高い
次回 4-3 検定統計量の構成 では、ここまで「$z$ 値」とサラッと使ってきた検定統計量がなぜその形なのか──「どんな量を作れば $H_0$ のもとで分布がわかり、判断に使えるのか」を、導出から組み立てます。検定の心臓部です。
2種類の誤り、2×2の表と重ねた山の図でばっちりだね! 合言葉は「$\alpha$ と $\beta$ はシーソー、$n$ で両方ハッピー」。$\alpha$ は自分で決める、$\beta$ は状況しだい、$1-\beta$ が検出力──このセットを忘れずに。次はいよいよ検定統計量の中身だよ!