発展トラック / 発展4

ネイマン・ピアソンの基本定理

さえ

これまでは「与えられた検定の検出力はいくつ?」だったけど、今日は「最強の検定はどう作る?」! 主役は尤度比。「$H_1$ らしさ ÷ $H_0$ らしさ」が大きいデータから順に棄却していけば最強になる、というのがネイマン・ピアソンの基本定理だよ。検定理論のいちばん根っこの話なんだ。

1. 「最強の検定」とは何か

4-2 で見たように、検定は有意水準 $\alpha$(第1種の誤りの上限)を守るように作ります。ところが、$\alpha$ を守る検定は1つではありません。棄却域の取り方を変えれば、同じ $\alpha$ を保ちながらいくらでも別の検定が作れます。

たとえば「標本のいちばん最初の1個だけを見て決める」検定でも、棄却域をうまく取れば $\alpha=0.05$ を守れます。でもそれは明らかにもったいない。同じ $\alpha$ なら、本当に差があるときできるだけ見逃さない、つまり検出力 $1-\beta$ が最も高い検定を選びたい。これが最強力検定の発想です。

POINT

最強力検定(most powerful test)とは、有意水準を $\alpha$ 以下に保つあらゆる検定の中で、検出力が最大の検定のこと。言い換えると「第1種の誤りを $\alpha$ で抑えるという同じ土俵で、第2種の誤り $\beta$ を最小にする」検定です。問題は──そんな検定が本当に存在するのか、存在するならどう作ればよいのか。それに答えるのがネイマン・ピアソンの基本定理です。

まずは単純仮説どうしで考える

話を最もシンプルな設定に絞ります。帰無仮説も対立仮説も、パラメータの値を1点に決め打ちした単純仮説とします。

単純帰無仮説 $H_0:\ \theta=\theta_0$
単純対立仮説 $H_1:\ \theta=\theta_1$

どちらも「$\theta$ がこの1点」と言い切る形です(「$\mu>100$」のような範囲ではなく「$\mu=108$」のように1点)。範囲を持つ仮説は複合仮説と呼び、後で $\S5$ で軽く触れます。まずはこの単純 vs 単純の土俵で、最強の作り方を見つけましょう。

2. 尤度比という物差し

手がかりは尤度です。尤度 $L(x\mid\theta)$ とは「パラメータが $\theta$ だと仮定したとき、いま手にしているデータ $x$ がどれくらい出やすいか」を表す値でした。$\theta_0$ での尤度と $\theta_1$ での尤度、どちらのもとでデータがよりもっともらしいか──その比を取ります。

FORMULA

$$\Lambda = \frac{L(x \mid \theta_1)}{L(x \mid \theta_0)}$$ 尤度比(likelihood ratio) $\Lambda$ は「対立仮説 $\theta_1$ のもとでのデータのもっともらしさ」を「帰無仮説 $\theta_0$ のもとでのもっともらしさ」で割った量。$\Lambda$ が大きいほど、観測データは $H_0$ より $H_1$ を支持しています。

直感はとても自然です。$\Lambda>1$ なら「このデータは $\theta_0$ より $\theta_1$ のほうが起きやすい」、つまり $H_1$ びいきのデータ。$\Lambda<1$ ならその逆。だったら、$\Lambda$ が大きいデータから順に「$H_0$ を棄却($H_1$ を採用)」と判定していくのが筋がよさそうです。そこで尤度比検定を次のように定めます。

FORMULA

尤度比検定：ある閾値 $k\,(>0)$ を定めておき、 $$\Lambda = \frac{L(x \mid \theta_1)}{L(x \mid \theta_0)} \ge k \quad \text{なら } H_0 \text{ を棄却する}$$ 閾値 $k$ は、第1種の誤りがちょうど $\alpha$ になるように選びます($P(\Lambda\ge k\mid\theta_0)=\alpha$)。

3. ネイマン・ピアソンの基本定理

ここが本ページの核心です。いま定めた尤度比検定が、なんと最強だ、というのが定理の主張です。

POINT

ネイマン・ピアソンの基本定理(補題)
単純帰無 $H_0:\theta=\theta_0$ 対単純対立 $H_1:\theta=\theta_1$ の検定を考える。閾値 $k$ を $P(\Lambda\ge k\mid\theta_0)=\alpha$ となるように選んだ尤度比検定(=$\Lambda\ge k$ で棄却)は、有意水準 $\alpha$ を守るあらゆる検定の中で検出力が最大である。すなわち最強力検定になる。

言い換えると、「$\Lambda$ の大きいデータから順に棄却域に詰めていく」という素朴なルールが、$\alpha$ という予算の枠内で検出力を最大化する最適な詰め方になっている、ということです。なぜそう言えるのか、厳密な証明の代わりに直感のスケッチを見ましょう。

なぜ最強なのか（直感的スケッチ）

棄却域作りを「予算配分」だと思ってください。第1種の誤りの予算は $\alpha$ で固定。この予算を使って、どのデータ点を棄却域に入れれば検出力(=$H_1$ のもとで棄却域に入る確率)が最大になるか、という問題です。

DERIVATION

各データ点 $x$ を棄却域に1単位入れるときの「コスト」と「リターン」を考えます。
・コスト(消費する $\alpha$ 予算) $=L(x\mid\theta_0)$
・リターン(増える検出力) $=L(x\mid\theta_1)$
コスト1あたりのリターンは $$\frac{\text{リターン}}{\text{コスト}} = \frac{L(x\mid\theta_1)}{L(x\mid\theta_0)} = \Lambda(x)$$ つまり尤度比 $\Lambda(x)$ そのものが「コスパ」です。限られた $\alpha$ 予算で検出力を最大にするには、コスパの良いデータ点(=$\Lambda$ が大きい点)から順に棄却域へ詰めていけばよい。これは予算 $\alpha$ を使い切るまで $\Lambda$ の高い順に採用することと同じで、ちょうど「$\Lambda\ge k$ なら棄却」という形になります。

これがネイマン・ピアソンの定理の心です。厳密な証明は「尤度比検定と同じ $\alpha$ を持つ別の検定を持ってきても、棄却域の入れ替えで検出力が増えることはない」ことを丁寧に示しますが、本質はこの「コスパの良い順に詰める」という一言に尽きます。

さえ

$\alpha$ っていう決まった予算で、検出力をいちばん買い込む問題なんだね! コスパ＝尤度比 $\Lambda$ が高いデータから順にカゴ(棄却域)に入れる。当たり前に聞こえるけど、「これが本当に最強だ」と証明したのがネイマンとピアソン。検定理論の出発点になった超重要な定理だよ。

4. 正規母平均の検定に当てはめる

抽象的な $\Lambda\ge k$ が、実はおなじみの検定そのものだと確かめます。母分散 $\sigma^2$ が既知の正規母集団から $X_1,\dots,X_n$ を取り、$H_0:\mu=\mu_0$ 対 $H_1:\mu=\mu_1$($\mu_1>\mu_0$)を検定します。

尤度比を書き下す

正規分布の尤度(同時密度)は、指数の肩に $-\dfrac{1}{2\sigma^2}\sum(x_i-\mu)^2$ を持つ形です。$\theta_1=\mu_1$ と $\theta_0=\mu_0$ での尤度の比を取り、対数をとって整理します(積が和になって扱いやすくなります)。

DERIVATION

$$ \begin{aligned} \ln \Lambda &= \ln\frac{L(x\mid\mu_1)}{L(x\mid\mu_0)}\\[2pt] &= -\frac{1}{2\sigma^2}\sum_{i=1}^{n}(x_i-\mu_1)^2 + \frac{1}{2\sigma^2}\sum_{i=1}^{n}(x_i-\mu_0)^2 &&\text{(指数の肩の差)}\\[2pt] &= \frac{1}{2\sigma^2}\sum_{i=1}^{n}\Big[(x_i-\mu_0)^2-(x_i-\mu_1)^2\Big] &&\text{(まとめる)}\\[2pt] &= \frac{1}{2\sigma^2}\sum_{i=1}^{n}\Big[2(\mu_1-\mu_0)x_i-(\mu_1^2-\mu_0^2)\Big] &&\text{(展開して整理)}\\[2pt] &= \frac{\mu_1-\mu_0}{\sigma^2}\sum_{i=1}^{n}x_i \;-\; \frac{n(\mu_1^2-\mu_0^2)}{2\sigma^2} &&\Big(\textstyle\sum x_i = n\bar{x}\text{ を使う準備}\Big)\\[2pt] &= \frac{n(\mu_1-\mu_0)}{\sigma^2}\,\bar{x} \;-\; \frac{n(\mu_1^2-\mu_0^2)}{2\sigma^2} \end{aligned} $$

最後の式をよく見てください。$\bar{x}$ 以外はすべて定数で、$\ln\Lambda$ は$\bar{x}$ の1次式(単調増加の直線)です。しかも $\bar{x}$ の係数 $\dfrac{n(\mu_1-\mu_0)}{\sigma^2}$ は、$\mu_1>\mu_0$ なので正。つまり $\bar{x}$ が大きいほど $\ln\Lambda$ も大きい。

POINT

$\Lambda$ は $\bar{x}$ の単調増加関数です。だから「$\Lambda\ge k$ なら棄却」は、そっくりそのまま「$\bar{x}\ge c$ なら棄却」と書き換えられます($k$ に対応する $\bar{x}$ の閾値が $c$)。尤度比という抽象的なルールが、結局おなじみの「標本平均が大きければ棄却」という検定に化けたのです。4-4 で学んだ $z$ 検定は、正規・分散既知のもとで最強力だった──ネイマン・ピアソンがそれを保証してくれます。

EXAMPLE（尤度比 = X̄ 検定の確認）

$\sigma=1$、$n=10$、$\mu_0=0$、$\mu_1=1$ とします。上の式から $\ln\Lambda = 10\bar{x}-5$ で、たしかに $\bar{x}$ の単調増加(傾き $10>0$)。$\bar{x}$ を $-1,0,1,2$ と動かすと $\ln\Lambda$ は $-15,-5,5,15$ と一直線に増えます。

「$\Lambda\ge k$」は「$\bar{x}\ge c$」と同値なので、$c$ を $P(\bar{X}\ge c\mid\mu_0)=\alpha$ で決めればよい。$\alpha=0.05$ なら標準誤差 $\sigma/\sqrt{n}=1/\sqrt{10}\approx0.316$ より $c=0+1.645\times0.316\approx0.52$。これはまさに片側 $z$ 検定の棄却域そのもの。ちなみにこのときの検出力は $P(\bar{X}\ge0.52\mid\mu_1=1)\approx0.94$ です。

5. 一様最強力検定（UMP）への橋渡し

ネイマン・ピアソンは「単純 vs 単純」、つまり対立仮説が1点 $\mu_1$ の話でした。でも実務の対立仮説はふつう $H_1:\mu>\mu_0$ のような範囲(複合仮説)です。点が違えば最強の検定も違ってしまいそう──ところが、うれしい事実があります。

§4 の導出をもう一度見ると、棄却域「$\bar{x}\ge c$」の形は$\mu_1$ の具体的な値に依存しませんでした。$\mu_1$ が $\mu_0$ より大きくさえあれば(係数が正でありさえすれば)、どの $\mu_1$ に対しても同じ「$\bar{x}\ge c$」が最強力になります。

だとすれば、この検定は $\mu>\mu_0$ のすべての点で同時に最強。こういう検定を一様最強力検定と呼びます。

POINT

一様最強力検定(UMP, uniformly most powerful test)とは、複合対立仮説($H_1:\mu>\mu_0$ など)のすべての値に対して同時に検出力を最大にする検定のこと。正規・分散既知の片側検定では、$\bar{x}\ge c$ による $z$ 検定がまさに UMP です。理由は、尤度比が $\bar{x}$ の単調関数になり、その棄却域が対立側の具体値によらず同じ形になるから。
ただし両側検定($H_1:\mu\neq\mu_0$)では、上側に有利な検定は下側で損をするため、一般に UMP は存在しません。だから両側検定は「不偏性」など別の基準で最良なものを選ぶことになります。

ここは2級の範囲を超える発展的な話ですが、「ふだん使っている片側 $z$ 検定が、実はある意味で最善の検定だった」と知っておくと、検定の見え方が変わります。ネイマン・ピアソンは、その最善性を支える土台なのです。

次回発展5 コクランの定理とその応用では、平方和がどのように独立なカイ二乗に分かれるか──分散分析や回帰の背骨にある定理を扱います。検定統計量の「自由度」がどこから来るのか、その答えがここにあります。

さえ

「最強の検定＝尤度比検定」、そして正規・分散既知ではそれがおなじみの $\bar{X}$ 検定そのものだった! いつも使ってた片側検定が実は最強だったって、ちょっと感動だよね。合言葉は「コスパ $\Lambda$ の高い順に棄却」。検定理論のボス戦クリア、おつかれさま!

HANDWRITING — 紙に書いてインプットしよう！

このページに出てきた重要キーワードです。ページを閉じる前に、声に出しながら紙に手で書いてみてください。手を動かすと、読むだけの何倍も速く記憶に定着します。

検出力
最強力検定
単純仮説
複合仮説
尤度
尤度比
尤度比検定
ネイマン・ピアソンの基本定理（補題）
単調増加関数
一様最強力検定（UMP）