第2章 2-13a / 確率と確率分布

チェビシェフの不等式 — 分布の形によらない確率の上限

さえ

「分布の形がわからなくても、平均から大きく外れる確率はこれ以下！」って言い切れたら強いよね。それがチェビシェフの不等式。分散だけを手がかりに上限を出すの。正規分布みたいに形を仮定しないぶん、上限はゆるめ。でも形を選ばない万能さが魅力なんだ。導出も追えるよ！

1. 直感 ─ なぜこの不等式が必要なのか

「平均から大きく外れた値は、めったに出ない」──これは経験的にうなずける話です。でも「めったに」がどれくらいかは、ふつう分布の形がわからないと言えません。

正規分布なら $\mu\pm 2\sigma$ の外は約 $4.6\%$ と計算できますが、分布が左右非対称だったり、形が未知だったりすると、この数字は使えません。

チェビシェフの不等式のすごいところは、分布の形をいっさい仮定せず、平均 $\mu$ と分散 $\sigma^2$ だけを材料にして、「平均から $k\sigma$ 以上離れる確率」に上限を与えてくれる点です。形を選ばないので、どんな確率変数にも使えます。

FORMULA

期待値 $\mu = E[X]$、分散 $\sigma^2 = V[X]$（有限）を持つ任意の確率変数 $X$ と、任意の正の数 $k > 0$ について、 $$P(|X-\mu| \ge k\sigma) \le \frac{1}{k^2}$$ が成り立ちます。「平均から $k$ 標準偏差ぶん以上離れる確率は、$1/k^2$ を超えない」という意味です。

たとえば $k=2$ なら右辺は $1/4 = 0.25$。分布が何であろうと、平均から $2\sigma$ 以上離れる確率は $25\%$ 以下、と言い切れるわけです。では、なぜこの式が成り立つのか。分散の定義から導いてみましょう。

2. 導出 ★

導出の出発点は、分散の定義 $\sigma^2 = E[(X-\mu)^2]$ です。アイデアは「期待値（＝重み付き平均）の一部だけを取り出して下から評価する」こと。順に追います。

ステップ1：分散を、平均から離れた部分とそうでない部分に分ける

$\sigma^2$ は $(X-\mu)^2$ の期待値、つまり「ズレの二乗を確率で重み付けして全部足したもの」です。この合計のうち、平均から $k\sigma$ 以上離れた値が出る部分だけを取り出して考えます。

離散型のイメージで、和を「離れた値の集まり $A$」と「それ以外」に分けます。

DERIVATION

$A = \{\, x : |x-\mu| \ge k\sigma \,\}$（平均から $k\sigma$ 以上離れた値の集まり）とおくと、 $$ \begin{aligned} \sigma^2 &= E[(X-\mu)^2] \\[2pt] &= \sum_{\text{すべての } x} (x-\mu)^2\, p(x) &&\text{(分散の定義)}\\[2pt] &= \sum_{x \in A} (x-\mu)^2\, p(x) \;+\; \sum_{x \notin A} (x-\mu)^2\, p(x) &&\text{(和を $A$ とそれ以外に分割)}\\[2pt] &\ge \sum_{x \in A} (x-\mu)^2\, p(x) &&\text{(残りの和は $\ge 0$ なので捨てる)} \end{aligned} $$

ここで使ったのは「$(x-\mu)^2 \ge 0$、$p(x)\ge 0$ なので、足し算の項を捨てれば全体は小さくなる（か等しい）」という当たり前の事実だけです。これで $\sigma^2$ の下限が、離れた値だけの和で押さえられました。

ステップ2：離れた部分の二乗を、最小値 $(k\sigma)^2$ で置き換える

集まり $A$ の中では、定義より $|x-\mu| \ge k\sigma$、つまり $(x-\mu)^2 \ge (k\sigma)^2$ が成り立ちます。

$A$ の各項の二乗を、その最小値である $(k\sigma)^2$ に置き換えれば、和はさらに小さくなる（か等しい）はずです。

DERIVATION

$$ \begin{aligned} \sigma^2 &\ge \sum_{x \in A} (x-\mu)^2\, p(x) &&\text{(ステップ1の結果)}\\[2pt] &\ge \sum_{x \in A} (k\sigma)^2\, p(x) &&\text{($A$ 内では $(x-\mu)^2 \ge (k\sigma)^2$)}\\[2pt] &= (k\sigma)^2 \sum_{x \in A} p(x) &&\text{(定数 $(k\sigma)^2$ を和の外へ)}\\[2pt] &= k^2 \sigma^2 \cdot P(|X-\mu| \ge k\sigma) &&\text{($\sum_{x \in A} p(x)$ は $A$ が起こる確率)} \end{aligned} $$

最後の行で、$A$ の確率 $\sum_{x \in A} p(x)$ がまさに「平均から $k\sigma$ 以上離れる確率」 $P(|X-\mu| \ge k\sigma)$ であることを使いました。こうして $$\sigma^2 \ge k^2 \sigma^2 \cdot P(|X-\mu| \ge k\sigma)$$ という関係が得られます。

ステップ3：両辺を $k^2\sigma^2$ で割る

DERIVATION

$\sigma^2 > 0,\ k>0$ なので $k^2\sigma^2 > 0$。両辺をこれで割って向きを保つと、 $$ \begin{aligned} \sigma^2 &\ge k^2 \sigma^2 \cdot P(|X-\mu| \ge k\sigma) \\[2pt] \frac{\sigma^2}{k^2 \sigma^2} &\ge P(|X-\mu| \ge k\sigma) &&\text{(両辺を $k^2\sigma^2$ で割る)}\\[2pt] \frac{1}{k^2} &\ge P(|X-\mu| \ge k\sigma) \end{aligned} $$ 左右を入れ替えれば、目的の不等式 $P(|X-\mu| \ge k\sigma) \le \dfrac{1}{k^2}$ が得られます。

POINT

導出のどこにも「分布の形」についての仮定は出てきませんでした。使ったのは、分散の定義、二乗が非負であること、$A$ の中では二乗が $(k\sigma)^2$ 以上であること──この3つだけ。だからこそ、この不等式はあらゆる分布で無条件に成り立つのです。連続型なら $\sum$ を $\int$ に読み替えれば、まったく同じ議論が通ります。

補足：マルコフの不等式とのつながり

実はチェビシェフの不等式は、より基本的なマルコフの不等式の特別な場合です。マルコフの不等式は、非負の確率変数 $Y \ge 0$ と任意の $a>0$ について $$P(Y \ge a) \le \frac{E[Y]}{a}$$ が成り立つ、というもの。ここで $Y = (X-\mu)^2$（これは非負）、$a = (k\sigma)^2$ とおくと、$E[Y]=\sigma^2$ なので $$P\big((X-\mu)^2 \ge (k\sigma)^2\big) \le \frac{\sigma^2}{(k\sigma)^2} = \frac{1}{k^2}$$ となり、左辺は $P(|X-\mu|\ge k\sigma)$ そのもの。チェビシェフが出てきます。上で行った導出は、この一般論を分散の言葉で具体的に書き下したもの、と捉えると見通しがよくなります。

3. 強みと弱み ─ ゆるい上限という代償

この不等式の強みは何度も言うとおり「分布を選ばない万能性」です。形が未知でも、平均と分散さえあれば使えます。一方で弱みもあります。あらゆる分布で成り立つよう最悪のケースに合わせて作られているため、上限がかなりゆるい（甘い）のです。

導出を思い出すと、ステップ1で「残りの和を $0$ として捨て」、ステップ2で「離れた値の二乗をすべて最小値 $(k\sigma)^2$ にそろえ」ました。どちらも不等号を使った大胆な見積もりです。

実際の分布では、こんなに極端なことは起きないので、本当の確率は上限よりずっと小さくなります。次の節で、正規分布と比べてその差を見ます。

4. 数値例 ─ 正規分布の実際の値と比べる

$k=2$ と $k=3$ について、チェビシェフの上限と、正規分布での実際の確率を並べてみます。

EXAMPLE 1（k=2）

平均から $2\sigma$ 以上離れる確率は？

チェビシェフの上限：$\dfrac{1}{k^2}=\dfrac{1}{2^2}=\dfrac{1}{4}=0.25$ → 25%以下（どんな分布でも）
正規分布での実際の値：$P(|Z|\ge 2)\approx 0.0455$ → 約4.55%

上限 $25\%$ に対し、正規分布の実際は $4.55\%$。約5倍以上のゆるさです。それでも「形がわからなくても $25\%$ 以下と保証できる」のは立派な情報です。

EXAMPLE 2（k=3）

平均から $3\sigma$ 以上離れる確率は？

チェビシェフの上限：$\dfrac{1}{3^2}=\dfrac{1}{9}\approx 0.111$ → 約11.1%以下（どんな分布でも）
正規分布での実際の値：$P(|Z|\ge 3)\approx 0.0027$ → 約0.27%

ここでは上限 $11.1\%$ に対し実際は $0.27\%$。差は約40倍に開きます。形を仮定できる（正規だと言える）なら、はるかに鋭い評価ができる、ということです。

$k$	チェビシェフの上限 $1/k^2$	正規分布の実際 $P(\|Z\|\ge k)$
2	0.250（25%）	約 0.0455（4.55%）
3	約 0.111（11.1%）	約 0.0027（0.27%）

チェビシェフの上限（濃い棒）vs 正規分布の実際（薄い棒）。上限はかなりゆるいが、形を問わず保証される

さえ

「チェビシェフはゆるい」って覚えておこう。正規分布だと $2\sigma$ 外は $4.6\%$ なのに、チェビシェフは $25\%$ までしか保証しない。でもこれは弱点じゃなくて、どんな分布でも絶対に外さないための余裕なの。形がわかるなら正規の値を、わからないならチェビシェフを──使い分けが大事だよ！

5. 結論と使いどころ

チェビシェフの不等式は、それ自体を試験で計算させる問題も出ますが、本当の価値は次回学ぶ「大数の法則」の証明道具になる点にあります。

標本平均 $\bar{X}$ にこの不等式を当てはめると、「$n$ を大きくすれば $\bar{X}$ が母平均 $\mu$ の近くに集中する」ことが、分布の形を仮定せずに示せるのです。

POINT

まとめると、チェビシェフの不等式は「分布の形を問わず、平均からのズレの確率に上限を与える保証」です。代わりに上限はゆるい。分布の形がわかるならそちらを優先し、わからない・最悪を保証したいときにチェビシェフ──この立ち位置を押さえておけば、次の大数の法則の論理がすっと入ってきます。

次回 2-13b 大数の法則では、このチェビシェフの不等式を標本平均 $\bar{X}$ に適用し、「$n$ を増やすと $\bar{X}$ が $\mu$ に近づく」ことを導きます。今日の不等式が、いよいよ主役の道具として働きます。

さえ

導出、3ステップで追えたかな？「捨てる→そろえる→割る」のリズムだよ。$P(|X-\mu|\ge k\sigma)\le 1/k^2$ は丸暗記でなく、自分の手で一度書いてみてね。次の大数の法則で、この式が大活躍するから！

HANDWRITING — 紙に書いてインプットしよう！

このページに出てきた重要キーワードです。ページを閉じる前に、声に出しながら紙に手で書いてみてください。手を動かすと、読むだけの何倍も速く記憶に定着します。

チェビシェフの不等式
分散の定義
マルコフの不等式
非負の確率変数
チェビシェフの上限
大数の法則