第2章 2-4 / 確率と確率分布

確率変数と確率分布 — 離散・連続と分布関数

さえ

3級でも確率変数は習ったよね。2級では「離散」と「連続」をきっちり区別するのがポイント！　とくに連続だと「面積＝確率」っていう新しい見方が出てくるよ。ここを押さえると、このあとの期待値・分散がぜんぶスッキリ計算できるようになるんだ。

1. 確率変数とは

確率変数とは、ひとことで言うと「とる値が確率的に決まる変数」です。たとえばサイコロを1回振ったときの出目を $X$ とすれば、$X$ は $1$ から $6$ のどれかを確率 $\tfrac{1}{6}$ ずつでとります。

実際に振る前は値が定まらず、振ってはじめて $X=4$ のように具体的な値が現れます。

確率変数そのものは大文字 $X$ で、振った結果として現れた具体的な値（実現値）は小文字 $x$ で書く、というのが約束です。この大文字・小文字の使い分けは2級を通じてずっと続くので、ここで慣れておきましょう。

POINT

確率変数には2つのタイプがあります。とびとびの値しかとらない離散型（サイコロの出目、コインの表の枚数、不良品の個数など）と、ある区間の値を連続的にとりうる連続型（身長、待ち時間、測定誤差など）です。どちらの型かで、確率の表し方がガラッと変わります。

2. 離散型：確率質量関数（pmf）

離散型の確率変数では、「各値をとる確率」をそのまま並べれば分布が決まります。$X$ が値 $x_i$ をとる確率を

FORMULA

$$p(x_i) = P(X = x_i)$$ と書き、これを確率質量関数（probability mass function, pmf）と呼びます。「それぞれの値にどれだけの確率の重さ（mass）が乗っているか」を表す関数、というイメージです。

pmf は、確率である以上は次の2つの性質を満たさなければなりません。これは離散型の確率分布の大原則です。

FORMULA

$$p(x_i) \ge 0, \qquad \sum_{i=1}^{n} p(x_i) = 1$$ 各確率は $0$ 以上で、すべての値について足し合わせるとちょうど $1$。確率の重さを全部集めると $1$ になる、というのは直感どおりですね。

たとえば公平なサイコロなら、$X=1,2,\dots,6$ のそれぞれに確率 $\tfrac{1}{6}$ が乗っています。表にするとこうです。

$x$	1	2	3	4	5	6	合計
$p(x)$	1/6	1/6	1/6	1/6	1/6	1/6	1

確率がすべて等しいので、棒グラフは同じ高さの棒が6本並んだ形になります（次の図の左側）。離散型は「棒の高さがそのまま確率」と覚えておけば十分です。

3. 連続型：確率密度関数（pdf）

連続型では事情が変わります。たとえば「待ち時間がちょうど $3.0000\dots$ 分」のような一点をぴったり当てる確率は $0$ になってしまうのです。

とりうる値が無限に連続しているので、ひとつの点に確率の重さを乗せられない、と考えてください。そこで連続型では、確率を点ではなく区間（面積）で測ります。

FORMULA

連続型の確率変数 $X$ に対し、確率密度関数（probability density function, pdf）$f(x)$ を使って、$X$ が区間 $[a,b]$ に入る確率を次のように表します。 $$P(a \le X \le b) = \int_{a}^{b} f(x)\, dx$$ つまり、密度曲線 $f(x)$ と $x$ 軸ではさまれた面積が確率になります。

ここで大事なのは、$f(x)$ そのものは確率ではない、という点です。$f(x)$ は「その付近にどれくらい確率が密集しているか（密度）」を表す高さであって、$1$ を超えることもあります。確率になるのは、あくまで $f(x)$ を区間で積分した面積のほうです。

FORMULA

pdf も、pmf と対応する2つの性質を満たします。 $$f(x) \ge 0, \qquad \int_{-\infty}^{\infty} f(x)\, dx = 1$$ 密度は負にならず、全範囲で積分すると面積はちょうど $1$。離散の $\sum p(x_i)=1$ が、連続では「全体の面積 $=1$」に対応しているわけです。

POINT

連続型では、一点の確率は $0$ です（$P(X=a)=0$）。そのため $P(a\le X\le b)$ と $P(a < X < b)$ は等しくなります。等号がついていてもいなくても面積は同じ──ここは2級でよく問われる、連続型ならではの感覚です。

4. 離散と連続を並べて見る

ここまでの離散型（棒の高さ＝確率）と連続型（面積＝確率）を、図で並べて比べてみましょう。

左：離散型は棒の高さがそのまま確率。右：連続型は密度曲線の下の面積が確率（塗った部分が $P(a\le X\le b)$）

左右を見比べると、棒の「高さの合計」が $1$ になるのが離散、曲線の下の「面積の合計」が $1$ になるのが連続、という対応がつかめます。次の表に違いをまとめておきます。

観点	離散型	連続型
値のとり方	とびとび（可算）	区間内を連続的
確率の関数	確率質量関数 pmf $\ p(x)$	確率密度関数 pdf $\ f(x)$
確率の正体	高さ $p(x)=P(X=x)$	面積 $\int f(x)\,dx$
一点の確率	$P(X=x)\ge 0$ になりうる	$P(X=x)=0$
合計＝1	$\displaystyle\sum_{i=1}^{n} p(x_i)=1$	$\displaystyle\int_{-\infty}^{\infty} f(x)\,dx=1$
期待値（次回）	$\displaystyle\sum_{i=1}^{n} x_i\,p(x_i)$	$\displaystyle\int_{-\infty}^{\infty} x\,f(x)\,dx$

$\sum$ が $\int$ に、$p(x_i)$ が $f(x)\,dx$ に置き換わっただけ、と眺めると両者は地続きです。この対応関係が見えていれば、2-5a で出てくる期待値の式も「離散と連続でほぼ同じ」とすぐ納得できます。

5. 累積分布関数 $F(x)$

離散と連続でバラバラだった確率の表し方を、一本化して扱える便利な関数があります。それが累積分布関数（cumulative distribution function, cdf）です。「$X$ が $x$ 以下になる確率」を、$x$ の関数として並べたものです。

FORMULA

$$F(x) = P(X \le x)$$ 離散型なら $x$ 以下の確率を足し集め、連続型なら $-\infty$ から $x$ まで面積を積分します。 $$F(x) = \sum_{x_i \le x} p(x_i), \qquad F(x) = \int_{-\infty}^{x} f(t)\, dt$$

累積分布関数 $F(x)$ には、型によらず共通する性質があります。確率を左から足していくのですから、$F$ は右にいくほど増える（減らない）関数で、いちばん左では $0$、いちばん右では $1$ に達します。

POINT

$F(x)$ の性質：(1) $0 \le F(x) \le 1$、(2) 単調に増加（減らない）、(3) $\displaystyle\lim_{x\to-\infty}F(x)=0$、$\displaystyle\lim_{x\to\infty}F(x)=1$。離散型では確率が乗っている値のところで $F$ が段差状に「ジャンプ」し、連続型ではなめらかな曲線になります。

$F(x)$ が手元にあれば、区間の確率もすぐ出せます。たとえば $P(a < X \le b) = F(b) - F(a)$。引き算ひとつで区間確率が求まるので、計算がとてもラクになります。

EXAMPLE（サイコロの cdf）

公平なサイコロの出目 $X$ について、$F(x)=P(X\le x)$ を考えます。たとえば「$3$ 以下が出る確率」は

$F(3) = P(X\le 3) = p(1)+p(2)+p(3) = \tfrac{1}{6}+\tfrac{1}{6}+\tfrac{1}{6} = \tfrac{3}{6} = \tfrac{1}{2}$。

では「$X$ が $3$ より大きく $5$ 以下」の確率は？　$F$ の引き算で、

$P(3 < X \le 5) = F(5) - F(3) = \tfrac{5}{6} - \tfrac{3}{6} = \tfrac{2}{6} = \tfrac{1}{3}$。

これは「$4$ または $5$ が出る確率」と一致しますね。$F$ をいったん用意すれば、区間確率は差で取り出せる、というのが累積分布関数の便利さです。

次回 2-5a 期待値では、この確率分布を使って分布の「中心」を表す $E[X]$ を定義し、その線形性を導出します。今日整理した「$\sum$ と $\int$ の対応」が、さっそく期待値の式で効いてきますよ。

さえ

離散は「高さ」、連続は「面積」──この合言葉さえ忘れなければ大丈夫！　連続型で「一点の確率は0」っていうのも、試験で地味に効いてくるから覚えておいてね。次回はいよいよ期待値。今日の分布が主役になるよ。

HANDWRITING — 紙に書いてインプットしよう！

このページに出てきた重要キーワードです。ページを閉じる前に、声に出しながら紙に手で書いてみてください。手を動かすと、読むだけの何倍も速く記憶に定着します。

確率変数
離散型
連続型
確率質量関数
区間（面積）
確率密度関数
面積
累積分布関数