確率変数と確率分布 — 離散・連続と分布関数
この章の主役は確率変数。サイコロの出目のように「結果が確率的に決まる数」のことです。本ページでは確率変数を離散型と連続型に分け、それぞれの確率の表し方──確率質量関数(pmf)と確率密度関数(pdf)──を整理します。
とくに連続型では、「ある一点ぴったりの確率」ではなく面積が確率になる、という独特の考え方が出てきます。最後に、両者を一本化して扱える累積分布関数 $F(x)=P(X\le x)$ までを、図と対比表でつかまえましょう。次の 2-5a 以降で期待値や分散を計算する、その土台になる回です。
3級でも確率変数は習ったよね。2級では「離散」と「連続」をきっちり区別するのがポイント! とくに連続だと「面積=確率」っていう新しい見方が出てくるよ。ここを押さえると、このあとの期待値・分散がぜんぶスッキリ計算できるようになるんだ。
1. 確率変数とは
確率変数とは、ひとことで言うと「とる値が確率的に決まる変数」です。たとえばサイコロを1回振ったときの出目を $X$ とすれば、$X$ は $1$ から $6$ のどれかを確率 $\tfrac{1}{6}$ ずつでとります。実際に振る前は値が定まらず、振ってはじめて $X=4$ のように具体的な値が現れます。
確率変数そのものは大文字 $X$ で、振った結果として現れた具体的な値(実現値)は小文字 $x$ で書く、というのが約束です。この大文字・小文字の使い分けは2級を通じてずっと続くので、ここで慣れておきましょう。
確率変数には2つのタイプがあります。とびとびの値しかとらない離散型(サイコロの出目、コインの表の枚数、不良品の個数など)と、ある区間の値を連続的にとりうる連続型(身長、待ち時間、測定誤差など)です。どちらの型かで、確率の表し方がガラッと変わります。
2. 離散型:確率質量関数(pmf)
離散型の確率変数では、「各値をとる確率」をそのまま並べれば分布が決まります。$X$ が値 $x_i$ をとる確率を
$$p(x_i) = P(X = x_i)$$ と書き、これを確率質量関数(probability mass function, pmf)と呼びます。「それぞれの値にどれだけの確率の重さ(mass)が乗っているか」を表す関数、というイメージです。
pmf は、確率である以上は次の2つの性質を満たさなければなりません。これは離散型の確率分布の大原則です。
$$p(x_i) \ge 0, \qquad \sum_{i=1}^{n} p(x_i) = 1$$ 各確率は $0$ 以上で、すべての値について足し合わせるとちょうど $1$。確率の重さを全部集めると $1$ になる、というのは直感どおりですね。
たとえば公平なサイコロなら、$X=1,2,\dots,6$ のそれぞれに確率 $\tfrac{1}{6}$ が乗っています。表にするとこうです。
| $x$ | 1 | 2 | 3 | 4 | 5 | 6 | 合計 |
|---|---|---|---|---|---|---|---|
| $p(x)$ | 1/6 | 1/6 | 1/6 | 1/6 | 1/6 | 1/6 | 1 |
確率がすべて等しいので、棒グラフは同じ高さの棒が6本並んだ形になります(次の図の左側)。離散型は「棒の高さがそのまま確率」と覚えておけば十分です。
3. 連続型:確率密度関数(pdf)
連続型では事情が変わります。たとえば「待ち時間がちょうど $3.0000\dots$ 分」のような一点をぴったり当てる確率は $0$ になってしまうのです。とりうる値が無限に連続しているので、ひとつの点に確率の重さを乗せられない、と考えてください。そこで連続型では、確率を点ではなく区間(面積)で測ります。
連続型の確率変数 $X$ に対し、確率密度関数(probability density function, pdf)$f(x)$ を使って、$X$ が区間 $[a,b]$ に入る確率を次のように表します。 $$P(a \le X \le b) = \int_{a}^{b} f(x)\, dx$$ つまり、密度曲線 $f(x)$ と $x$ 軸ではさまれた面積が確率になります。
ここで大事なのは、$f(x)$ そのものは確率ではない、という点です。$f(x)$ は「その付近にどれくらい確率が密集しているか(密度)」を表す高さであって、$1$ を超えることもあります。確率になるのは、あくまで $f(x)$ を区間で積分した面積のほうです。
pdf も、pmf と対応する2つの性質を満たします。 $$f(x) \ge 0, \qquad \int_{-\infty}^{\infty} f(x)\, dx = 1$$ 密度は負にならず、全範囲で積分すると面積はちょうど $1$。離散の $\sum p(x_i)=1$ が、連続では「全体の面積 $=1$」に対応しているわけです。
連続型では、一点の確率は $0$ です($P(X=a)=0$)。そのため $P(a\le X\le b)$ と $P(a < X < b)$ は等しくなります。等号がついていてもいなくても面積は同じ──ここは2級でよく問われる、連続型ならではの感覚です。
4. 離散と連続を並べて見る
ここまでの離散型(棒の高さ=確率)と連続型(面積=確率)を、図で並べて比べてみましょう。
左:離散型は棒の高さがそのまま確率。右:連続型は密度曲線の下の面積が確率(塗った部分が $P(a\le X\le b)$)
左右を見比べると、棒の「高さの合計」が $1$ になるのが離散、曲線の下の「面積の合計」が $1$ になるのが連続、という対応がつかめます。次の表に違いをまとめておきます。
| 観点 | 離散型 | 連続型 |
|---|---|---|
| 値のとり方 | とびとび(可算) | 区間内を連続的 |
| 確率の関数 | 確率質量関数 pmf $\ p(x)$ | 確率密度関数 pdf $\ f(x)$ |
| 確率の正体 | 高さ $p(x)=P(X=x)$ | 面積 $\int f(x)\,dx$ |
| 一点の確率 | $P(X=x)\ge 0$ になりうる | $P(X=x)=0$ |
| 合計=1 | $\displaystyle\sum_{i=1}^{n} p(x_i)=1$ | $\displaystyle\int_{-\infty}^{\infty} f(x)\,dx=1$ |
| 期待値(次回) | $\displaystyle\sum_{i=1}^{n} x_i\,p(x_i)$ | $\displaystyle\int_{-\infty}^{\infty} x\,f(x)\,dx$ |
$\sum$ が $\int$ に、$p(x_i)$ が $f(x)\,dx$ に置き換わっただけ、と眺めると両者は地続きです。この対応関係が見えていれば、2-5a で出てくる期待値の式も「離散と連続でほぼ同じ」とすぐ納得できます。
5. 累積分布関数 $F(x)$
離散と連続でバラバラだった確率の表し方を、一本化して扱える便利な関数があります。それが累積分布関数(cumulative distribution function, cdf)です。「$X$ が $x$ 以下になる確率」を、$x$ の関数として並べたものです。
$$F(x) = P(X \le x)$$ 離散型なら $x$ 以下の確率を足し集め、連続型なら $-\infty$ から $x$ まで面積を積分します。 $$F(x) = \sum_{x_i \le x} p(x_i), \qquad F(x) = \int_{-\infty}^{x} f(t)\, dt$$
累積分布関数 $F(x)$ には、型によらず共通する性質があります。確率を左から足していくのですから、$F$ は右にいくほど増える(減らない)関数で、いちばん左では $0$、いちばん右では $1$ に達します。
$F(x)$ の性質:(1) $0 \le F(x) \le 1$、(2) 単調に増加(減らない)、(3) $\displaystyle\lim_{x\to-\infty}F(x)=0$、$\displaystyle\lim_{x\to\infty}F(x)=1$。離散型では確率が乗っている値のところで $F$ が段差状に「ジャンプ」し、連続型ではなめらかな曲線になります。
$F(x)$ が手元にあれば、区間の確率もすぐ出せます。たとえば $P(a < X \le b) = F(b) - F(a)$。引き算ひとつで区間確率が求まるので、計算がとてもラクになります。
公平なサイコロの出目 $X$ について、$F(x)=P(X\le x)$ を考えます。たとえば「$3$ 以下が出る確率」は
$F(3) = P(X\le 3) = p(1)+p(2)+p(3) = \tfrac{1}{6}+\tfrac{1}{6}+\tfrac{1}{6} = \tfrac{3}{6} = \tfrac{1}{2}$。
では「$X$ が $3$ より大きく $5$ 以下」の確率は? $F$ の引き算で、
$P(3 < X \le 5) = F(5) - F(3) = \tfrac{5}{6} - \tfrac{3}{6} = \tfrac{2}{6} = \tfrac{1}{3}$。
これは「$4$ または $5$ が出る確率」と一致しますね。$F$ をいったん用意すれば、区間確率は差で取り出せる、というのが累積分布関数の便利さです。
まとめ
第2章 2-4、ポイントを整理します。
- 確率変数:とる値が確率的に決まる変数。確率変数は大文字 $X$、実現値は小文字 $x$
- 離散型:確率質量関数 $p(x)=P(X=x)$。$p(x)\ge0$ かつ $\sum_{i=1}^{n} p(x_i)=1$。棒の高さ=確率
- 連続型:確率密度関数 $f(x)$。$f(x)\ge0$ かつ $\int_{-\infty}^{\infty} f(x)\,dx=1$。面積=確率、一点の確率は $0$
- 累積分布関数:$F(x)=P(X\le x)$。$0$ から $1$ へ単調増加し、$P(a
- 離散と連続の対応:$\sum \leftrightarrow \int$、$p(x_i) \leftrightarrow f(x)\,dx$。式の構造は地続き
次回 2-5a 期待値 では、この確率分布を使って分布の「中心」を表す $E[X]$ を定義し、その線形性を導出します。今日整理した「$\sum$ と $\int$ の対応」が、さっそく期待値の式で効いてきますよ。
離散は「高さ」、連続は「面積」──この合言葉さえ忘れなければ大丈夫! 連続型で「一点の確率は0」っていうのも、試験で地味に効いてくるから覚えておいてね。次回はいよいよ期待値。今日の分布が主役になるよ。