第7章 7-1 / 確率変数と確率分布

確率変数と確率分布の考え方

このページで学ぶこと

いよいよ最終章、第7章「確率変数と確率分布」に入ります。第6章では「サイコロを振って3が出る確率」のように具体的な事象の確率を考えてきましたが、ここから抽象度が一段上がります。

本ページでは、まず「確率変数」という考え方を整理し、それに対応する「確率分布」を見ていきます。さらに、確率変数には離散型と連続型の2種類があることを、図で視覚的に押さえます。次回以降、これらの概念を土台として、期待値・分散・正規分布へと進んでいきます。

確率変数の発想がつかめると、データを「ばらつきを持つ数値の集まり」として捉える視点が手に入ります。記述統計（第1〜5章）と確率（第6章）が、ここで美しく合流するのを体感していきましょう。

さえ

確率変数って言葉、最初は難しく感じるよね！　でも実は、「サイコロを振って出た目を X と呼ぶことにする」くらいの発想です。抽象的な記号に慣れるのが、この章の最初の山だからゆっくり読んでね！

1. 確率変数とは ─ 結果に数字を割り当てる

確率変数を理解するには、まず「結果に数字を割り当てる」という発想から入るのがわかりやすいです。

サイコロの例

サイコロを1回振ると、結果は1, 2, 3, 4, 5, 6 のいずれか。結果そのものが数字なので、自然に「出た目を X と呼ぼう」と決められます。

この時、X は確率変数です。X の値は1〜6のいずれかですが、どの値になるかは振ってみないと分かりません。「確率的に値が決まる変数」──これが確率変数の正体です。

「変数」という言葉が不慣れな方もいます。Excelの空白セルだと思ってください。サイコロを振ってみたら、そのセルに1~6の数字が入る。そんな器のような言葉が変数です。

コインの例

コインを1枚投げる場合は、結果が「表」か「裏」で、そのままでは数字ではありません。そこで、表を1、裏を0と決めることで、結果に数字を割り当てます。

表が出た → X = 1
裏が出た → X = 0

こうして、コインの結果も確率変数 X で扱えるようになります。「結果を数字に翻訳する」のが確率変数の出発点です。

確率変数の定義

POINT

確率変数（かくりつへんすう、random variable）とは、試行の結果に数値を対応させた変数のこと。記号として大文字の X, Y, Z などを使います。確率的に値が決まるのが特徴です。

確率変数は、第1〜5章で扱ってきた「データの値」と密接に関係しています。たとえば「クラス40人の身長」というデータは、「無作為に1人選んだときの身長 X」という確率変数のサンプル40個と考えることができます。記述統計と確率を繋ぐ橋が、まさに確率変数なんです。

2. 確率分布 ─ 確率変数のふるまいを表す

確率変数 X が分かっても、それだけでは「Xがどんな値をどのくらいの確率で取るか」はわかりません。それを表すのが確率分布です。

サイコロの確率分布

歪んでいないサイコロの場合、X が 1〜6 のどれを取るかは、すべて 1/6 の確率です。これを表にまとめると：

X の値	1	2	3	4	5	6	合計
確率 P(X=x)	1/6	1/6	1/6	1/6	1/6	1/6	1

この表を確率分布表と呼びます。「Xがどの値をどのくらいの確率で取るか」を一覧にしたものです。

確率分布をグラフで見る

表をグラフにすると、確率分布の形が一目で見えます。

サイコロの確率分布。すべての目が等しく1/6の確率で出る(一様分布)

確率分布が満たすべき条件

確率分布には、2つの大切な条件があります。第6章の公理的確率を思い出すと、自然な要請であることがわかります。

RULE

① 各確率は0以上1以下：0 ≤ P(X=x) ≤ 1
② 全確率の合計は1：すべての確率を足すと1になる

サイコロの例なら、6 × (1/6) = 1 となって、合計が1。これは「サイコロを振れば必ず何かの目が出る」という当たり前のことを表しています。

3. 離散型確率変数と連続型確率変数

確率変数には、大きく分けて離散型と連続型の2種類があります。値の取り方が根本的に違うので、扱い方も変わってきます。

離散型確率変数

離散型確率変数（りさんがた、discrete random variable）は、「飛び飛びの値」しか取らない確率変数です。

サイコロの出た目：1, 2, 3, 4, 5, 6（間の値はない）
コイン投げの結果：0または1
1日のメールの受信数：0通, 1通, 2通...（小数はない）
くじ引きで当たった人数：0人, 1人, 2人...

離散型の特徴は、値を一つひとつリストアップできること。確率分布は確率分布表や棒グラフで表現できます。

連続型確率変数

連続型確率変数（れんぞくがた、continuous random variable）は、「実数値ならどんな値でも取れる」確率変数です。

身長：163.5cm, 163.55cm, 163.555cm... どこまでも細かく
体重：60.0kg, 60.01kg, 60.001kg... 連続的
気温：23.0℃, 23.05℃, 23.058℃...
ボトル飲料の中身の量、走った距離など

連続型の特徴は、値を「リスト」にできないこと。164cmと165cmの間にも、無数の値が存在します。だから、確率分布の表現方法も離散型とは違ってきます。

離散型と連続型の確率分布グラフ

2つの違いをグラフで比べてみましょう。

離散型は飛び飛びの値で棒グラフ。連続型は滑らかな曲線(確率密度関数)で表す

連続型では「確率は面積」

連続型確率変数では、「ある特定の値を取る確率」を考えることに意味がないのが、最初は不思議に感じるところ。たとえば「身長がぴったり163.500000...cm」となる確率は、ほぼ0です（無数の小数点以下がぴったり一致する確率はほぼ0）。

そのかわり、「ある範囲に収まる確率」を考えます。「身長が163cm以上165cm未満になる確率」のように、区間で確率を捉えるのが連続型の特徴です。グラフ上では、その区間の曲線の下の面積が確率を表します。

この曲線は確率密度関数（probability density function）と呼ばれ、次回以降扱う正規分布もこの仲間です。

離散型と連続型の比較

観点	離散型	連続型
取りうる値	飛び飛び(リストできる)	連続的(無限に細かい)
具体例	サイコロ、コイン、人数	身長、体重、気温
確率分布の表現	確率分布表、棒グラフ	確率密度関数、滑らかな曲線
P(X=x) の意味	その値を取る確率	意味なし(常に0)
確率の捉え方	各値の確率を足す	区間の面積を求める

POINT

離散型と連続型は、値の取り方が根本的に違います。3級では、離散型は確率分布表で扱い、連続型は正規分布を中心に「曲線の下の面積で確率を考える」という発想を押さえれば十分です。

4. 簡単な例題

確率変数と確率分布の感覚をつかむ例題を1問やってみましょう。

EXAMPLE

コインを2枚同時に投げる試行で、表が出た枚数を確率変数 X とします。

(1) X が取りうる値をすべて書き出してください

(2) X の確率分布表を作ってください

(3) P(X ≥ 1) を求めてください

解答と解説

(1) X の取りうる値

表が出た枚数なので、X は 0, 1, 2 のいずれか。

(2) 確率分布表

コインを2枚投げる試行の全事象は {(表,表), (表,裏), (裏,表), (裏,裏)} の4通り。それぞれの確率は 1/4 ずつです。

X = 0（表が0枚）：(裏,裏) の1通り → 1/4
X = 1（表が1枚）：(表,裏), (裏,表) の2通り → 2/4 = 1/2
X = 2（表が2枚）：(表,表) の1通り → 1/4

X	0	1	2	合計
P(X=x)	1/4	1/2	1/4	1

合計は 1/4 + 1/2 + 1/4 = 1。確率分布の条件②（合計が1）を満たしていますね。

(3) P(X ≥ 1)

P(X ≥ 1) は「Xが1以上」、つまり X = 1 または X = 2 の確率。

P(X ≥ 1) = P(X=1) + P(X=2) = 1/2 + 1/4 = 3/4

これは「2枚のうち少なくとも1枚は表」の確率と同じです。第6章で学んだ「少なくとも〜」の発想とつながっていますね。

まとめ

第7章のスタートとなる本ページ、ポイントを整理しておきましょう。

確率変数：試行の結果に数値を対応させた変数。記号は X, Y, Z など
確率分布：確率変数がどの値をどのくらいの確率で取るかを表すもの
確率分布の条件：各確率は0〜1、合計は1
離散型確率変数：飛び飛びの値を取る(サイコロ、コイン、人数)
連続型確率変数：連続的な値を取る(身長、体重、気温)
連続型では確率は面積：特定の値ではなく、区間の面積で考える

次回は平均・分散・標準偏差。確率変数の「中心」と「ばらつき」を計算する方法を学びます。第3章で学んだ平均・分散・標準偏差が、確率変数の世界で再び登場します。

さえ

確率変数って、最初の壁さえ越えればすごく便利な道具なんだよ！　「結果を数字で扱う」発想は、データサイエンスの基礎中の基礎！　次回は確率変数の平均・分散・標準偏差──第3章で学んだ概念が、確率変数の世界に戻ってくるよ！