二項分布と正規分布
ここからは、確率変数の中でも特に重要な2つの分布に出会います。二項分布と正規分布──これらは統計学の主役級と言っていい存在で、3級の試験はもちろん、現代のデータサイエンスの土台でもあります。
本ページでは、まず二項分布(コインを何回も投げるような場面で活躍)を整理し、続いて正規分布(身長や測定誤差など、世の中のあらゆる場面に現れる釣鐘型の分布)を学びます。最後に、正規分布の中でも特別な標準正規分布を押さえます。
二項分布と正規分布は、一見すると別物のように見えますが、実は美しい関係でつながっています。次回の7-4で扱う「正規近似」の準備にもなる、大切な回です。
二項分布と正規分布、統計学の「ツートップ」とも呼ばれる重要な分布だよ! 名前の難しさにビビらず、グラフをじっくり眺めて、形と性質を体に刻みつけよう! ここを乗り越えれば、第7章はもうゴール目前!
1. 二項分布 ─ 「成功か失敗か」を繰り返す
まずは二項分布から。これは「2つの結果しかない試行を何回も繰り返したとき、成功した回数」の確率分布です。
二項分布が活きる場面
- コインを10回投げて、表が出た回数
- サイコロを20回振って、6が出た回数
- 製品100個を検査して、不良品だった個数
- 選択問題4択を10問解いて、正解した数(あてずっぽう)
共通点は、「成功か失敗か」の試行を、独立に何回も繰り返している点。各試行で成功する確率が同じで、独立であるとき、成功した回数の分布が二項分布になります。
二項分布の表記
二項分布は B(n, p) と書きます。
- n:試行の回数
- p:1回の試行で成功する確率
たとえば「コインを10回投げる」場合は B(10, 1/2)、「サイコロを20回振って6を狙う」場合は B(20, 1/6) と表します。
二項分布の確率の求め方
n回試行してk回成功する確率は、次の式で求められます。
P(X = k) = ₙCₖ × pᵏ × (1−p)ⁿ⁻ᵏ
ₙCₖ は「n個からk個を選ぶ組み合わせの数」(高校数学の組合せ)です。3級の試験では計算問題よりも、分布の形や性質が問われることが多いので、形のイメージを大切にしましょう。
B(10, 0.5) のグラフ
実際に B(10, 0.5)、つまりコインを10回投げて表が出る回数の確率分布を見てみます。
B(10, 0.5):コインを10回投げて表が出る回数の分布。中央(5回)が最も高く、左右対称
グラフを見ると、5回(10回の半分)が最も高く、左右対称の山型をしています。コインを10回投げると、表は5回前後に集中するのがわかりますね。
二項分布の期待値と分散
二項分布 B(n, p) において:
期待値 E(X) = np
分散 V(X) = np(1−p)
標準偏差 σ(X) = √(np(1−p))
この公式は3級の試験で頻出です。コインを10回投げる例なら、E(X) = 10×0.5 = 5、V(X) = 10×0.5×0.5 = 2.5、σ(X) = √2.5 ≒ 1.58。「平均5回、ばらつき1.58くらい」という結果が、グラフの形と一致しています。
サイコロを30回振るとき、6が出る回数を確率変数 X とします。X は二項分布 B(30, 1/6) に従います。
- 期待値:E(X) = 30 × (1/6) = 5
- 分散:V(X) = 30 × (1/6) × (5/6) = 25/6 ≒ 4.17
- 標準偏差:σ(X) = √(25/6) ≒ 2.04
サイコロを30回振ると、6が出るのは平均5回くらい、ばらつきは±2回くらい──ということが、計算だけで予測できます。
2. 正規分布 ─ 世の中のあらゆる場面に現れる釣鐘曲線
続いて正規分布。これは連続型の確率分布で、釣鐘型のシンメトリックな曲線として現れます。世の中のあらゆる場面に登場する、統計学でもっとも重要な分布です。
正規分布が現れる場面
- 身長・体重・血圧などの身体測定値
- テストの点数(多人数の場合)
- 機械での測定誤差
- 商品の重量や品質のばらつき
- 株価の日々のリターン(短期間で見ると近似的に)
これらに共通するのは、「多くの小さな要因がランダムに重なって決まる」こと。身長は遺伝、栄養、生活習慣、計測誤差など、無数の要因の積み重ねで決まります。そういう状況では、結果は正規分布に従いやすい──これは中心極限定理という有名な定理が背景にあります(3級の範囲を少し超えますが、知っておくと深く理解できます)。
正規分布の表記
正規分布は N(μ, σ²) と書きます。
- μ(ミュー):平均(期待値)
- σ²(シグマ二乗):分散
たとえば「平均170cm、標準偏差5cmの身長」なら N(170, 25) と書きます。μ が分布の中心を、σ がばらつきの幅を決めます。
正規分布の特徴
正規分布の釣鐘曲線には、いくつかの大切な特徴があります。
- 左右対称:平均 μ を中心に、ぴったりシンメトリック
- μ で最大値:曲線のピークは平均の位置
- 裾は無限に伸びる:理論上、x = ±∞ までゼロに近づきながら続く
- 面積は全部で1:曲線の下の面積を全部足すと、確率の合計1になる
μ と σ で形が変わる
正規分布は、μ と σ の値によって位置と幅が変化します。
- μが大きくなる → 曲線が右にずれる(中心が移動)
- σが大きくなる → 曲線が横に広がり、高さが低くなる(ばらつきが大きい)
- σが小さくなる → 曲線が縦に細く高くなる(ばらつきが小さい)
ただし、どんな μ と σ でも、「左右対称の釣鐘型」という形そのものは変わりません。
3. 標準正規分布 ─ すべての正規分布の基準
正規分布の中でも特別なものが、標準正規分布です。
標準正規分布とは
標準正規分布とは、μ = 0、σ² = 1の正規分布のこと。記号で N(0, 1) と書きます。
標準正規分布の曲線を見てみましょう。
標準正規分布 N(0, 1):中心 0、幅(標準偏差) 1。すべての正規分布の基準となる形
なぜ「標準」なのか
標準正規分布が特別なのは、すべての正規分布をこの形に変換できるからです。これを標準化と呼びます。
正規分布 N(μ, σ²) に従う X を、次の式で変換すると:
Z = (X − μ) / σ
Z は標準正規分布 N(0, 1) に従う。
この変換、見覚えがありませんか? 7-2で学んだ aX+b の形(a = 1/σ, b = −μ/σ)です。第3章で学んだ偏差値も、本質は同じ標準化でした。異なる正規分布を、共通のものさしに揃える──これが標準化の力です。
標準正規分布表
標準正規分布の確率は、計算が複雑なためあらかじめ表にまとめられています。これを標準正規分布表と呼び、3級の試験でも問題用紙に添付されます。次回の7-4で、この表の使い方を詳しく学びます。
4. 68-95-99.7ルール ─ 正規分布の重要な性質
正規分布には、覚えておくと役立つ大事な経験則があります。
正規分布 N(μ, σ²) において:
μ ± σ の範囲に、データの約 68% が入る
μ ± 2σ の範囲に、データの約 95% が入る
μ ± 3σ の範囲に、データの約 99.7% が入る
これは「68-95-99.7ルール」と呼ばれ、正規分布のもっとも有名な性質のひとつです。標準正規分布で言えば、Z が −1 〜 1 の範囲に約 68%、−2 〜 2 の範囲に約 95% が収まります。
68-95-99.7ルール:μ±σで約68%、μ±2σで約95%、μ±3σで約99.7%が収まる
身長で実感してみる
日本人男性の身長を N(170, 36) (平均170cm、標準偏差6cm)とすると:
- μ ± σ = 164〜176cm の範囲に、約 68% の人が入る
- μ ± 2σ = 158〜182cm の範囲に、約 95% の人が入る
- μ ± 3σ = 152〜188cm の範囲に、約 99.7% の人が入る
確かに身長が190cm近い人(μ + 3σ ≒ 188cm)はかなり珍しく、200cmを超える人はほぼゼロに近い──直感と合いますね。
実務で使うイメージ ─ Tシャツの発注
正規分布は「世の中の不確かなことは正規分布に従う」と言われるくらい、現実のあらゆる場面に現れます。68-95-99.7ルールは、知っているかどうかで実務の意思決定が変わるくらい強力な道具です。身近な例で実感してみましょう。
ファンクラブのイベントで、会員1,000人にTシャツを配ることになりました。会員の身長は N(170, 36) (平均170cm、標準偏差6cm)に従うとします。Tシャツのサイズは S・M・L の3種類。
- Sサイズ:身長164cm未満
- Mサイズ:身長164〜176cm
- Lサイズ:身長176cm以上
各サイズを何枚ずつ発注すれば、ロスを最小にできるでしょうか?
計算してみる
μ ± σ = 170 ± 6 = 164〜176cm。これはちょうどMサイズの範囲ですね。68-95-99.7ルールから、ここに約68%の人が入ります。
残りの32%は、左右対称なので半分ずつ。164cm未満と176cm以上に約16%ずつ分かれます。
- Mサイズ:1,000 × 68% = 680枚
- Sサイズ:1,000 × 16% = 160枚
- Lサイズ:1,000 × 16% = 160枚
合計1,000枚。この比率で発注すれば、サイズ違いで余ったり足りなかったりするロスを最小化できる──というわけです。
正規分布と68-95-99.7ルールがわかると、こうした「需要を予測して、適切な量を準備する」判断が、感覚ではなく数字でできるようになります。在庫管理、人員配置、品質管理など、実務のあちこちで活躍する考え方です。
5. 二項分布と正規分布の美しい関係
最後に、本ページのハイライト。二項分布と正規分布は、実は深い関係でつながっています。
nが大きいと二項分布は正規分布に近づく
二項分布 B(n, p) で、nが十分大きいとき、その分布の形は正規分布に近づくのです。具体的には:
n が十分大きいとき、二項分布 B(n, p) は
正規分布 N(np, np(1-p)) で近似できる
期待値 np と分散 np(1-p) を持つ正規分布で、二項分布の形を近似できる──ということです。先ほど見た B(10, 0.5) のグラフを思い出してください。あの左右対称な山型、すでに正規分布に似ていましたよね。nを大きくするほど、ますます正規分布の形に近づいていきます。
なぜこれが嬉しいのか
二項分布の確率を直接計算するのは大変です。たとえば「コインを100回投げて表が55回以上出る確率」を求めるには、₁₀₀C₅₅ + ₁₀₀C₅₆ + ... + ₁₀₀C₁₀₀ という膨大な計算が必要。
でも、正規分布で近似できれば、標準正規分布表を使って簡単に計算できるようになります。これを「正規近似」と呼び、次回の7-4で詳しく扱います。二項分布と正規分布の橋渡し──これが統計学の美しさのひとつです。
まとめ
第7章3回目の本ページ、ポイントを整理しておきましょう。
- 二項分布 B(n, p):成功か失敗かの試行をn回繰り返したときの成功回数の分布
- 二項分布の期待値・分散:E(X) = np、V(X) = np(1−p)
- 正規分布 N(μ, σ²):身長や測定値など、世の中のあらゆる場面に現れる釣鐘型の分布
- 標準正規分布 N(0, 1):μ=0, σ²=1 の正規分布。すべての正規分布の基準
- 標準化:Z = (X − μ) / σ で正規分布を標準正規分布に変換できる
- 68-95-99.7ルール:μ ± σで68%、μ ± 2σで95%、μ ± 3σで99.7%が入る
- 正規近似:n が大きい二項分布は、正規分布 N(np, np(1-p)) で近似できる
次回はいよいよ正規分布の確率計算。標準正規分布表の使い方、一般の正規分布の確率の求め方、そして二項分布の正規近似による計算──これらを具体例とExcel関数で押さえます。第7章の最終回です!
二項分布と正規分布、それぞれの形と性質つかめたかな? 特に68-95-99.7ルールは、現実のデータを見るときも超役立つ感覚だよ! 次回はいよいよ正規分布の確率計算──Excelを使って実際に確率を求めていくよ!