第6章 6-5 / 確率

ベイズの定理

このページで学ぶこと

確率の山場、ベイズの定理に到達しました。前回の条件付確率を発展させた定理で、「結果から原因を推測する」ための強力な武器です。現代のデータサイエンス・AI・医療診断・スパムフィルターなど、あらゆる場面で活躍しています。

いきなり式を見せると難しく感じる定理なので、本ページは具体的な問題から始めます。前回の最後に登場した病気の検査の問題を、計算しながら一緒に解いていきましょう。計算を進めるうちに、自然と全確率の定理とベイズの定理が見えてきます。

おそらく途中で、「えっ、そんなに低いの？」と驚く瞬間が来ます。その驚きが、ベイズの定理を一生忘れない記憶に変えてくれます。

さえ

ベイズの定理は確率の山場！　でも安心して、具体例から一歩ずつ進めば必ず理解できる！　最初に直感で答えを予想してから計算するのがおすすめだよ。直感とのギャップこそが、ベイズの定理を体に刻みつけてくれるよ！

1. まずは問題を解いてみよう

ベイズの定理を理解する一番の近道は、「実際に問題を解いてみる」こと。次の問題を、一緒に最後まで計算してみましょう。

例題：病気の検査

EXAMPLE

ある病気に関する検査について、次のことがわかっています。

その病気にかかっている人は、人口全体の1%（100人に1人）
病気の人がこの検査を受けると、90%の確率で陽性となる
病気でない人がこの検査を受けると、5%の確率で誤って陽性となる

ある人が検査を受け、結果が陽性でした。この人が本当に病気である確率は？

まずは直感で答えてみる

計算を始める前に、直感で答えを予想してみてください。「検査の精度が90%なら、陽性が出たら90%くらい病気じゃないの？」と感じる方が多いと思います。でも──

実際の答えは、約15%です。

えっ、と思いましたよね。検査の精度が90%もあるのに、陽性が出ても病気である確率は15%しかない。多くの人にとって直感に反する結果ですが、これがベイズの定理が示す現実です。なぜそうなるのか、これから一緒に計算で確認していきましょう。

2. 100人で考えてみる

確率を「割合」のまま考えると混乱しやすいので、具体的な人数に置き換えます。100人ではちょっと少ないので、10,000人を仮定して計算しましょう。

10,000人を病気/病気でないに分ける

10,000人がいると仮定します。

病気の人は1%なので、100人
病気でない人は99%なので、9,900人

それぞれの検査結果を考える

この100人と9,900人が検査を受けたとき、何人が陽性となるかを計算します。

病気の100人のうち、陽性になる人：90%が陽性なので、100 × 0.90 = 90人。残り10人は陰性（誤って陰性と判定）。

病気でない9,900人のうち、陽性になる人：5%が誤って陽性となるので、9,900 × 0.05 = 495人。残り9,405人は正しく陰性となる。

表にまとめる

ここまでを表にしてみましょう。

	陽性	陰性	合計
病気である	90人	10人	100人
病気でない	495人	9,405人	9,900人
合計	585人	9,415人	10,000人

樹形図でも見てみる

同じ計算を、ツリー（樹形図）でも見てみましょう。視覚的に追えるとイメージが固まります。

10,000人を分岐させてカウント。陽性となるのは90人 + 495人 = 585人

3. 答えを求める

ここまで来れば、答えはあと一歩です。

陽性者は全部で何人？

表とツリーから、陽性となった人は次の2グループの合計です。

病気で陽性：90人
病気でないのに陽性（誤判定）：495人
陽性者の合計：90 + 495 = 585人

陽性者のうち、本当に病気の人は？

陽性者585人のうち、本当に病気なのは90人だけ。残り495人は誤判定です。だから、

P(病気 | 陽性) = 90 ÷ 585 ≒ 0.1538 ≒ 15.4%

予想より低かったですよね。検査の精度が90%もあるのに、陽性が出ても病気である確率は約15%。誤判定の495人が、正解の90人より圧倒的に多いからです。

なぜこんなに低いのか

理由は、「もともと病気の人がとても少ない」からです。100人に1人しか病気でないなら、10,000人中の病気は100人。一方、病気でない9,900人のたった5%でも、人数にすると495人にもなる。母数が大きいと、誤判定の絶対数も大きくなる──これがベイズ計算の核心です。

この性質は稀な病気の検査では特に顕著です。「病気である確率がもともと低いとき、陽性が出ても誤判定の可能性のほうが高い」──これは医療現場でも重要な知見で、なぜ「陽性が出たら追加検査をする」のかの根拠になっています。

POINT

検査の精度（90%・5%）だけ見ると高そうでも、もとの確率（事前確率）が低いと、陽性が出ても病気である確率は思ったより低くなります。「精度」と「事前確率」の両方を見るのがベイズの考え方です。

4. 計算を式で振り返る

ここまでの計算を、確率の式で振り返ってみましょう。最初は「具体的な人数で計算した」だけでしたが、それを記号で書くと、ベイズの定理が姿を現します。

使った確率の整理

事象を次のように決めます。

事象A = 病気である
事象A^c = 病気でない（Aの余事象）
事象B = 検査が陽性

問題文から、わかっている確率は次の3つでした。

P(A) = 0.01（病気である事前確率）
P(B|A) = 0.90（病気のときに陽性となる確率）
P(B|A^c) = 0.05（病気でないのに陽性となる確率）

陽性者の合計を式で書く

陽性者は「病気で陽性」と「病気でないが陽性」の合計でした。これを確率の言葉で書くと：

P(B) = P(A) × P(B|A) + P(A^c) × P(B|A^c)

実際の値で計算してみると：

P(B) = 0.01 × 0.90 + 0.99 × 0.05 = 0.009 + 0.0495 = 0.0585

これは10,000人中585人が陽性、つまり5.85%という先ほどの計算と一致しますね。

これが全確率の定理

この式 P(B) = P(A) × P(B|A) + P(A^c) × P(B|A^c) こそが、全確率の定理と呼ばれる定理です。

意味は素朴です。「Bが起こる確率は、Bが起こりうるすべての経路を足したもの」──ツリーで言えば、「陽性につながる枝」をすべて足した値、ということ。さきほど人数で「90人 + 495人 = 585人」と計算したのと、まったく同じことを式で表現しているにすぎません。

求めたい答えを式にする

私たちが求めたかったのは「陽性のとき本当に病気の確率」、つまり P(A|B) です。条件付確率の定義から、

P(A|B) = P(A∩B) ÷ P(B)

ここで分子の P(A∩B) は「病気かつ陽性」の確率。これは乗法定理から P(A) × P(B|A) で表せます。分母の P(B) は今出てきた全確率の定理で計算できます。

これがベイズの定理

FORMULA

これがベイズの定理です。あの直感に反する答え「陽性でも病気の確率は約15%」は、この式から出てきます。実際に値を入れて計算してみましょう。

P(A|B) = 0.01 × 0.90 ÷ [0.01 × 0.90 + 0.99 × 0.05]
= 0.009 ÷ 0.0585
= 0.1538…（≒ 15.4%）

ぴったり一致します！　人数で計算したものと、式で計算したものが同じ答えになる──式は人数の計算を正確に表現する道具にすぎないんですね。

5. ベイズの定理が大切な理由

ベイズの定理が画期的なのは、「結果から原因を推測する」ことができる点です。条件付確率と一見似ていますが、向きが違います。

「向き」を入れ替える定理

P(B|A)：原因 → 結果。「病気のとき(A)に陽性(B)になる確率」 ─ ふつうにわかる情報
P(A|B)：結果 → 原因。「陽性(B)となったとき本当に病気(A)である確率」 ─ 本当に知りたい情報

多くの場面で、私たちが本当に知りたいのはP(A|B)のほう。でも、データとして手に入るのはP(B|A)であることが多いんです。「病気の人を集めて検査の精度を測る」ことはできても、「陽性者を集めてそのうち病気の割合を出す」のは、検査の精度が事前にわかっていないと難しい。

ベイズの定理は、P(B|A)からP(A|B)を計算するための公式。だからこそ、現代のデータサイエンスでこんなに大切にされているんです。

身近な活用例

医療診断：「症状が出ているとき、特定の病気である確率」
スパムフィルター：「メールにこの単語が含まれているとき、それがスパムである確率」
検索エンジン：「ユーザーがこのクエリを入力したとき、何を求めている確率」
機械学習：「このデータが観測されたとき、どのモデルが正しい確率」
裁判：「証拠がそろったとき、被告人が有罪である確率」

どれも「結果から原因を推測する」場面ばかりです。ベイズの定理を学ぶことは、現代社会で意思決定する力を養うことにもつながります。

6. 練習問題

もう1問、似たタイプの問題を解いてみましょう。今度は自分で計算する番です。

問題 ─ 工場の不良品

ある工場では、A機械とB機械の2台で製品を作っています。

製品全体の60%はA機械で、40%はB機械で作られている
A機械で作られた製品の不良率は2%
B機械で作られた製品の不良率は5%

ある製品を抜き取り検査したところ、不良品でした。この不良品がB機械で作られた確率を求めてください。

解答を見る

まず、1,000個の製品で考えます。

A機械で作られた製品：1,000 × 0.60 = 600個
B機械で作られた製品：1,000 × 0.40 = 400個

それぞれの機械で出る不良品の数：

A機械の不良品：600 × 0.02 = 12個
B機械の不良品：400 × 0.05 = 20個
不良品の合計：12 + 20 = 32個

この32個の不良品のうち、B機械で作られたのは20個。だから、

P(B機械 | 不良品) = 20 ÷ 32 = 5/8 = 0.625（62.5%）

ちなみにB機械の生産割合は40%だったのに、不良品の中ではB機械の割合が62.5%まで跳ね上がっています。不良率の高いB機械が、不良品の中で過剰に代表されているからです。これもベイズの定理が示す典型的な現象です。

式で書くなら：

P(B|不良) = P(B) × P(不良|B) ÷ [P(A) × P(不良|A) + P(B) × P(不良|B)]
= 0.40 × 0.05 ÷ [0.60 × 0.02 + 0.40 × 0.05]
= 0.020 ÷ 0.032 = 0.625

人数で計算しても、式で計算しても同じ答え。これがベイズの定理の力です。

まとめ

第6章5回目の本ページ、ポイントを整理しておきましょう。

ベイズの定理：「結果から原因を推測する」確率の公式
具体例で考える：割合より人数で考えるのが圧倒的にわかりやすい(100人や10,000人を仮定)
樹形図(ツリー)：分岐を確率で進めて、各経路の人数を計算するとイメージしやすい
全確率の定理：P(B) = P(A) × P(B|A) + P(A^c) × P(B|A^c)。Bが起こる経路をすべて足す
ベイズの定理の式：P(A|B) = P(A) × P(B|A) ÷ P(B)
事前確率の影響：もとの確率(P(A))が低いと、陽性でも病気の確率は思ったより低くなる
応用範囲：医療診断、スパムフィルター、機械学習、裁判など

次回は第6章のラスト、独立性に関する注意です。独立性を扱うときに陥りやすい落とし穴を整理して、第6章を締めくくりましょう。

さえ

ベイズの定理、計算しながら理解できたかな？　「陽性でも病気の確率は15%」──この衝撃、忘れられないよね。ベイズは「結果から原因を考える」最強の道具！　現代のAIや医療の根っこにあるんだよ！　第6章もあとひとつ！