こんにちは! Excel講師の榊裕次郎です。

この記事では、統計学におけるp値(ピーチまたはピーバリュー)について、絶対に理解できるように記載していきます。

その前に、有意水準というキーワードがわかっていないと、このp値はどういう値なのかが理解できないので、有意水準もあわせて説明していきますね。

有意水準に関しては、

【過去記事】Excel講師が教える「帰無仮説」と「対立仮説」について

でも解説しているので、お時間がございましたらこの記事を読んだあとに、ご一読いただければさらに理解が深まるはずです。

それでは解説をはじめていきましょう!

有意水準とは?

まず、p値を説明する前に、有意水準というキーワードを紐解いていきます。

実際の使い方として、有意水準1%、有意水準5%、有意水準10%、という感じで使用します。

この、有意水準の後ろにつく「%」は、「確率の%」です。

有意水準5%とは、100回中5回ぐらいは意図しない通常とは違うことが起きるよね、といった異常なことに対して理由がある基準値です。

1日平均50人の来客数があるレストランでも、長期的にみて、だいたい100日のうち5日ぐらいは、まったくお客様が入らなかったり、お客様を断ったりする日があるよね、という確率です。

営業日にものすごく天候が荒れたり、スタッフのシフトに穴が開いて人数を制限せざるをえなかったりと、様々な要因でイレギュラーな営業を余儀なくされることがあります。

もちろん、いやそんなことはない! うちは100%完璧に営業をしている! うちは5%もない! と、プライドを持っているオーナー様もいらっしゃるかと思いますが、あくまでこのくらいは想定しようという「緩み」ですので、そこは受け流してください。

医療のデータになると、5%の緩みは患者さんに対してリスクが高くなってしまうので、有意水準は1%と厳格です。

また、有意水準10%と設定すると、その緩みの幅は広がるため、繁華街の夜営業をしているお店のように、お客様どおしが喧嘩したり、酔っ払った客が戻してしまって店内を汚してしまったりと、ビジネス街の店舗よりもイレギュラーが発生しやすいエリアの場合は、想定外のことが起きる確率が高いので、あらかじめ緩めた設定を採用したほうが無難です。

まとめると……。

〇 有意水準1%
  イレギュラーな確率が全体の1%以上出るものなら、即刻見直し!
〇 有意水準5%
  イレギュラーな確率が全体の5%内に留まるなら、だいたいOK!
〇 有意水準10%
  イレギュラーな確率が全体の10%内に留まるなら、だいたいOK!

という判断目安になります。

有意水準は、どういうシーンで〇%使うのが理想なのか? これは分析する人がそれ相応に判断しないといけないのですが、一般的に5%を使うことが通例です。

1%は医療統計で、10%を使うことは極めて稀なケースなので、有意水準は5%を使う! と最初は覚えておきましょう。

有意水準は、ギリシア文字で「α(アルファ)」という記号を使います。

α = 0.05 → 有意水準5%

有意水準に関しては以上です。

p値とは?

有意水準がわかったところで、p値について解説していきます。

有意水準5%とは、単なる基準値です。

この基準値と照らし合わせる値こそがp値です。

p値 = Probability Value(プロバビリティー バリュー)

翻訳すると、「確率値」です。

事例として、こちらの確率を考えてみましょう。

10回中4回成功した場合、それは単純に 4/10 = 40%の確率で成功した! という計算式を立てたくなるのですが、厳密にいうと少し違います。

成功か、失敗か、で結論を出すとしたら、1回も成功しないか、1回だけ成功するか、2回だけ成功するか、3回だけ成功するか……というように、1回1回、成功か失敗かをドキドキしながらやらなければいけないので、10個のボールのうち、4つのあたりのボールを取り出す1回操作の40%確率とは、状況が少し異なるからです。

p値 = 確率値の求め方はたくさんある! と覚えておいてください。

【ケーススタディ】二項分布によるp値の求め方

コイントスを事例に考察してみましょう。

成功か、失敗か、コインの表と裏で言い換えてみましょう。

Excelでは、BINOM.DIST(バイノミアル・ディストリビューション)関数を使うと、このシーンでの確率を算出することができます。

表の出た回数、試行回数(チャレンジした回数)、裏表の確率は50%、第4引数はFalseとしておきます。以下、Excelのキャプチャです。

関数の出力結果をグラフにすると、このような波形です。

このグラフのことを二項分布(にこうぶんぷ)とも言ったりするのですが、なるべく専門的な用語を伏せて説明したいので、余計なことは考えず、

p値 = 累積した確率の値と覚えてください。

この表で、4回目は20.5%と出力されています。

確率40%とずいぶん確率が低いようにも見えますが、累積した確率とは、0回の確率から4回の確率までを足し算した値になります。

0回 0.1 %
1回 1.1 % (0.1 + 1.0)
2回 5.5 % (1.1 + 4.4)
3回 17.2 % ( 5.5 + 11.7)
4回 37.7 % (17.2 + 20.5)

4回成功まで、累積していくと37.7%になります。

今回の事例では、この値がp値です。

BINOM.DIST関数の第4引数をTrueに切り替えると、累積した値に変更することができます。

10個中4個のあたり玉を取り出す確率40%の値に近づきましたが、数学に則って計算すると、すこしマイナスになりますよね。

有意水準を5%としたとき、コイントスをして表が1回しか出ない場合の確率は1.1%、これは有意水準内です。

ゲームの場合だと、意味のある差(有意差がある)が発生しているので、コインに問題があるか、イカサマされているかの判別ができるため、この状態で賭け事をするとよくないぞ! と言えます。

10回中、表が0回または1回しかでなかったら、やっぱり疑いたくなりますものね。

10回中2回の場合は5.5%と、有意水準以上となるので、運が悪くて2回しかでなかったという結論になります。

イカサマとは言い切れません。

また、この「コイン表」を「イレギュラー発生回数」に置き換えてみましょう。

10回中、イレギュラー発生回数が0回または1回で収まっていれば、それは有意水準内なので、何かしらの原因があったためであり、通常営業において問題なしともいえます。

続いて、「電車の遅延回数」に置き換えてみましょう。

電車の遅延回数も、10回中0回または1回の範囲内であれば、確率的に起こりうる想定範囲内の運行状況(大きなトラブルの内容は含めずして)と言えるため、会社的には問題ありません。

題材によって扱うp値は、結論の出し方はいろいろとなるので、その都度慣れるしかなさそうですね。

p < α

のため、帰無仮説を棄却する、とかそういう使い方をするのですが、そういった統計学的な用語は理解してからでいいかなと思うので、今回はこの説明に留めておきます。

まとめ

今回ご紹介したExcelの関数は、「表」か「裏」かの確率で用いられる関数を使いました。

まず、p値とは、確率の値のことで、累積確率なんだ! とこの記事で学習いただければ幸いです。

p値の確率の求め方は実は多種多様で、今回は一番シンプルなコイントスを事例に二項分布を使った計算手法を取り上げましたが、確率を求める計算式はまだまだ存在します。

なので難しく、ハードルも高く、さらなる知識がないと理解しづらい値でもあるので、このブログでも引き続き記事を重ねて、体系化できるようにしていきますので、よろしくお願いいたします。

それではまた!