こんにちは! Excel講師の榊裕次郎です。
この記事では、統計学において「検定」の際に登場する「帰無(きむ)仮説」と「対立(たいりつ)仮説」について、確実に理解できるようまとめていきます。
この検定をする手段で、「背理法(はいりほう)」というものがあります。
これは、普通起こりえないだろう仮説(帰無仮説)を立てて、それを数式の答えによって「人または機械」が否定し、もうひとつの相反する仮説(対立仮説)を採用して結論を求める技です。
統計学の勉強を進めていくと、帰無仮説を棄却する、有意差(ゆういさ)がない、有意水準5%(ゆういすいじゅんごぱーせんと)などなど、非常に用語が難しく、専門的で、事例も数式だらけで自分がなかなか理解できなかった箇所でした。
Excel講師が教える「帰無仮説」と「対立仮説」について、具体例を出しながら、できるかぎりわかりやすく解説していきますね!
有意差とは?
統計学的検定のための「帰無仮説」と「対立仮説」を理解する事前準備として、有意差というキーワードを紐解いていきましょう。
有意差とは「意味のある差」、と言い換えます。
一例として、通常とは違うデータが現れたシーンを想定してください。
- 局地的な大雨が長く続き、今日は客数が普段よりまったく少なかった。
- 道路の工事渋滞にたくさんはまってしまい、タクシーの売上が少なかった。
- 昨日、有名芸能人が自社製品を褒めていたようで、売上が普段の5倍売れた!
こんなイメージです。
日々の商売において、1日あたりの平均がこのくらいなのに対し、何か特別なことが起きて通常とは異なる客数、売上、販売数が、普段よりも+またはーの値で記録されます。
この値は、普段よりも数値がかけ離れているため、「差がある」と表現します。
その「差がある」の「差」ことを、有意差といいます。
そのため、有意差は「意味がある差」と言い換えることができるわけです。
そしてこの有意差は、昨日は1,200もプラスだ、今日は2,000もマイナスだ、と単日的には考えません。
データの全体を見渡して扱うキーワードです。
そういった出来事は、100日(100回)のうち5日(5回)ぐらいは発生しそうなものですから、全体のデータに〇%そういった差が発生するか? の確率として考えます。
有意差がある = 普段はこのくらいになるはず! という予測(思い込み・経験則・仮説)に対して、実際の結果では、意味のある差が〇%発生している! という意味で使っています。
ちなみに、100日(100回)のうち50日(50回)も発生した場合、それはもう日常茶飯事のこととなるので、普段よりも今日はイレギュラーな日だなぁ、有意差があるなぁ、とは言えません。
頻度が高くなれば「意味のある差」は失われていくので、この場合は「差」がないと表現できます。
よろしいでしょうか?
それでは詳しい事例として、Excel講座の集客状況について考察してみましょう。
チームSAKAKIの運営するExcel講座の募集テクニックは万事順調である! ということが本当かどうか? 第87回目のExcel講座の受講生募集をしているケースで考察していきます。
1回目募集 34人
2回目募集 26人
3回目募集 36人
4回目募集 29人
5回目募集 8人
・
45回目募集 11人
・
86回目募集 30人
→ 87回目 募集中
1回目の募集から、だいたい平均して30人ずつ講座の募集をしていました。
会場費・運営費・講師報酬・サブ講師の報酬などを含めて、募集12人が損益分岐点とします。
つまり、12人集めないと、赤字講座になるということです。
幸いにも、おおかた黒字開催を継続していました。
86回目までは、過去に2回だけの赤字講座で、それ以外はすべて黒字講座を続けています。
過去に2回の赤字実績はあれど、87回目の募集も、だいたい「30人」前後の募集人数が予測(期待)されます。
しかし、今回は募集が終わってみれば……
87回目募集 10人 !
どんなに追加募集をかけても「10人」しか集まらなかった! という事態に直面したとしましょう。
87回やってきた中で、いよいよ3回目の出来事が起きてしまいました。
仏の顔も三度まで、これまでの回数から発生確率を計算してみると、
3(回)÷87(回目の募集)= 0.0345 → 3.45%(赤字講座の発生確率)
これは、たった3.45%というべきか、これで3回も募集に失敗した! と嘆くべきか、果たしてどちらになるでしょうか?
※ 赤色84個、白色3個の玉が入った袋に手を入れ、白玉を引き当てるのと同じ計算方法を採用しておりますが、説明の簡素化のため、一旦はこちらの確率で話を進めていきます。
有意水準5%とは?
次に覚えるべきは「有意水準」というキーワード。
先ほど述べた「有意差」の「水準」です。
物事には、必ず危険性(リスク)が含まれていると考えます。
Excel講座の集客に関しては、100%黒字開催をし続けることは、ありえないと考えるのが普通です。
一般的に、こういった出来事が起きる水準を5%と設定しています。
どんなにうまくいっているものでも、全体の5%は何かしらの出来事が起きる、うまくいかないリスクを持っている、という統計学上のお決まりごとです。
この水準のことを、有意差(意味のある差)が発生する水準ということで、有意水準(ゆういすいじゅん)と読んでいます。
有意水準5%ということは、有意差のあるデータが5%の確率で紛れ込む可能性がある! ということを意味しています。
※ 緩いと10%設定で、医療統計だと1%と厳格になります。
意味のある、異常なことが起きる水準が5%、この有意水準は「α(アルファ)」という記号で使われます。
α = 0.05 → 有意水準 5%
有意水準5%と設定すると、この3.45%の確率で起きた赤字講座の開催は、そもそも5%の水準内に収まっている出来事なので……
今回も何かしらの原因があって募集が失敗しただけ、100%なんてありえないんだから、継続していれば何かしらの要因が発生して、今回のような集客減もあるさ! なんくるない \(^o^)/ チームSAKAKI、次の募集はがんばろうぜ!
と判断します。
そして、この3.45%をp値(ピーチまたはピーバリュー)といい、PはProbabilityの頭文字で「確率」という意味を持った値です。
p = 0.0345 → p値 3.45%
p(0.0345)<α(0.05)
の関係性が成り立ちます。
それでは、本題の「検定」で扱う、帰無仮説と対立仮説について解説していきます。
チームSAKAKIの運営するExcel講座の募集テクニックは万事順調である! と自負しているのは、本当に正しいのでしょうか?
帰無仮説(null hypothesis)とは?
帰無仮説は、「有意差がない」仮説になります。
漢字のとおり「無に帰す」仮説なので、通常は否定したい仮説を設定します。
リーダーである私が、今回の募集はいつものノウハウを持ってやった。通常募集にはなんら問題は(有意差は)なかった! とすると……、これはきっとスタッフの問題だ! お前らがちゃんと募集業務をしないからだ! だらしがないからだ!
と、チームメイトに怒鳴るかどうかの選択肢を持つことが、帰無仮説です。
いつもどおり、みんな仕事を頑張っているのに、特別な要因がなく(有意差がなく)集客減になったなんて嫌ですし、認めたくないですよね。
絶対に否定してやる! 無にしてやりたい仮説を立てるのが、帰無仮説となります。
対立仮説(alternative hypothesis)とは?
対立仮説は「有意差がある」という仮説になります。
対立仮説なので、帰無仮説の反対側にあるもの、こちらの仮説が正しい! という結論に持っていきたい仮説です。
今回の募集では、これまでの募集と違いが(有意差が)あったんだ! これはしょうがなかったんだ! みんな、落ち込むな! 次がんばろう!
とチームメイトを激励する選択肢が、対立仮説です。
表示されているデータをもとに、この異なる2つの仮説をセットして、チームSAKAKIの運営するExcel講座の募集テクニックは万事順調である! という「検定」に入ります。
検定
中学校の数学でやった、三角形の合同条件から2つの三角形が合同かどうかを導く手順のように、「検定」もそういった手順があるということですね。
- 否定したい帰無仮説を作って
- p値が、有意水準が5%を超えていないかどうかをチェック
- p値が5%より小さい値なら、帰無仮説を却下、対立仮説を採用!
有意水準が5%と設定し、全体から3.45%の発生確率で起きている出来事なので、有意差があると判断します(5%ぐらいは何か原因がどっかにあって起きるもんだから、今回のやつもその類だ!)。
- 帰無仮説(有意差がない仮説)は棄却!
- 対立仮説(有意差がある仮説)を採択!
- 今回の募集は、これまでの募集と違いがあった! しょうがなかった! みんな、落ち込むな! チームSAKAKIの運営するExcel講座の募集テクニックは万事順調! さあ、次がんばろう!
という審判が下って、この「検定」はおしまいです。
対立仮説が採択され、みんなに激励を告げて88回目の募集につなげていきます。
以上が、帰無仮説と対立仮説の説明でした。
ちなみに、Web広告を出すときにパターンAの画像がいいか、パターンBの画像がいいか、というようなABテストをする、微妙な検定を想定してください。
今回はあからさまな事例でしたが、微妙な検定の場合、帰無仮説と対立仮説を入れ間違ってしまった場合でもいいの? という疑問が出てきます。
個人的に嫌いな画像を帰無仮説に入れる、というのもなんだかおかしな話ですからね。
基本的には、棄却するストーリーでいきたいだけなので、破棄したいほうを帰無仮説に持ってくるのが通例です。
入れ違って仮説を立ててしまっても特段問題ではなく、問題は、帰無仮説が正しいときに棄却してしまったり(第一種の過誤)、帰無仮説が正しくないのに対立仮説を棄却してしまったり(第二種の過誤)というケースがあり、ここから先は沼に入っていくので、今回の記事では割愛させてください。
まあ、複雑怪奇です。
まとめ
いかがでしたでしょうか?
有意差・有意水準がちょっと長くなってしまいましたね。
今回は、検定の帰無仮説と対立仮説に特化した内容で書きました。
確率の話が入ると、どうしても確率の求め方分の説明が上乗せとなるため、今回の事例では「黒字講座の回数」と「赤字講座の回数」の発生確率をp値として、シンプルにご説明しました。
p値に関しては、また別の記事で書きます。いろいろと求め方が大変難解な値です。
今回の赤字講座発生確率3.45%は、帰無仮説と対立仮説をシンプルに説明するために代用したものなので、何卒ご容赦ください。
この「検定」は、単純に有意差があったかないかを調べるだけなので、帰無仮説を棄却しておしまいではなく、なぜ意味のある差が発生したのか? どうして募集人数が減ったのか? 結局のところ、原因究明に全力を挙げなければなりません。
加えて「検定」というのは、○か✗かの二者択一にしかならないので、報告書にまとめるとき、経営者層やエンドユーザーに対しては、このままだと単なる評価で終わってしまうこととなります。
だから何? が必要なのです。
実際のところ、お金を払っているアドバイザーから「有意差があった、なかった」で、分析完了されても釈然としませんよね。
そもそもこの検定は必要あったの? 別の調査方法があったんじゃないの? この分析は私たちのビジネスに有効だったの? と総突っ込みされそうです。
今回のExcel講座の事例では、ひとまず検定が必要で、帰無仮説の棄却までを言い切り、その後、
- その年のカレンダー、または連休との兼ね合いを調べる
- 赤字講座のときでも、開催するメリットがあるかどうかを精査する
- すぐに改善できる要素がないか、ブラッシュアップする
- 同業者も同じタイミングで集客減かどうかも調べる
- Excel基礎講座を受けなければいけないメリットの減少がないか調べる
- 募集時、通常とは齟齬が発生する内容になっていなかった調べる
- 赤字講座のときにしかできない企画はあるかどうか考える
- これまでに出た改善策で、実行するとマイナス面が発生する要素はないか考える
などの提案をします。
実行、評価、改善、失敗、改善、効率化ができてこそなので、帰無仮説を棄却できたとしても、明日は何が起きるかわからないという不確実性のため、責任ある無責任さがこの分野では重要なのかなとも考えています。
いろいろと施術して成功すれば、結局のところはみんながハッピーですからね。
以上、検定における帰無仮説と対立仮説に関する説明でした。
それではまた!
はじめまして。参考になりました。
結局のところ、3%を「偶然」と捉えるか否か、という事でしょうか?その基準として、有意水準を用いると。しかし、そうなると
有意差 有→偶然ではない
有意差 無→偶然、たまたま
と言うような考えでしょうか?
であれば
今回の募集→有意差が有った→仕方がない
と言えるなら
今回の募集→有意差が無かった
↑
これも、仕方なかった。従業員のせいでは無い。だって、有意性が、無いんだから、偶然的なものでしょう?
となりませんか?
もっとも、統計手法を国語や言葉遊びで説明するのは、難しいのでしょうが、私はあまり理解がよくないので、帰無仮説と対立仮説は未だに「これどっちもあてはまらね?」「逆じゃね?」というテーマ、例題にしばしば当たり、どちらを帰無仮説にするのかと言う事に悩んでいます。
コメントありがとうございます。
当初はアクセス0だったので、自分の中のもやもやをアウトプットした単なる頭の整理記事でございましたが、
Google Discoverなどに乗ったりして、いろいろとアクセス数が増えてしまいました(;^_^A
今読むと書き直さないとなと思う次第でございます。
すっきりご説明できておらず申し訳ございません。時間ができたら、更新しておきますね。
2022年はいろいろと講座を重ねて自分自身の理解を深めつつあり、こういうご回答をさせていただきます。
● 帰無仮説は、棄却したいものをセットする。
● たまたまだ、とする確率を先に設定する。
帰無仮説は自分がこうではないだろうと思うものをセットしてください。
無に帰したい仮説ですからね。
また、間違えて反対に設定してしまっても、採択される仮説は同じになります。
そのためにも、たまたまである、という確率(1% 5% 10%など)の基準を先にセットしてください。
基準を先にセットしないと、あとからいろいろと後付け理由を付けてしまうものなので、
今回はこういう事情だったから仕方ない、前回はああだったから今回もこうでいいよね、
だからこれも仕方なかった、と永遠と過去の経験則に頼ってしまい、現在のデータを無視してしまいます。
という現時点の頭でのご回答となります よろしくお願いいたします。