こんにちは! Excel講師の榊裕次郎です。
ここではχ²(カイ2乗)分布表について、確実に理解できるよう記載していきます!
統計学のWebサイト、ベルカーブさんより引用すると、
カイ二乗分布は、
Z²₁ + Z²₂+… Z²k
が互いに独立で、標準正規分布N(0,1)に従う確率変数であるときに、次の式から算出される自由度kのχ²が従う確率分布のことです。
χ² = Z²₁ + Z²₂+… Z²k
と記載がありますが、初見では何を説明しているのかまったくわからないので、少しずつ紐解いていきましょう。
それではスタートです!
χ²(カイ2乗)値とは?
簡単に説明すると、ズレの度合いを示す値です。
実測データより、χ²値を計算することで、想定しうる理想の値と、実測値とのズレの度合いを示してくれます。
それにより、想定内の範囲なのか、それともズレすぎてしまった実測データなのかを判別(検定)ができます。
χ²(カイ2乗)分布表とは?
ズレの度合いが、信頼区間ごとに一覧となってまとめられている表です。
まず「信頼区間」と「自由度」のお話が必要となりますので、以下2つを解説していきます。
信頼区間とは?
例えば、高校3年生の男子の身長は、150㎝~200㎝まで、だいたい左右対称の釣鐘上の分布(正規分布)になっていて、165㎝から175㎝までの人が多いデータとなっています。
実測データを見てみましょう。
代表的な正規分布例です。
世の中のデータは、だいたいこの正規分布のような結果になると定義づけています。
山の頂上が、170㎝の身長を持つ人たちの人数を示していて、一番数が多く、裾の部分が、150㎝前後、190m前後の割合を示しています。
それでは純粋な正規分布を描いてみましょう。
信頼区間90%ということは、上のきれいな正規分布の図でいうと、赤い⇔の区間、分布図の左端と右端を5%ずつカットした、データ範囲となります。
高校3年生の身長データを例にすると、90%の確率で約155㎝~約185㎝の人がいるだろう、ということになります。
これが信頼区間です。
χ²分布表は、正規分布のような山の形ではありませんが、信頼区間の考え方は一緒です。
自由度とは?
自由に選べる回数のことです。
1~6の数字を無作為に選ぼう! というとき、自由に数字をひとつずつ選べるのは5回だけですよね。
最後の1つは、選択肢がありませんから、1~6までの数字を自由に選ぶ自由度は5となります。
χ²分布表の作り方
以上より、χ²分布表を作ってみましょう。
Excelでは、CHISQ.INV.RT(カイスクエア・インバース・ライトテイルド)関数を使って、簡単に一覧表の作成ができます。
この表を参考に、実測データのχ²値が自由度と有意水準αで定められた水準を超えるかどうか? で判断することができます。
実測値のχ²値とχ²分布表の対応
お酒を飲む人と飲まない人で、居酒屋のあとでラーメンを食べたいか食べたくないか?
こんなアンケートを取ったとします。
お酒を飲む人には100人回答してもらい、お酒を飲まない人には50人回答してもらいました。
居酒屋後にラーメンが食べたくなるかならないか、関係性がまったくないのであれば、コイントスの裏・表を出すことと同じ期待値となるので、確率は「1/2」となります。
確率変数はアンケート回答者の「100人」です。
期待値は、確率変数×確率なので、「50人」ずつになることが期待できます。
同様に、お酒を飲まない人は「50人」にアンケート、この場合も同様で「25人」ずつになることが期待できます。
実際のアンケート結果は以下のようになり、χ²値を求めました。
この結果のχ²値は「54.48」と出力されます。
χ²値の求め方は、別の記事に詳細を記載しましたので、こちらの記事を読み終わりましたら、ご覧いただければ、さらに理解が深まると思います。
キャプチャにも示した通り、(実測値-期待値)² ÷ 期待値です。
【完全理解】Excelとサイコロで学ぶ「カイ2乗検定」の計算方法
さて、自由度はラーメン好き・嫌いの二者択一なので「2ー1=1」となります。
お酒を飲む・飲まない自由度も同様に「1」です。
2項目あるので、掛け算すると「1×1」で、自由度は「1」のまま、危険度としての有意水準5%、信頼区間90%の範囲内での結果は「3.84」なので、結果の「54.48」はぶち抜いていますね。
実測値のχ²値の結果が「3.84」以内であれば、帰無仮説を棄却できず採択、居酒屋後のラーメンを食べたいか食べたくないかはまったく関係がない! となりますが、「54.48」はめちゃくちゃぶち抜いていますので、帰無仮説を棄却、対立仮説を採択、関係はあるよ、いや絶対あるでしょ! ということになります。
お酒を飲んだ後は炭水化物を欲したくなりますし、お酒を飲まない人は居酒屋メニューが食べづらいので、やっぱりラーメンの余力が残ったまま終わってしまうケースが多いのでしょう。
当然の結果と言えば、それで終わるんですけどね。
まとめ
いかがでしたでしょうか?
なるべく専門用語を抜きにして、χ²分布表について、またその表を使った結果の導き方についてご紹介しました。
χ²分布表は自由度によって山の形が変わるので、最初の説明のうちでは山の形を見ないほうがわかりやすいかなと思い、このような説明を行いました。
まだまだ深いので、サンプル問題をいくつか解きながらまた別の記事でχ²分布表について触れたいと思います。
今回は以上となります。それではまた!