こんにちは! Excel講師の榊裕次郎です。
こちらの記事では、統計手法の基本として「信頼区間」について、完全理解できるように解説していきます。
信頼区間とは、
- 物理的に集計しきれない全体のデータの平均が
- 〇%の確率で、どのくらいの範囲にあるかを
- 集計できた実測データから推定する区間のこと
です。
90%信頼区間、95%信頼区間、99%信頼区間、といった表現で用いられます。
こちらは後ほど解説を加えますが、間違えやすいので最初に記載しておきます。
袋に入った100個の玉から、90個、95個、99個ある白玉を1回だけ取り出す操作、90%、95%、99%の確率とは異なりますので、何卒ご注意ください。
前置きはここまでにして、それでは解説スタートです。
はじめに正規分布について
信頼区間を理解するためには、データのスタンダードな分布である「正規分布」について理解しておく必要があります。
世の中のデータは、だいたい正規分布に従うとされています。
以下、きれいな正規分布を描いてみましょう。
一番美しく描くと、このようになります。
平均が「0」で、標準偏差が「1」の正規分布が一番きれいな正規分布の形です。
これを「標準正規分布」と呼んでいます。
山の一番高い「0.0」というポイントが、データの「平均値」になります。
平均値「0.0」のポイントを基準として、「-1.0」~「+1.0」の区間が、「1σ(シグマ)」と呼ばれる標準偏差の範囲です。
標準偏差とは、平均値からの距離を示しています。
例として、社会人男性100名の体重測定を行ったケースで考えてみましょう。
100人全体の平均体重が「70キロ」、「1σ」を体重「5キロ」と計算結果で算出した場合、65キロから75キロの体重の人が、全体の約68%いるよ! というような範囲になります。
この約68%という数字は、そういう数字が算出されるのだと覚えてしまってください。
そして「-2.0」~「+2.0」の区間は、「2σ(シグマ)」と呼ばれる範囲で、データの約95%はこの範囲内にあるよ、という指標となります。
同様に、「-3.0」「+3.0」の区間は、「3σ(シグマ)」と呼ばれる範囲で、データの約99%はこの範囲内にあるよ、という指標となります。
まとめると、
- 1σ = データ全体の約68%
- 2σ = データ全体の約95%
- 3σ = データ全体の約99%
となるわけですね。
おおよそのデータは、ここまできれいな正規分布の形にはなりませんが、だいたいこの分布に従うよ、ということを前提にして分析を行います。
何かしらの目安がないと、基準を導け出せませんからね。
例として、平成27年に集められた高校3年の男子学生の身長データを見てみましょう。
150㎝~200㎝まで、だいたいの正規分布に従っているデータの代表例です。
平均身長は170cm、ここが正規分布の「0.0」の位置になります。
こうデータを実際に集めてみると、身長は正規分布になっているなーということがわかるので、面白いですよね。
そして信頼区間とは?
正規分布を解説できたところで、信頼区間に話は移ります。
信頼区間とは、データ全体の平均値(母平均といいます)が、どのくらいの範囲あるかを推測したい、というときに用いられます。
例えば、乃木坂チップスというポテトチップスを生産している工場があるとして、その内容量は100gとします。
会社の取り決めで許認誤差は、95%信頼区間が100gから±2gの範囲内が正常運転、と定められているとします。
この調査は、標準正規分布に従うと近似してよい、という前提で点検をしていきましょう。
生産ラインから、きちんと100gずつ袋に入っているかを定期点検する際、生産ラインにあるすべての袋を開封して調べるわけにはいきません。
適当に30袋のサンプルをピックアップして検査を行います。
統計用語として、生産ラインにあるすべての袋のことを「母集団」と呼び、この母集団から適当にピックアップした30袋のことを「標本」と言います。
この30袋を調べた平均と標準偏差は以下のとおりです。
標本数(無作為にピックアップしたポテトチップスの袋)は30件、標本の平均、つまり標本平均は「100.1」、標本の標準偏差、つまり標本標準偏差は「3g」となりました。
続いて、信頼区間の範囲の違いを確認するため、信頼度95%のほかに、90%、99%と両側において、危険度をそれぞれ10%、5%、1%と取っていきましょう。
使うのは95%ですので、黄色く塗りつぶしておきましょう。
下側、上側というのは、正規分布に従う場合の除外位置です。
イメージをつけるために、100%横棒グラフをイメージしてください。
正規分布表を上から眺めているイメージです。
黒い部分が除外範囲です。
信頼度90%の場合、データの下側(0~5%)5%と、上側5%(95%~100%)のエリアには、そもそも母平均は存在しないと定義して、カットして考えよう! ということになります。
次に、NORM.S.INV(ノーマル・スタンダード・インバース)関数で、下側と上側の確率変数を求めていきましょう。
これが難しいのですが、結果だけ覚えてください。
このNORM.S.INV(ノーマル・スタンダード・インバース)関数で求められた確率変数を理解するためには、データの標準化、というものを説明する必要があるのですが、ここでは簡単に、「0を基準」とした場合の「距離」だと考えてください。
「-1.64」「-1.96」「-2.58」また「1.64」「1.96」「2.58」という値は、平均「0」からの距離、つまり標準偏差「σ」の距離と同じです。
「2σ」はデータの全体の約95%と申し上げましたが、厳密にいうと95.5%のデータが存在するので、「±2.00」であれば「±2σ」と同じ意味になります。
正確な95%のデータ範囲は、下側・上側「±1.96 」となるわけですね。
信頼度90%、95%、99%と高くすればするほど、受け入れるデータの範囲が広がるため、標準からの距離は遠くなっていくところがポイントです。
つまり、99%信頼区間の場合は、区間範囲が広がって、正確な母平均を推定することができます。
逆に、90%信頼区間の場合は、99%信頼区間よりも区間範囲が狭まって、9%確率の低い母平均を推定することができます。
まあ、95%信頼区間を使うのが一般的でしょう。
これで信頼区間を計算する準備ができました。
信頼区間の求め方
それでは計算していきましょう。
95%信頼区間を求める公式は以下のとおりです。
- 【下側】 標本平均 + (-1.96) × 標本標準偏差 ÷ √ 標本数
- 【上側】 標本平均 + (1.96) × 標本標準偏差 ÷ √ 標本数
となります。
信頼区間を求める関数は残念ながらありませんので、この公式を覚えてください。
難しい計算式ですけれども、Excelなら1発ですよね。
つまり、乃木坂チップスの信頼区間95%は、
99.01g < 推定母平均 < 101.19g
の間に母平均があると推定する、という結果になります。
内容量100gとの表記で、許認誤差が±2gの範囲内としたら、正常運転だという判断となります。
例えば、この計算結果が
98.01g < 推定母平均 < 102.19g
とかになっちゃうと、内容量のばらつきが多くなってきているので、要点検ということになります。
このように、乃木坂チップスの生産数は膨大な量でも、月に1回、このようなルールを決めて定期的に数値を出しておけば、すぐにアラートがわかるようになりますよね。
信頼区間の確率
95%信頼区間は、降水確率と似た定義があります。
この例でいうなれば、この定期点検を100回行った際、その100回のうち95回はこの間に収まることを意味しており、5回は実際の母集団の平均値から外れた範囲で出てくる可能性がある、といった確率です。
冒頭で申し上げた100個の玉の入った袋から、90個、95個、99個の白玉を取り出す確率と同じ、1回の操作で生まれる確率90%、95%、99%とは意味が異なっているので、意味合いにご注意ください。
まとめ
いかがでしたでしょうか?
信頼区間を求めるというのも、ひとつの事例を作っておくと、あとは簡単にExcelで求められると思います。
信頼区間を一発で出力する関数がないので、煩雑な数式を立てなければいけないのですが、こちらは公式として暗記してしまってください。
以上、信頼区間のご説明でした。それではまた!
はじめまして、サイトを参考にさせていただいております。
信頼区間を出す方法の逆で、信頼区間から標準偏差を導き出すExcelの方法(方程式)を教えていただきたいです。
何卒よろしくお願い申し上げます。
青柳様
コメントありがとうございます。
お正月開けたらもう一度このブログ事態も読み直しますので、今しばらくお待ちください(もやっとしてた統計スキルをなんとなく書いたものがバズってしまいましたから(;^_^A)。