Udemyで講座を受講しよう!
統計

母集団で求める分散と標本で求める分散

Yujiro Sakaki

統計学の勉強で、とてもハードルが高かったのが「分散」の理解でした。まったく理解ができなかった過去があります。講師である私も沼にはまってしまいました。

Check Point

この記事で学習できること

  • 母分散
  • 標本分散
  • ベッセル補正
  • 不偏分散

この記事では、分散について勉強していきましょう。

母分散と標本分散

分散は2つの用語に分かれます。

  1. 母分散
  2. 標本分散

母分散は母集団の分散で、標本分散は標本の分散です。まあ、そのままですよね。前の記事で、標準偏差について記載しました。

標準偏差の説明では、母集団と標本というキーワードがまだ登場していなかったため、母集団に対しての計算方法で、標準偏差の求め方をご紹介しました。

以下のリンクの記事での分散は、母分散を求めています。

標準偏差とは、データのばらつき、平均値からの 1σ の距離を把握し、約68%のデータの範囲を推定する値でした。

その計算過程において、平方根にする前の値「分散」がありました。実はこの分散の算出方法は、対象とするデータが母集団か標本かで求め方が異なります。

それでは見ていきましょう。

標本分散の修正方法

標本データで分散を前述のブログのとおり求めてしまうと、母集団の分散よりも小さな値で求まってしまうといったデメリットが発生します。

これは、天文学者のフリードリヒ・ヴィルヘルム・ベッセルさんの発見で、このデメリットを解消するために「ベッセル補正」という計算フローが誕生しました。

標本で分散を出力することは、実際の真の分散(母分散)を推定することになります。

ベッセル補正

標本データには、そもそも偏りがあると考えた方がいい。その偏りを除去するため、分散を求める式を変更しよう。

「 変動 ÷ データ件数 」ではなく、
「 変動 ÷(データ件数-1)」で求める。

こうすれば、実際の母分散に近づくだろう。

求めることができない母分散の推定精度を上げるために、分散の計算式を工夫しないといけないことに気づいたのです。

ただでさえ、分散はスケールが大きな値。コンピューターのない時代に、昔の数学者はすごいですよね。それではキャプチャを使って、分散の計算方法を見ていきましょう。

標準偏差の説明に使ったキャプチャを使い回しますので、「変動」の値がどのように計算されたか復習してください。

母集団としての計算方法

母集団としたときの分散は「50,625」

標本における分散の計算補正

標本としたときの分散は「55,227」

キャプチャのとおり、母分散は変動をデータの件数で割っているのに対し、標本分散の補正は、変動 ÷(データの件数-1)で計算をしています。

分母が減れば取り分は大きくなるように、散らばりの値が大きくなりました。

標本分散で、このように補正した分散を、標本に含まれるであろう偏りを取り除いた分散ということで「不偏分散(ふへんぶんさん)」と名付けられました。

なので、標本分散は標本の分散で、まだベッセル補正をしていない分散のことを指します。不偏分散というのが、ベッセル補正の入った分散です。

  1. ベッセル補正なし → 「標本分散」
  2. ベッセル補正あり → 「不偏分散」

統計学の勉強で、ここが詰まった箇所です。皆さんはスムーズに覚えられることを祈っております。

標本標準偏差とは?

標準偏差も、2つの用語に分かれます。

  1. 母集団における標準偏差
  2. 標本における標準偏差

標本は、標本標準偏差と繋げて言うのですが、母標準偏差とは言いません。きっと、語呂が悪いからでしょう。

母集団に対しての標準偏差は、母分散の平方根で求められます。

標本に対しての標準偏差は、ベッセル補正が組み込まれた不偏分散の平方根で求めるため、母分散で求める計算式より、散らばりがプラスに増加します。

前のキャプチャのとおり、母集団としての計算式では「225」に対し、不偏分散を使った計算式では「235」となったわけです。

この「235」の値の方が、実際の母集団のばらつきに近いということですね。

一般的に、データ分析では標本データを扱うことがほとんどです。ですので、標準偏差を求める場合、不偏分散を扱った計算式を採用するということになります。

母集団と標本、どちらの標準偏差もたいした差はないので、ビジネスではどちらを使っても影響はないレベルではありますが、それでもやっぱり不偏分散から求める標準偏差を扱うことが望ましいでしょう。

まとめ

標本分散・不偏分散・母分散と、統計学の書籍では難解な数式に加えて難しい単語が入り混じるため、標本分散と不偏分散の言葉の違いを独学で完全理解するまで、本当に時間がかかりました。

標本分散と不偏分散の違いは、ベッセル補正あり・なし、だけだったんですね。

分散という値は、標準誤差のときにも使いますし、のちのちに記載する相関係数を求める際にも使われます。スケールの異なるデータですが、分散は基本統計量の中に含まれる重要な代表値のひとつです。

この分散を確実に理解できると、統計学の視野も広がるはずなので、ここまでの内容を自分の口でも説明できるようにしておきましょう。

次は度数分布表についてです。こちらの記事は以上となります。おつかれさまでした。

Advertisement
ABOUT ME
榊 裕次郎
榊 裕次郎
Excel講師
1981年10月生まれのてんびん座、東京都出身。趣味は、旅行と料理とワイン。2024年は、佐賀県に行って「呼子のイカ」を思いっきり食べたいです。

仕事では2023年も引き続き、青森・秋田・岩手でのお仕事依頼、お待ちしております!
記事URLをコピーしました