第3章 3-1 / 統計的推定

母集団と標本 — 母数と統計量・標準誤差

1. 母集団と標本（直感）

まず2つの基本用語を固めます。3級でも出てきた言葉ですが、2級ではこのあと「確率変数の集まり」として扱うので、ここで土台を作り直しておきましょう。

母集団

母集団（ぼしゅうだん、population）とは、調べたい対象の全体です。「日本の有権者全員」「ある工場で作られた全製品」「ある地域の世帯すべて」など、興味の対象となるすべての要素の集まりを指します。

標本

標本（ひょうほん、sample）とは、母集団から取り出した一部です。サイズ $n$ の標本といえば、$n$ 個の要素を取り出したもの。

2級では、この標本を $X_1, X_2, \dots, X_n$ という確率変数の列として書きます。まだ値が確定する前は大文字 $X$、実際に観測した数値は小文字 $x$、という規約（第2章でおなじみですね）をそのまま使います。

母集団から無作為に標本を取り出す。母集団側の数値が「母数」、標本側の数値が「統計量」

POINT

母集団＝知りたい全体、標本＝そこから取り出した一部。標本は確率変数の列 $X_1,\dots,X_n$ で表し、観測前は大文字、観測後の数値は小文字で書き分けます。この書き分けが、次の「母数と統計量」の区別にそのままつながります。

2. 母数と統計量 — 役割で記号を見分ける

第3章でいちばん大事な区別が、母数と統計量です。どちらも「平均」や「分散」といった同じ名前を持つので混乱しがちですが、「どこの値か」でくっきり分かれます。

母数（パラメータ）

母数（ぼすう、population parameter）とは、母集団そのものが持つ、固定された数値です。私たちが本当に知りたいけれど、ふつうは直接見られない値。記号にはギリシャ文字を使うのが約束です。

母平均 $\mu$：母集団全体の平均
母分散 $\sigma^2$：母集団全体のばらつき（標準偏差は $\sigma$）
母比率 $p$：母集団の中である性質を持つものの割合

統計量（推定量）

統計量（とうけいりょう、statistic）とは、手元の標本から計算できる数値です。母数を言い当てるための材料で、標本が変わるたびに値も変わる確率変数です。これから母数を推定するために使うとき、とくに推定量と呼びます。

標本平均 $\bar{X}=\dfrac{1}{n}\sum_{i=1}^{n}X_i$：母平均 $\mu$ を推定する
標本分散：母分散 $\sigma^2$ を推定する（くわしくは下で）
標本比率 $\hat{p}$：母比率 $p$ を推定する

対象	母数（母集団・固定）	統計量（標本・変動）
平均	母平均 $\mu$	標本平均 $\bar{X}$
分散	母分散 $\sigma^2$	標本分散 $s^2$（または $\hat{\sigma}^2$）
標準偏差	$\sigma$	$s$（または $\hat{\sigma}$）
比率	母比率 $p$	標本比率 $\hat{p}$
正体	定数（ふつう未知）	確率変数（標本ごとに変わる）

記号のクセを覚えておくと迷いません。ギリシャ文字（$\mu,\sigma,p$）は母数、ハット記号（$\hat{p},\hat{\sigma}$）やバー（$\bar{X}$）は統計量。推定量・統計量にはハット、母数にはギリシャ文字、という役割の対応は第2章から一貫したルールです。

標本分散の「2つの定義」に注意

標本分散には、$n$ で割る定義と $n-1$ で割る定義の2通りがあります。母分散 $\sigma^2$ をかたよりなく推定したいときは、$n-1$ で割る不偏分散を使います。

FORMULA

不偏分散（母分散 $\sigma^2$ の推定量、$n-1$ で割る）： $$s^2 = \frac{1}{n-1}\sum_{i=1}^{n}\left(X_i-\bar{X}\right)^2$$ なぜ $n$ ではなく $n-1$ で割るのか──その理由（不偏性）は 3-4 点推定でじっくり導出します。今は「母分散を狙うなら $n-1$」とだけ押さえておけば十分です。

さえ

記号を見ただけで「母数か統計量か」が言えるようになると最強だよ！　ギリシャ文字（$\mu,\sigma,p$）は手の届かない母集団の値、ハットやバー（$\hat{p},\bar{X}$）は手元のデータから作った値。試験でも「次のうち母数はどれ？」って聞かれるから、セットで覚えちゃおう！

3. 全数調査と標本調査

母集団を知る方法は2つあります。全部調べる全数調査と、一部だけ調べる標本調査です。

全数調査（census）は母集団のすべてを調べる方法で、国勢調査が代表例です。原理的には母数 $\mu$ や $p$ を直接求められますが、コストと時間が膨大で、現実には完全な「全数」に到達するのが難しいという弱点があります。

標本調査（sample survey）は標本だけを調べて母集団を推測する方法です。世論調査・視聴率・品質検査など、私たちが目にする調査のほとんどがこれにあたります。

コストが低く速い代わりに、「一部しか見ていない」ことによる誤差が必ずつきまといます。この誤差をどう見積もるかが、まさに統計的推定のテーマです。

観点	全数調査	標本調査
調べる範囲	母集団のすべて	母集団の一部（標本）
コスト・時間	非常に大きい	小さい・速い
誤差	原理上は無し（実際は未回収など）	標本誤差が必ず生じる
代表例	国勢調査	世論調査・視聴率・品質検査

標本の選び方（無作為抽出など）の具体的な方法は 3-3 標本抽出法で、調査の設計（実験か観察か）は 3-2 研究デザインでくわしく扱います。本ページでは、無作為に取った標本から計算される $\bar{X}$ が「どうばらつくか」に話を進めましょう。

4. 標本平均の分布 — 中心極限定理の復習

標本平均 $\bar{X}$ は、標本を取り直すたびに値が変わる確率変数です。では $\bar{X}$ 自身は、どんな分布に従うのでしょうか。これを標本分布といいます。第2章で学んだ事実を、ここで推定の言葉でまとめ直します。

期待値と分散

母平均 $\mu$、母分散 $\sigma^2$ の母集団から、互いに独立に $X_1,\dots,X_n$ を取ったとします（同じ母集団から無作為に取れば、独立で同じ分布＝i.i.d. と見なせます）。このとき $\bar{X}$ の期待値と分散は、第2章の線形性から次のように出ます。

DERIVATION

$$ \begin{aligned} E[\bar{X}] &= E\!\left[\frac{1}{n}\sum_{i=1}^{n}X_i\right] = \frac{1}{n}\sum_{i=1}^{n}E[X_i] = \frac{1}{n}\cdot n\mu = \mu \\[6pt] V[\bar{X}] &= V\!\left[\frac{1}{n}\sum_{i=1}^{n}X_i\right] = \frac{1}{n^2}\sum_{i=1}^{n}V[X_i] = \frac{1}{n^2}\cdot n\sigma^2 = \frac{\sigma^2}{n} \end{aligned} $$

期待値の計算には線形性だけを使いました（独立は不要）。一方、分散の計算では$X_i$ どうしの独立を使っています（独立だから和の分散が分散の和になる）。ここは 2-5a 期待値と分散の回で強調したポイントですね。

分布の形：中心極限定理

期待値と分散がわかっても、まだ「形」が決まっていません。そこで効くのが中心極限定理（central limit theorem, CLT）です。

FORMULA

母平均 $\mu$、母分散 $\sigma^2$ の母集団から独立に $n$ 個取ったとき、$n$ が十分大きければ標本平均はおよそ正規分布に従います。 $$\bar{X} \;\approx\; N\!\left(\mu,\ \frac{\sigma^2}{n}\right)$$ とくに母集団がもともと正規分布 $N(\mu,\sigma^2)$ なら、$n$ の大小によらず厳密に $\bar{X}\sim N\!\left(\mu,\dfrac{\sigma^2}{n}\right)$ が成り立ちます。

ここがすごいところです。母集団がどんな形（左右非対称でも、でこぼこでも）でも、$n$ を大きくすれば $\bar{X}$ の分布は正規分布に近づく。

だから、母集団の形を知らなくても、$\bar{X}$ を使った推定ができるのです。なぜそうなるのかの中身は 2-13c 中心極限定理で導出済みなので、ここでは「推定の出発点になる事実」として使います。

$\bar{X}$ の分布は $\mu$ を中心とする正規分布。$n$ が大きいほど幅（標準誤差）が縮む

5. 標準誤差 $\mathrm{SE}=\dfrac{\sigma}{\sqrt{n}}$

$\bar{X}$ のばらつきの大きさ、つまり標準偏差をとくに標準誤差（standard error, SE）と呼びます。$V[\bar{X}]=\dfrac{\sigma^2}{n}$ の平方根を取るだけです。

FORMULA

$$\mathrm{SE}(\bar{X}) = \sqrt{V[\bar{X}]} = \sqrt{\frac{\sigma^2}{n}} = \frac{\sigma}{\sqrt{n}}$$ 「標準偏差」は1個1個のデータのばらつき $\sigma$、「標準誤差」は推定量 $\bar{X}$ のばらつき $\dfrac{\sigma}{\sqrt{n}}$。名前は似ていますが対象が違います。

この式が伝えるメッセージは強烈です。標準誤差は $\sqrt{n}$ に反比例するので、標本サイズを4倍にすると、推定の精度（ばらつきの小ささ）は2倍になる。

$\dfrac{1}{\sqrt{n}}$ のおかげで、サンプルを増やすほど $\bar{X}$ は $\mu$ の近くに集まっていきます。これが「たくさん取ると当たりやすい」という直感の正体です。

POINT

誤差を半分にしたいなら、サンプルは2倍では足りず4倍必要。これは $\sqrt{n}$ ゆえの「逓減」です。サンプルを増やすほど効率が悪くなる、という現実は調査設計で必ず効いてきます。なお実際には母分散 $\sigma$ は未知なので、標本から計算した $s$ で置き換えた $\dfrac{s}{\sqrt{n}}$ を推定された標準誤差として使います（3-7 の t 分布の話につながります）。

6. 結論と使いどころ

数値で標準誤差の効き目を体感しましょう。

EXAMPLE 1（標準誤差の計算）

母標準偏差が $\sigma = 12$ とわかっている母集団から、$n=36$ の標本を取って $\bar{X}$ を求めます。標準誤差は？

$\mathrm{SE} = \dfrac{\sigma}{\sqrt{n}} = \dfrac{12}{\sqrt{36}} = \dfrac{12}{6} = 2$。

1個ずつのデータは $\sigma=12$ もばらつくのに、36個の平均 $\bar{X}$ はばらつきが $2$ まで縮みます。「平均すると安定する」が数字で見えますね。

EXAMPLE 2（4倍ルールの確認）

EXAMPLE 1 で標準誤差を半分の $1$ にするには、$n$ をいくつにすればよいでしょう。

$\dfrac{12}{\sqrt{n}} = 1 \;\Rightarrow\; \sqrt{n} = 12 \;\Rightarrow\; n = 144$。

$36$ から $144$ へ、ちょうど4倍。「精度を2倍にするにはサンプル4倍」が確かに成り立っています。

EXAMPLE 3（母比率の標準誤差）

ある政策への賛成率（母比率）が $p=0.4$ の母集団から $n=100$ 人を無作為抽出します。標本比率 $\hat{p}$ の標準誤差は？　母比率の場合、母分散は $p(1-p)$ なので

$$\mathrm{SE}(\hat{p}) = \sqrt{\frac{p(1-p)}{n}} = \sqrt{\frac{0.4\times 0.6}{100}} = \sqrt{0.0024} \approx 0.049$$

標本比率はおよそ $\pm 0.05$ 程度ぶれる、という見積もりです。比率の推定（3-8）でそのまま使う式なので、形を覚えておくと得をします。

POINT

推定の合言葉は「$\bar{X}$ は $\mu$ の周りに、$\dfrac{\sigma}{\sqrt{n}}$ の幅でばらつく正規分布」。この一文に、母数と統計量の区別・標本分布・標準誤差のすべてが詰まっています。次章以降の信頼区間も検定も、結局この一文を出発点に組み立てていきます。

次回 3-2 研究デザイン（観察研究・実験研究）では、そもそも「どうデータを集めるか」に踏み込みます。同じ標本でも、集め方を間違えると因果が言えなくなる──その理由を、交絡やランダム化比較試験の話を通して見ていきましょう。

さえ

第3章スタート、おつかれさま！　「母数 vs 統計量」と「$\mathrm{SE}=\dfrac{\sigma}{\sqrt{n}}$」、この2つは第3章・第4章ずっと使うよ。とくに標準誤差は、信頼区間でも検定でも主役級。今日のうちに EXAMPLE をもう一度手で計算してみてね！

HANDWRITING — 紙に書いてインプットしよう！

このページに出てきた重要キーワードです。ページを閉じる前に、声に出しながら紙に手で書いてみてください。手を動かすと、読むだけの何倍も速く記憶に定着します。

母集団
標本
母数（パラメータ）
統計量
推定量
母平均
母分散
母比率
標本平均
標本比率
不偏分散
全数調査
標本調査
標本分布
中心極限定理
標準誤差