観測値の散らばりの尺度
前回は「真ん中の値」を表す代表値を学びました。今回はデータがどれくらい散らばっているかを数値で表す尺度として、分散と標準偏差を学びます。
計算手順を6ステップに分けて確認したあと、「なぜ偏差を2乗するのか?」という根本的な問いを「空間で考える」というイメージで掘り下げます。実際の計算は、本ページの末尾にあるExcel補助資料で手を動かしながら身につけてください。
1. なぜ「散らばり」を測るのか
代表値(平均値・中央値・最頻値)だけでは、データの全体像はつかめません。次の例を見てください。
- A組5人の点数:70, 70, 70, 70, 70 → 平均70点
- B組5人の点数:50, 60, 70, 80, 90 → 平均70点
平均値はどちらも70点。でも、両者がまったく別の状況であることは明らかですね。A組は全員同じ点数、B組は大きく散らばっています。平均が同じでも、散らばりが違えば意味が違う──だからこそ、散らばりを数値で表す道具が必要なのです。
第2章でレンジと四分位範囲はすでに学びました。今回は、もっとも広く使われる散らばりの尺度──分散と標準偏差を扱います。
2. 分散・標準偏差を求める6ステップ
分散と標準偏差は、次の6ステップで求められます。先ほどのB組のデータ(50, 60, 70, 80, 90)で順番に計算してみましょう。
ステップ① 平均値を求める
(50 + 60 + 70 + 80 + 90) ÷ 5 = 70点
ステップ② 偏差を求める(各データ − 平均値)
偏差(へんさ、deviation)とは、各データが平均からどれだけ離れているかを表す値です。「データの値 − 平均値」で求めます。
| 点数 | 平均値 | 偏差(点数 − 平均) |
|---|---|---|
| 50 | 70 | 50 − 70 = −20 |
| 60 | 70 | 60 − 70 = −10 |
| 70 | 70 | 70 − 70 = 0 |
| 80 | 70 | 80 − 70 = 10 |
| 90 | 70 | 90 − 70 = 20 |
偏差は、平均より小さければマイナス、大きければプラスになります。ここで重要な性質:偏差をすべて足すと必ず0になります。確かめてみると、(−20) + (−10) + 0 + 10 + 20 = 0。プラスとマイナスが打ち消し合うのです。
ステップ③ 偏差を2乗する
ここで偏差を2乗します。なぜ2乗するのかは、次のセクション3でじっくり考えます。今は計算を進めましょう。
| 偏差 | 偏差の2乗 |
|---|---|
| −20 | (−20)² = 400 |
| −10 | (−10)² = 100 |
| 0 | 0² = 0 |
| 10 | 10² = 100 |
| 20 | 20² = 400 |
ステップ④ 偏差の2乗の平均を求める
(400 + 100 + 0 + 100 + 400) ÷ 5 = 1,000 ÷ 5 = 200
ステップ⑤ これが「分散」
ステップ④で求めた値こそが、分散(ぶんさん、variance)です。
分散 = 偏差の2乗の平均
記号では s² と書きます。
B組の分散は s² = 200。これがB組の散らばりの大きさを表します。
ステップ⑥ 平方根を取って「標準偏差」
最後に、分散の平方根を取ります。これが標準偏差(ひょうじゅんへんさ、standard deviation)です。
標準偏差 = √分散
記号では s と書きます。
標準偏差 = √200 ≒ 14.14点
6ステップで分散と標準偏差が求まりました。実際にExcelで計算する練習は、ページ末尾の補助資料を活用してください。VAR.S関数とSTDEV.S関数を使えば、関数1つで一気に出ます。
6ステップ、長く感じるけど、Excelなら関数一発! 順序を理解しておくと、結果の数字の意味がちゃんと読めるようになるよ!
3. なぜ偏差を2乗するのか? ─ 「空間で考える」
ステップ③で偏差を2乗しましたが、これには意味があります。なぜ単純に偏差をそのまま足したり、絶対値を取ったりしないのか?──ここを「空間で考える」というイメージで掘り下げてみましょう。
3mと10m、その差は7m。では9m²と100m²では?
日常感覚として、3mと10mの長さの差は7m。これは直感的に「7メートル分離れている」とすぐに理解できますね。
ところが、これを面積で考えてみてください。一辺3mの正方形の面積は9m²、一辺10mの正方形の面積は100m²。その差は91m²です。
- 長さで比較:3m vs 10m → 差は7m(小さく感じる)
- 面積で比較:9m² vs 100m² → 差は91m²(圧倒的に大きく感じる)
同じ「3」と「10」という数字でも、長さで見るか面積で見るかで、印象がまったく違いますね。2乗するというのは、長さを面積に変換することと同じ操作なんです。
偏差を「面積」として考える
偏差をそのまま2乗するというのは、「平均から離れている度合いを、長さではなく面積として捉える」という発想です。
- 偏差が小さい(平均に近い) → 2乗してもそんなに大きくならない
- 偏差が大きい(平均から遠い) → 2乗するとずっと大きくなる
つまり、「平均から大きく外れた値」が、よりはっきりと散らばりに反映されるようになります。これが分散の特徴です。極端に離れた値(外れ値)が、分散にぐっと効いてくるのです。
もう1つの理由 ─ 偏差の合計が0になってしまう
もうひとつ、現実的な理由があります。ステップ②で見たように、偏差をそのまま全部足すと必ず0になるのでした。これでは「平均的にどれくらい散らばっているか」を測ろうとすると、毎回0になってしまい、何の指標にもなりません。
偏差を2乗すると、マイナスの値もすべてプラスになるので、合計が0になりません。これで初めて「散らばりの大きさ」を数字として表せるようになります。
偏差を2乗するのは、「散らばりを長さではなく、面積として捉える」ためです。これで(1)外れ値の影響をはっきり反映でき、(2)プラスとマイナスが打ち消し合う問題も解決できます。
「2乗 = 面積」って考えると、急に分散が身近に感じない? 数学的な決まりじゃなくて、「散らばりを面積として捉える」っていう発想なんだよ!
4. なぜ標準偏差に戻すのか?
偏差を2乗して「面積」として考える発想は便利ですが、ひとつ困ったことがあります。分散の単位が、元のデータと違ってしまうのです。
分散の単位は「元の単位の2乗」
テスト点数の分散の単位は点²(点の2乗)です。身長の分散ならcm²、年収の分散なら円²。「点²って何?」と言われると、直感的にイメージできませんよね。
先ほどのB組の例で言えば、分散は200ですが、これは厳密には「200点²」です。「点の2乗」と言われても、テストの散らばりの感覚には結びつきません。
平方根を取ると元の単位に戻る
ここで平方根を取れば、面積から長さに戻したのと同じことになります。9m²の正方形の一辺の長さは3m、100m²なら10m。つまり「平方根を取る = 元の単位に戻す」操作です。
これが標準偏差です。先ほどのB組の場合、分散200の平方根を取ると標準偏差は約14.14。単位は元の「点」に戻ります。「平均から平均的に14点くらい離れている」と、感覚的に読めるようになるわけです。
分散と標準偏差の使い分け
| 指標 | 記号 | 単位 | 使いどころ |
|---|---|---|---|
| 分散 | s² | 元の単位の2乗 | 計算上の便利さ。理論的な扱い |
| 標準偏差 | s | 元の単位と同じ | 実際の散らばりを直感的に把握 |
実用的には標準偏差を使うことが圧倒的に多いです。「平均±標準偏差くらいの幅にデータが散らばっている」という読み方ができ、感覚的に理解しやすいからです。
分散は「面積」、標準偏差は「長さ」。両者は表裏一体で、「面積で計算 → 長さに戻して読み取る」という関係です。記号で言えば s² と s、平方根の関係でつながっています。
まとめ
今回のポイントを整理します。
- 散らばりの尺度:平均が同じでも分布が違えば意味は違う。それを数値で表すための道具
- 6ステップ:①平均→②偏差→③2乗→④平均→⑤分散→⑥平方根で標準偏差
- 2乗する意味:散らばりを「面積」として捉える。外れ値の影響をはっきり反映、合計が0になる問題も解決
- 標準偏差に戻す意味:単位を元のデータと同じにして、直感的に読み取れるようにする
- 記号:分散 = s²、標準偏差 = s
分散と標準偏差は、平均値と並んでもっともよく使われる統計量のひとつです。Excelで実際にデータを入れて計算してみると、6ステップが一気に体感できるはずです。次回は、データに変換を加えたときに平均・分散・標準偏差がどう変わるかを学びます。
分散と標準偏差は、Excelで計算するのが一番早いよ! 補助資料で関数の使い方を確認してね。手計算は数回やればOK!
観測値の散らばりの尺度 確認シート
6ステップを1つずつExcelで再現する手順と、VAR.S関数・STDEV.S関数による一発計算の両方を体験できる練習ファイルです。