第3章 3-2 / 1変数データの分析

観測値の散らばりの尺度

このページで学ぶこと

前回は「真ん中の値」を表す代表値を学びました。今回はデータがどれくらい散らばっているかを数値で表す尺度として、分散標準偏差を学びます。

計算手順を6ステップに分けて確認したあと、「なぜ偏差を2乗するのか?」という根本的な問いを「空間で考える」というイメージで掘り下げます。実際の計算は、本ページの末尾にあるExcel補助資料で手を動かしながら身につけてください。

1. なぜ「散らばり」を測るのか

代表値(平均値・中央値・最頻値)だけでは、データの全体像はつかめません。次の例を見てください。

EXAMPLE
  • A組5人の点数:70, 70, 70, 70, 70 → 平均70点
  • B組5人の点数:50, 60, 70, 80, 90 → 平均70点

平均値はどちらも70点。でも、両者がまったく別の状況であることは明らかですね。A組は全員同じ点数、B組は大きく散らばっています。平均が同じでも、散らばりが違えば意味が違う──だからこそ、散らばりを数値で表す道具が必要なのです。

第2章でレンジ四分位範囲はすでに学びました。今回は、もっとも広く使われる散らばりの尺度──分散と標準偏差を扱います。

2. 分散・標準偏差を求める6ステップ

分散と標準偏差は、次の6ステップで求められます。先ほどのB組のデータ(50, 60, 70, 80, 90)で順番に計算してみましょう。

ステップ① 平均値を求める

CALC

(50 + 60 + 70 + 80 + 90) ÷ 5 = 70点

ステップ② 偏差を求める(各データ − 平均値)

偏差(へんさ、deviation)とは、各データが平均からどれだけ離れているかを表す値です。「データの値 − 平均値」で求めます。

点数 平均値 偏差(点数 − 平均)
507050 − 70 = −20
607060 − 70 = −10
707070 − 70 = 0
807080 − 70 = 10
907090 − 70 = 20

偏差は、平均より小さければマイナス、大きければプラスになります。ここで重要な性質:偏差をすべて足すと必ず0になります。確かめてみると、(−20) + (−10) + 0 + 10 + 20 = 0。プラスとマイナスが打ち消し合うのです。

ステップ③ 偏差を2乗する

ここで偏差を2乗します。なぜ2乗するのかは、次のセクション3でじっくり考えます。今は計算を進めましょう。

偏差 偏差の2乗
−20(−20)² = 400
−10(−10)² = 100
00² = 0
1010² = 100
2020² = 400

ステップ④ 偏差の2乗の平均を求める

CALC

(400 + 100 + 0 + 100 + 400) ÷ 5 = 1,000 ÷ 5 = 200

ステップ⑤ これが「分散」

ステップ④で求めた値こそが、分散(ぶんさん、variance)です。

FORMULA

分散 = 偏差の2乗の平均

記号では と書きます。

B組の分散は s² = 200。これがB組の散らばりの大きさを表します。

ステップ⑥ 平方根を取って「標準偏差」

最後に、分散の平方根を取ります。これが標準偏差(ひょうじゅんへんさ、standard deviation)です。

FORMULA

標準偏差 = √分散

記号では s と書きます。

CALC

標準偏差 = √200 ≒ 14.14点

6ステップで分散と標準偏差が求まりました。実際にExcelで計算する練習は、ページ末尾の補助資料を活用してください。VAR.S関数とSTDEV.S関数を使えば、関数1つで一気に出ます。

さえちゃん
さえ

6ステップ、長く感じるけど、Excelなら関数一発! 順序を理解しておくと、結果の数字の意味がちゃんと読めるようになるよ!

3. なぜ偏差を2乗するのか? ─ 「空間で考える」

ステップ③で偏差を2乗しましたが、これには意味があります。なぜ単純に偏差をそのまま足したり、絶対値を取ったりしないのか?──ここを「空間で考える」というイメージで掘り下げてみましょう。

3mと10m、その差は7m。では9m²と100m²では?

日常感覚として、3mと10mの長さの差は7m。これは直感的に「7メートル分離れている」とすぐに理解できますね。

ところが、これを面積で考えてみてください。一辺3mの正方形の面積は9m²、一辺10mの正方形の面積は100m²。その差は91m²です。

IMAGE
  • 長さで比較:3m vs 10m → 差は7m(小さく感じる)
  • 面積で比較:9m² vs 100m² → 差は91m²(圧倒的に大きく感じる)

同じ「3」と「10」という数字でも、長さで見るか面積で見るかで、印象がまったく違いますね。2乗するというのは、長さを面積に変換することと同じ操作なんです。

偏差を「面積」として考える

偏差をそのまま2乗するというのは、「平均から離れている度合いを、長さではなく面積として捉える」という発想です。

つまり、「平均から大きく外れた値」が、よりはっきりと散らばりに反映されるようになります。これが分散の特徴です。極端に離れた値(外れ値)が、分散にぐっと効いてくるのです。

もう1つの理由 ─ 偏差の合計が0になってしまう

もうひとつ、現実的な理由があります。ステップ②で見たように、偏差をそのまま全部足すと必ず0になるのでした。これでは「平均的にどれくらい散らばっているか」を測ろうとすると、毎回0になってしまい、何の指標にもなりません。

偏差を2乗すると、マイナスの値もすべてプラスになるので、合計が0になりません。これで初めて「散らばりの大きさ」を数字として表せるようになります。

POINT

偏差を2乗するのは、「散らばりを長さではなく、面積として捉える」ためです。これで(1)外れ値の影響をはっきり反映でき、(2)プラスとマイナスが打ち消し合う問題も解決できます。

さえちゃん
さえ

「2乗 = 面積」って考えると、急に分散が身近に感じない? 数学的な決まりじゃなくて、「散らばりを面積として捉える」っていう発想なんだよ!

4. なぜ標準偏差に戻すのか?

偏差を2乗して「面積」として考える発想は便利ですが、ひとつ困ったことがあります。分散の単位が、元のデータと違ってしまうのです。

分散の単位は「元の単位の2乗」

テスト点数の分散の単位は点²(点の2乗)です。身長の分散ならcm²、年収の分散なら円²。「点²って何?」と言われると、直感的にイメージできませんよね。

先ほどのB組の例で言えば、分散は200ですが、これは厳密には「200点²」です。「点の2乗」と言われても、テストの散らばりの感覚には結びつきません。

平方根を取ると元の単位に戻る

ここで平方根を取れば、面積から長さに戻したのと同じことになります。9m²の正方形の一辺の長さは3m、100m²なら10m。つまり「平方根を取る = 元の単位に戻す」操作です。

これが標準偏差です。先ほどのB組の場合、分散200の平方根を取ると標準偏差は約14.14。単位は元の「点」に戻ります。「平均から平均的に14点くらい離れている」と、感覚的に読めるようになるわけです。

分散と標準偏差の使い分け

指標 記号 単位 使いどころ
分散元の単位の2乗計算上の便利さ。理論的な扱い
標準偏差s元の単位と同じ実際の散らばりを直感的に把握

実用的には標準偏差を使うことが圧倒的に多いです。「平均±標準偏差くらいの幅にデータが散らばっている」という読み方ができ、感覚的に理解しやすいからです。

POINT

分散は「面積」、標準偏差は「長さ」。両者は表裏一体で、「面積で計算 → 長さに戻して読み取る」という関係です。記号で言えば s² と s、平方根の関係でつながっています。

まとめ

今回のポイントを整理します。

分散と標準偏差は、平均値と並んでもっともよく使われる統計量のひとつです。Excelで実際にデータを入れて計算してみると、6ステップが一気に体感できるはずです。次回は、データに変換を加えたときに平均・分散・標準偏差がどう変わるかを学びます。

さえちゃん
さえ

分散と標準偏差は、Excelで計算するのが一番早いよ! 補助資料で関数の使い方を確認してね。手計算は数回やればOK!

X
EXCEL — 補助資料

観測値の散らばりの尺度 確認シート

6ステップを1つずつExcelで再現する手順と、VAR.S関数・STDEV.S関数による一発計算の両方を体験できる練習ファイルです。

ダウンロード