第3章 3-2 / 1変数データの分析

観測値の散らばりの尺度

このページで学ぶこと

前回は「真ん中の値」を表す代表値を学びました。今回はデータがどれくらい散らばっているかを数値で表す尺度として、分散と標準偏差を学びます。

計算手順を6ステップに分けて確認したあと、「なぜ偏差を2乗するのか?」という根本的な問いを「空間で考える」というイメージで掘り下げます。実際の計算は、本ページの末尾にあるExcel補助資料で手を動かしながら身につけてください。

1. なぜ「散らばり」を測るのか

代表値（平均値・中央値・最頻値）だけでは、データの全体像はつかめません。次の例を見てください。

EXAMPLE

A組5人の点数：70, 70, 70, 70, 70　→ 平均70点
B組5人の点数：50, 60, 70, 80, 90　→ 平均70点

平均値はどちらも70点。でも、両者がまったく別の状況であることは明らかですね。A組は全員同じ点数、B組は大きく散らばっています。平均が同じでも、散らばりが違えば意味が違う──だからこそ、散らばりを数値で表す道具が必要なのです。

第2章でレンジと四分位範囲はすでに学びました。今回は、もっとも広く使われる散らばりの尺度──分散と標準偏差を扱います。

2. 分散・標準偏差を求める6ステップ

分散と標準偏差は、次の6ステップで求められます。先ほどのB組のデータ（50, 60, 70, 80, 90）で順番に計算してみましょう。

ステップ① 平均値を求める

CALC

(50 + 60 + 70 + 80 + 90) ÷ 5 ＝ 70点

ステップ② 偏差を求める（各データ − 平均値）

偏差（へんさ、deviation）とは、各データが平均からどれだけ離れているかを表す値です。「データの値 − 平均値」で求めます。

点数	平均値	偏差（点数 − 平均）
50	70	50 − 70 ＝ −20
60	70	60 − 70 ＝ −10
70	70	70 − 70 ＝ 0
80	70	80 − 70 ＝ 10
90	70	90 − 70 ＝ 20

偏差は、平均より小さければマイナス、大きければプラスになります。ここで重要な性質：偏差をすべて足すと必ず0になります。確かめてみると、(−20) + (−10) + 0 + 10 + 20 ＝ 0。プラスとマイナスが打ち消し合うのです。

ステップ③ 偏差を2乗する

ここで偏差を2乗します。なぜ2乗するのかは、次のセクション3でじっくり考えます。今は計算を進めましょう。

偏差	偏差の2乗
−20	(−20)² ＝ 400
−10	(−10)² ＝ 100
0	0² ＝ 0
10	10² ＝ 100
20	20² ＝ 400

ステップ④ 偏差の2乗の平均を求める

CALC

(400 + 100 + 0 + 100 + 400) ÷ 5 ＝ 1,000 ÷ 5 ＝ 200

ステップ⑤ これが「分散」

ステップ④で求めた値こそが、分散（ぶんさん、variance）です。

FORMULA

分散＝偏差の2乗の平均

記号では s² と書きます。

B組の分散は s² ＝ 200。これがB組の散らばりの大きさを表します。

ステップ⑥ 平方根を取って「標準偏差」

最後に、分散の平方根を取ります。これが標準偏差（ひょうじゅんへんさ、standard deviation）です。

FORMULA

標準偏差＝ √分散

記号では s と書きます。

CALC

標準偏差＝ √200 ≒ 14.14点

6ステップで分散と標準偏差が求まりました。実際にExcelで計算する練習は、ページ末尾の補助資料を活用してください。VAR.S関数とSTDEV.S関数を使えば、関数1つで一気に出ます。

さえ

6ステップ、長く感じるけど、Excelなら関数一発! 順序を理解しておくと、結果の数字の意味がちゃんと読めるようになるよ!

3. なぜ偏差を2乗するのか? ─ 「空間で考える」

ステップ③で偏差を2乗しましたが、これには意味があります。なぜ単純に偏差をそのまま足したり、絶対値を取ったりしないのか?──ここを「空間で考える」というイメージで掘り下げてみましょう。

3mと10m、その差は7m。では9m²と100m²では?

日常感覚として、3mと10mの長さの差は7m。これは直感的に「7メートル分離れている」とすぐに理解できますね。

ところが、これを面積で考えてみてください。一辺3mの正方形の面積は9m²、一辺10mの正方形の面積は100m²。その差は91m²です。

IMAGE

長さで比較：3m vs 10m → 差は7m（小さく感じる）
面積で比較：9m² vs 100m² → 差は91m²（圧倒的に大きく感じる）

同じ「3」と「10」という数字でも、長さで見るか面積で見るかで、印象がまったく違いますね。2乗するというのは、長さを面積に変換することと同じ操作なんです。

偏差を「面積」として考える

偏差をそのまま2乗するというのは、「平均から離れている度合いを、長さではなく面積として捉える」という発想です。

偏差が小さい（平均に近い） → 2乗してもそんなに大きくならない
偏差が大きい（平均から遠い） → 2乗するとずっと大きくなる

つまり、「平均から大きく外れた値」が、よりはっきりと散らばりに反映されるようになります。これが分散の特徴です。極端に離れた値（外れ値）が、分散にぐっと効いてくるのです。

もう1つの理由 ─ 偏差の合計が0になってしまう

もうひとつ、現実的な理由があります。ステップ②で見たように、偏差をそのまま全部足すと必ず0になるのでした。これでは「平均的にどれくらい散らばっているか」を測ろうとすると、毎回0になってしまい、何の指標にもなりません。

偏差を2乗すると、マイナスの値もすべてプラスになるので、合計が0になりません。これで初めて「散らばりの大きさ」を数字として表せるようになります。

POINT

偏差を2乗するのは、「散らばりを長さではなく、面積として捉える」ためです。これで(1)外れ値の影響をはっきり反映でき、(2)プラスとマイナスが打ち消し合う問題も解決できます。

さえ

「2乗 = 面積」って考えると、急に分散が身近に感じない? 数学的な決まりじゃなくて、「散らばりを面積として捉える」っていう発想なんだよ!

4. なぜ標準偏差に戻すのか?

偏差を2乗して「面積」として考える発想は便利ですが、ひとつ困ったことがあります。分散の単位が、元のデータと違ってしまうのです。

分散の単位は「元の単位の2乗」

テスト点数の分散の単位は点²（点の2乗）です。身長の分散ならcm²、年収の分散なら円²。「点²って何?」と言われると、直感的にイメージできませんよね。

先ほどのB組の例で言えば、分散は200ですが、これは厳密には「200点²」です。「点の2乗」と言われても、テストの散らばりの感覚には結びつきません。

平方根を取ると元の単位に戻る

ここで平方根を取れば、面積から長さに戻したのと同じことになります。9m²の正方形の一辺の長さは3m、100m²なら10m。つまり「平方根を取る＝元の単位に戻す」操作です。

これが標準偏差です。先ほどのB組の場合、分散200の平方根を取ると標準偏差は約14.14。単位は元の「点」に戻ります。「平均から平均的に14点くらい離れている」と、感覚的に読めるようになるわけです。

分散と標準偏差の使い分け

指標	記号	単位	使いどころ
分散	s²	元の単位の2乗	計算上の便利さ。理論的な扱い
標準偏差	s	元の単位と同じ	実際の散らばりを直感的に把握

実用的には標準偏差を使うことが圧倒的に多いです。「平均±標準偏差くらいの幅にデータが散らばっている」という読み方ができ、感覚的に理解しやすいからです。

POINT

分散は「面積」、標準偏差は「長さ」。両者は表裏一体で、「面積で計算 → 長さに戻して読み取る」という関係です。記号で言えば s² と s、平方根の関係でつながっています。

まとめ

今回のポイントを整理します。

散らばりの尺度：平均が同じでも分布が違えば意味は違う。それを数値で表すための道具
6ステップ：①平均→②偏差→③2乗→④平均→⑤分散→⑥平方根で標準偏差
2乗する意味：散らばりを「面積」として捉える。外れ値の影響をはっきり反映、合計が0になる問題も解決
標準偏差に戻す意味：単位を元のデータと同じにして、直感的に読み取れるようにする
記号：分散 = s²、標準偏差 = s

分散と標準偏差は、平均値と並んでもっともよく使われる統計量のひとつです。Excelで実際にデータを入れて計算してみると、6ステップが一気に体感できるはずです。次回は、データに変換を加えたときに平均・分散・標準偏差がどう変わるかを学びます。

さえ

分散と標準偏差は、Excelで計算するのが一番早いよ! 補助資料で関数の使い方を確認してね。手計算は数回やればOK!

EXCEL — 補助資料

観測値の散らばりの尺度確認シート

6ステップを1つずつExcelで再現する手順と、VAR.S関数・STDEV.S関数による一発計算の両方を体験できる練習ファイルです。

ダウンロード