変数の変換と平均値、分散、標準偏差
前回まで、平均値・分散・標準偏差を学びました。今回は、これらを使って規模や単位の違うデータを比較する方法を学びます。
登場するのは2つのアイデア。1つ目はデータの標準化(zスコア)。個別の値を相対的な位置で表す方法です。2つ目は変動係数。データセット全体の散らばりを相対的に見る指標です。3つの例題を通して、計算と意味の両方をしっかり身につけていきましょう。
1. 規模の違いを越えて比べたい
日常生活では、規模や単位の違うデータを比較したい場面がよくあります。たとえばこんな状況:
- 英語のテストで75点、数学のテストで85点。どちらの教科で成績が良かった?
- A支店の月次売上は標準偏差50万円、B支店は30万円。どちらの売上が安定している?
- マラソン記録3時間40分と、フルマラソン平均ペース。どれくらい速い?
これらの問いには、「生の数字をそのまま比べてはいけない」という共通点があります。テストの平均や標準偏差が違えば、85点と75点の意味は変わってきます。同じ50万円でも、平均500万円の支店と平均200万円の支店では、散らばりの「重み」が違います。
こうした規模や単位の違いを越えて比較するための道具が、これから学ぶzスコアと変動係数です。
2. データの標準化 ─ zスコア
データの標準化とは、データを変換して、「平均0、標準偏差1」という共通の物差しに乗せ替える操作です。これによって得られた値をzスコアと呼びます。
計算式
z = (データの値 − 平均値) ÷ 標準偏差
前回学んだ偏差を、標準偏差で割る計算です。シンプルに z = 偏差 ÷ 標準偏差 と覚えてもOKです。
zスコアの読み方
zスコアは「平均から、標準偏差の何個分離れているか」を表します。
- z = 0 → 平均と同じ値
- z = +1 → 平均より標準偏差1個分上
- z = +2 → 平均より標準偏差2個分上(かなり高い)
- z = −1 → 平均より標準偏差1個分下
- z = −2 → 平均より標準偏差2個分下(かなり低い)
標準化後のデータは、必ず平均が0、標準偏差が1になるという性質があります。元のデータがどんな単位でも、どんな規模でも、同じ「物差し」に揃えられるのが zスコアの威力です。
あるテストの平均点は70点、標準偏差は10点でした。Aさんの点数は80点です。Aさんのzスコアを求めてください。
解答を見る
公式に当てはめます。
z = (80 − 70) ÷ 10 = 10 ÷ 10 = 1.0
Aさんのzスコアは 1.0。「平均より標準偏差1個分上」を意味します。10点という絶対的な差ではなく、このテストの散らばり具合の中で、Aさんは平均から1標準偏差分よくできたと読み取れます。
zスコアは、「データを単位のない、共通の物差しに乗せる」操作です。これによって、まったく違うスケールの値同士を、フェアに比較できるようになります。
偏差値(50を基準にしたやつ)も、実はzスコアを使って計算してるんだよ! 「偏差値 = 50 + 10×z」っていう変換をしてるだけ。zスコアがわかれば、偏差値の意味もスッキリわかるね!
3. zスコアで異なるテストの成績を比較する
zスコアの真価が発揮されるのは、異なるスケールのデータ同士を比較する場面です。点数も平均も標準偏差も違う、2つのテストの成績を比べてみましょう。
Bさんは英語と数学のテストを受け、次のような結果でした。Bさんは、どちらの教科で相対的に良い成績を取ったといえるでしょうか?
| 教科 | Bさんの得点 | クラスの平均 | 標準偏差 |
|---|---|---|---|
| 英語 | 75点 | 60点 | 10点 |
| 数学 | 85点 | 80点 | 5点 |
解答を見る
それぞれの教科について、Bさんのzスコアを計算します。
英語のzスコア
z = (75 − 60) ÷ 10 = 15 ÷ 10 = 1.5
数学のzスコア
z = (85 − 80) ÷ 5 = 5 ÷ 5 = 1.0
結論
英語のzスコア(1.5)の方が数学のzスコア(1.0)より大きいので、英語のほうが相対的に良い成績です。
生の点数だけ見ると数学(85点)の方が高いように見えます。しかし、英語はクラスの平均60点に対して標準偏差1.5個分も上、数学は平均80点に対して標準偏差1個分上。クラス全体の中での「立ち位置」を比べると、英語のほうが優れた成績だったとわかります。
この例題が示しているのは、「絶対値での比較は、規模が違うとミスリードする」という事実です。zスコアを使えば、平均や散らばりの違うテスト同士でも、フェアに「順位的な意味での成績」を比較できます。
4. 変動係数 ─ 散らばりを相対的に見る
zスコアが「個別データの相対化」だったのに対し、変動係数(CV:Coefficient of Variation)は「データセット全体の散らばりの相対化」です。標準偏差を平均値で割って求めます。
計算式
変動係数 = 標準偏差 ÷ 平均値
100倍してパーセント表示することもよくあります。
変動係数(%)= (標準偏差 ÷ 平均値)× 100
変動係数を使う理由
標準偏差は、データの散らばりを絶対値として表します。たとえば標準偏差が50万円と聞いて「大きい」「小さい」を判断できるでしょうか? それは平均がいくらかによります。
- 平均500万円のデータで標準偏差50万円 → 平均の10%の散らばり
- 平均100万円のデータで標準偏差50万円 → 平均の50%の散らばり
同じ50万円でも、後者のほうが「相対的にずっと大きく散らばっている」と言えます。これを数値化したものが変動係数です。
A支店とB支店の月次売上について、次のデータが得られました。どちらの支店のほうが、売上の変動が相対的に大きいといえますか?
| 支店 | 平均売上 | 標準偏差 |
|---|---|---|
| A支店 | 500万円 | 50万円 |
| B支店 | 200万円 | 30万円 |
解答を見る
まず、標準偏差だけを見るとA支店(50万円)のほうがB支店(30万円)より大きいので、「A支店の方が変動が大きい」と早とちりしそうになります。でも、これは罠。両支店は売上の規模が違うので、相対的に見る必要があります。
A支店の変動係数
CV = 50 ÷ 500 = 0.10(10%)
B支店の変動係数
CV = 30 ÷ 200 = 0.15(15%)
結論
変動係数で比較すると、B支店(15%)のほうがA支店(10%)より散らばりが大きいことがわかります。標準偏差だけ見ていたら見落とす事実です。
A支店は規模が大きいぶん、絶対値としての標準偏差が大きく見えるだけ。規模に対する散らばりの度合いとしては、B支店のほうが揺れているのです。
変動係数の使いどころ
変動係数は、規模や単位の異なるデータの散らばりを比較したいときに威力を発揮します。
- 異なる規模の店舗・部署・支店の売上のばらつき比較
- 異なる単位のデータ(身長cm vs 体重kg など)の散らばり比較
- 異なる業界・業種の業績変動の比較
- 投資商品のリスク比較(リターンに対する変動の大きさ)
ただし注意点として、平均値が0に近い、または0を含むデータでは変動係数は意味をなさなくなります(割り算が破綻するため)。気温や利益(赤字を含む)など、ゼロや負の値があるデータには使えません。
標準偏差は「絶対的な散らばり」、変動係数は「相対的な散らばり」。規模の違うデータの散らばりを公平に比べたいときは、変動係数を使ってください。
標準偏差だけ見て「Aの方が変動が大きい!」って判断しちゃうの、よくある落とし穴。「規模が違うかも?」って思ったら、変動係数の出番だよ!
まとめ
今回のポイントを整理しておきましょう。
- zスコア:(データの値 − 平均値) ÷ 標準偏差。個別データを共通の物差しに乗せ替える
- zスコアの性質:標準化後の平均は0、標準偏差は1。単位がない
- zスコアの活用:異なるスケールのデータを公平に比較できる(教科の成績、テスト結果など)
- 変動係数:標準偏差 ÷ 平均値。データセット全体の散らばりを相対化
- 変動係数の活用:規模の違うデータの「散らばりの度合い」を比較できる
zスコアと変動係数──どちらも「相対化」がキーワードです。生の数字だけを見ていると、規模や単位に惑わされて誤った判断をしてしまうことがあります。両方の道具を使い分けることで、データを公平に評価できるようになります。次回は、第3章ファイナル「探索的データ解析法と外れ値」に進みます。
変数の変換と平均値、分散、標準偏差 確認シート
STANDARDIZE関数によるzスコア計算と、変動係数を求める実例をExcelで体験できる練習ファイルです。複数の教科や複数の支店データで、相対化のメリットを実感してください。