第3章 3-3 / 1変数データの分析

変数の変換と平均値、分散、標準偏差

このページで学ぶこと

前回まで、平均値・分散・標準偏差を学びました。今回は、これらを使って規模や単位の違うデータを比較する方法を学びます。

登場するのは2つのアイデア。1つ目はデータの標準化(zスコア)。個別の値を相対的な位置で表す方法です。2つ目は変動係数。データセット全体の散らばりを相対的に見る指標です。3つの例題を通して、計算と意味の両方をしっかり身につけていきましょう。

1. 規模の違いを越えて比べたい

日常生活では、規模や単位の違うデータを比較したい場面がよくあります。たとえばこんな状況:

EXAMPLE
  • 英語のテストで75点、数学のテストで85点。どちらの教科で成績が良かった?
  • A支店の月次売上は標準偏差50万円、B支店は30万円。どちらの売上が安定している?
  • マラソン記録3時間40分と、フルマラソン平均ペース。どれくらい速い?

これらの問いには、「生の数字をそのまま比べてはいけない」という共通点があります。テストの平均や標準偏差が違えば、85点と75点の意味は変わってきます。同じ50万円でも、平均500万円の支店と平均200万円の支店では、散らばりの「重み」が違います。

こうした規模や単位の違いを越えて比較するための道具が、これから学ぶzスコア変動係数です。

2. データの標準化 ─ zスコア

データの標準化とは、データを変換して、「平均0、標準偏差1」という共通の物差しに乗せ替える操作です。これによって得られた値をzスコアと呼びます。

計算式

FORMULA

z = (データの値 − 平均値) ÷ 標準偏差

前回学んだ偏差を、標準偏差で割る計算です。シンプルに z = 偏差 ÷ 標準偏差 と覚えてもOKです。

zスコアの読み方

zスコアは「平均から、標準偏差の何個分離れているか」を表します。

標準化後のデータは、必ず平均が0、標準偏差が1になるという性質があります。元のデータがどんな単位でも、どんな規模でも、同じ「物差し」に揃えられるのが zスコアの威力です。

例題 1 基本 ─ zスコアの計算

あるテストの平均点は70点、標準偏差は10点でした。Aさんの点数は80点です。Aさんのzスコアを求めてください。

解答を見る

公式に当てはめます。

z = (80 − 70) ÷ 10 = 10 ÷ 10 = 1.0

Aさんのzスコアは 1.0。「平均より標準偏差1個分上」を意味します。10点という絶対的な差ではなく、このテストの散らばり具合の中で、Aさんは平均から1標準偏差分よくできたと読み取れます。

POINT

zスコアは、「データを単位のない、共通の物差しに乗せる」操作です。これによって、まったく違うスケールの値同士を、フェアに比較できるようになります。

さえちゃん
さえ

偏差値(50を基準にしたやつ)も、実はzスコアを使って計算してるんだよ! 「偏差値 = 50 + 10×z」っていう変換をしてるだけ。zスコアがわかれば、偏差値の意味もスッキリわかるね!

3. zスコアで異なるテストの成績を比較する

zスコアの真価が発揮されるのは、異なるスケールのデータ同士を比較する場面です。点数も平均も標準偏差も違う、2つのテストの成績を比べてみましょう。

例題 2 標準 ─ 異なる教科の成績比較

Bさんは英語と数学のテストを受け、次のような結果でした。Bさんは、どちらの教科で相対的に良い成績を取ったといえるでしょうか?

教科Bさんの得点クラスの平均標準偏差
英語75点60点10点
数学85点80点5点
解答を見る

それぞれの教科について、Bさんのzスコアを計算します。

英語のzスコア

z = (75 − 60) ÷ 10 = 15 ÷ 10 = 1.5

数学のzスコア

z = (85 − 80) ÷ 5 = 5 ÷ 5 = 1.0

結論

英語のzスコア(1.5)の方が数学のzスコア(1.0)より大きいので、英語のほうが相対的に良い成績です。

生の点数だけ見ると数学(85点)の方が高いように見えます。しかし、英語はクラスの平均60点に対して標準偏差1.5個分も上、数学は平均80点に対して標準偏差1個分上。クラス全体の中での「立ち位置」を比べると、英語のほうが優れた成績だったとわかります。

この例題が示しているのは、「絶対値での比較は、規模が違うとミスリードする」という事実です。zスコアを使えば、平均や散らばりの違うテスト同士でも、フェアに「順位的な意味での成績」を比較できます。

4. 変動係数 ─ 散らばりを相対的に見る

zスコアが「個別データの相対化」だったのに対し、変動係数(CV:Coefficient of Variation)は「データセット全体の散らばりの相対化」です。標準偏差を平均値で割って求めます。

計算式

FORMULA

変動係数 = 標準偏差 ÷ 平均値

100倍してパーセント表示することもよくあります。
変動係数(%)= (標準偏差 ÷ 平均値)× 100

変動係数を使う理由

標準偏差は、データの散らばりを絶対値として表します。たとえば標準偏差が50万円と聞いて「大きい」「小さい」を判断できるでしょうか? それは平均がいくらかによります。

同じ50万円でも、後者のほうが「相対的にずっと大きく散らばっている」と言えます。これを数値化したものが変動係数です。

例題 3 応用 ─ 変動係数で散らばりを比較

A支店とB支店の月次売上について、次のデータが得られました。どちらの支店のほうが、売上の変動が相対的に大きいといえますか?

支店平均売上標準偏差
A支店500万円50万円
B支店200万円30万円
解答を見る

まず、標準偏差だけを見るとA支店(50万円)のほうがB支店(30万円)より大きいので、「A支店の方が変動が大きい」と早とちりしそうになります。でも、これは罠。両支店は売上の規模が違うので、相対的に見る必要があります。

A支店の変動係数

CV = 50 ÷ 500 = 0.10(10%)

B支店の変動係数

CV = 30 ÷ 200 = 0.15(15%)

結論

変動係数で比較すると、B支店(15%)のほうがA支店(10%)より散らばりが大きいことがわかります。標準偏差だけ見ていたら見落とす事実です。

A支店は規模が大きいぶん、絶対値としての標準偏差が大きく見えるだけ。規模に対する散らばりの度合いとしては、B支店のほうが揺れているのです。

変動係数の使いどころ

変動係数は、規模や単位の異なるデータの散らばりを比較したいときに威力を発揮します。

ただし注意点として、平均値が0に近い、または0を含むデータでは変動係数は意味をなさなくなります(割り算が破綻するため)。気温や利益(赤字を含む)など、ゼロや負の値があるデータには使えません。

POINT

標準偏差は「絶対的な散らばり」、変動係数は「相対的な散らばり」。規模の違うデータの散らばりを公平に比べたいときは、変動係数を使ってください。

さえちゃん
さえ

標準偏差だけ見て「Aの方が変動が大きい!」って判断しちゃうの、よくある落とし穴。「規模が違うかも?」って思ったら、変動係数の出番だよ!

まとめ

今回のポイントを整理しておきましょう。

zスコアと変動係数──どちらも「相対化」がキーワードです。生の数字だけを見ていると、規模や単位に惑わされて誤った判断をしてしまうことがあります。両方の道具を使い分けることで、データを公平に評価できるようになります。次回は、第3章ファイナル「探索的データ解析法と外れ値」に進みます。

X
EXCEL — 補助資料

変数の変換と平均値、分散、標準偏差 確認シート

STANDARDIZE関数によるzスコア計算と、変動係数を求める実例をExcelで体験できる練習ファイルです。複数の教科や複数の支店データで、相対化のメリットを実感してください。

ダウンロード