第3章 3-3 / 1変数データの分析

変数の変換と平均値、分散、標準偏差

このページで学ぶこと

前回まで、平均値・分散・標準偏差を学びました。今回は、これらを使って規模や単位の違うデータを比較する方法を学びます。

登場するのは2つのアイデア。1つ目はデータの標準化（zスコア）。個別の値を相対的な位置で表す方法です。2つ目は変動係数。データセット全体の散らばりを相対的に見る指標です。3つの例題を通して、計算と意味の両方をしっかり身につけていきましょう。

1. 規模の違いを越えて比べたい

日常生活では、規模や単位の違うデータを比較したい場面がよくあります。たとえばこんな状況：

EXAMPLE

英語のテストで75点、数学のテストで85点。どちらの教科で成績が良かった?
A支店の月次売上は標準偏差50万円、B支店は30万円。どちらの売上が安定している?
マラソン記録3時間40分と、フルマラソン平均ペース。どれくらい速い?

これらの問いには、「生の数字をそのまま比べてはいけない」という共通点があります。テストの平均や標準偏差が違えば、85点と75点の意味は変わってきます。同じ50万円でも、平均500万円の支店と平均200万円の支店では、散らばりの「重み」が違います。

こうした規模や単位の違いを越えて比較するための道具が、これから学ぶzスコアと変動係数です。

2. データの標準化 ─ zスコア

データの標準化とは、データを変換して、「平均0、標準偏差1」という共通の物差しに乗せ替える操作です。これによって得られた値をzスコアと呼びます。

計算式

FORMULA

z ＝（データの値 − 平均値） ÷ 標準偏差

前回学んだ偏差を、標準偏差で割る計算です。シンプルに z ＝偏差 ÷ 標準偏差 と覚えてもOKです。

zスコアの読み方

zスコアは「平均から、標準偏差の何個分離れているか」を表します。

z ＝ 0 → 平均と同じ値
z ＝ +1 → 平均より標準偏差1個分上
z ＝ +2 → 平均より標準偏差2個分上（かなり高い）
z ＝ −1 → 平均より標準偏差1個分下
z ＝ −2 → 平均より標準偏差2個分下（かなり低い）

標準化後のデータは、必ず平均が0、標準偏差が1になるという性質があります。元のデータがどんな単位でも、どんな規模でも、同じ「物差し」に揃えられるのが zスコアの威力です。

例題 1 基本 ─ zスコアの計算

あるテストの平均点は70点、標準偏差は10点でした。Aさんの点数は80点です。Aさんのzスコアを求めてください。

解答を見る

公式に当てはめます。

z ＝ (80 − 70) ÷ 10 ＝ 10 ÷ 10 ＝ 1.0

Aさんのzスコアは 1.0。「平均より標準偏差1個分上」を意味します。10点という絶対的な差ではなく、このテストの散らばり具合の中で、Aさんは平均から1標準偏差分よくできたと読み取れます。

POINT

zスコアは、「データを単位のない、共通の物差しに乗せる」操作です。これによって、まったく違うスケールの値同士を、フェアに比較できるようになります。

さえ

偏差値（50を基準にしたやつ）も、実はzスコアを使って計算してるんだよ! 「偏差値 = 50 + 10×z」っていう変換をしてるだけ。zスコアがわかれば、偏差値の意味もスッキリわかるね!

3. zスコアで異なるテストの成績を比較する

zスコアの真価が発揮されるのは、異なるスケールのデータ同士を比較する場面です。点数も平均も標準偏差も違う、2つのテストの成績を比べてみましょう。

例題 2 標準 ─ 異なる教科の成績比較

Bさんは英語と数学のテストを受け、次のような結果でした。Bさんは、どちらの教科で相対的に良い成績を取ったといえるでしょうか?

教科	Bさんの得点	クラスの平均	標準偏差
英語	75点	60点	10点
数学	85点	80点	5点

解答を見る

それぞれの教科について、Bさんのzスコアを計算します。

英語のzスコア

z ＝ (75 − 60) ÷ 10 ＝ 15 ÷ 10 ＝ 1.5

数学のzスコア

z ＝ (85 − 80) ÷ 5 ＝ 5 ÷ 5 ＝ 1.0

結論

英語のzスコア（1.5）の方が数学のzスコア（1.0）より大きいので、英語のほうが相対的に良い成績です。

生の点数だけ見ると数学（85点）の方が高いように見えます。しかし、英語はクラスの平均60点に対して標準偏差1.5個分も上、数学は平均80点に対して標準偏差1個分上。クラス全体の中での「立ち位置」を比べると、英語のほうが優れた成績だったとわかります。

この例題が示しているのは、「絶対値での比較は、規模が違うとミスリードする」という事実です。zスコアを使えば、平均や散らばりの違うテスト同士でも、フェアに「順位的な意味での成績」を比較できます。

4. 変動係数 ─ 散らばりを相対的に見る

zスコアが「個別データの相対化」だったのに対し、変動係数（CV：Coefficient of Variation）は「データセット全体の散らばりの相対化」です。標準偏差を平均値で割って求めます。

計算式

FORMULA

変動係数＝標準偏差 ÷ 平均値

100倍してパーセント表示することもよくあります。
変動係数（%）＝（標準偏差 ÷ 平均値）× 100

変動係数を使う理由

標準偏差は、データの散らばりを絶対値として表します。たとえば標準偏差が50万円と聞いて「大きい」「小さい」を判断できるでしょうか? それは平均がいくらかによります。

平均500万円のデータで標準偏差50万円 → 平均の10%の散らばり
平均100万円のデータで標準偏差50万円 → 平均の50%の散らばり

同じ50万円でも、後者のほうが「相対的にずっと大きく散らばっている」と言えます。これを数値化したものが変動係数です。

例題 3 応用 ─ 変動係数で散らばりを比較

A支店とB支店の月次売上について、次のデータが得られました。どちらの支店のほうが、売上の変動が相対的に大きいといえますか?

支店	平均売上	標準偏差
A支店	500万円	50万円
B支店	200万円	30万円

解答を見る

まず、標準偏差だけを見るとA支店（50万円）のほうがB支店（30万円）より大きいので、「A支店の方が変動が大きい」と早とちりしそうになります。でも、これは罠。両支店は売上の規模が違うので、相対的に見る必要があります。

A支店の変動係数

CV ＝ 50 ÷ 500 ＝ 0.10（10%）

B支店の変動係数

CV ＝ 30 ÷ 200 ＝ 0.15（15%）

結論

変動係数で比較すると、B支店（15%）のほうがA支店（10%）より散らばりが大きいことがわかります。標準偏差だけ見ていたら見落とす事実です。

A支店は規模が大きいぶん、絶対値としての標準偏差が大きく見えるだけ。規模に対する散らばりの度合いとしては、B支店のほうが揺れているのです。

変動係数の使いどころ

変動係数は、規模や単位の異なるデータの散らばりを比較したいときに威力を発揮します。

異なる規模の店舗・部署・支店の売上のばらつき比較
異なる単位のデータ（身長cm vs 体重kg など）の散らばり比較
異なる業界・業種の業績変動の比較
投資商品のリスク比較（リターンに対する変動の大きさ）

ただし注意点として、平均値が0に近い、または0を含むデータでは変動係数は意味をなさなくなります（割り算が破綻するため）。気温や利益（赤字を含む）など、ゼロや負の値があるデータには使えません。

POINT

標準偏差は「絶対的な散らばり」、変動係数は「相対的な散らばり」。規模の違うデータの散らばりを公平に比べたいときは、変動係数を使ってください。

さえ

標準偏差だけ見て「Aの方が変動が大きい!」って判断しちゃうの、よくある落とし穴。「規模が違うかも?」って思ったら、変動係数の出番だよ!

まとめ

今回のポイントを整理しておきましょう。

zスコア：(データの値 − 平均値) ÷ 標準偏差。個別データを共通の物差しに乗せ替える
zスコアの性質：標準化後の平均は0、標準偏差は1。単位がない
zスコアの活用：異なるスケールのデータを公平に比較できる（教科の成績、テスト結果など）
変動係数：標準偏差 ÷ 平均値。データセット全体の散らばりを相対化
変動係数の活用：規模の違うデータの「散らばりの度合い」を比較できる

zスコアと変動係数──どちらも「相対化」がキーワードです。生の数字だけを見ていると、規模や単位に惑わされて誤った判断をしてしまうことがあります。両方の道具を使い分けることで、データを公平に評価できるようになります。次回は、第3章ファイナル「探索的データ解析法と外れ値」に進みます。

EXCEL — 補助資料

変数の変換と平均値、分散、標準偏差確認シート

STANDARDIZE関数によるzスコア計算と、変動係数を求める実例をExcelで体験できる練習ファイルです。複数の教科や複数の支店データで、相対化のメリットを実感してください。

ダウンロード