標準化・変動係数・指数化
英語75点と数学85点、どちらが「すごい」のか。売上の標準偏差50万円と30万円、どちらが「安定」しているのか。生の数字をそのまま比べると、規模や単位の違いに惑わされてしまいます。今回は、違うものさしのデータを同じ土俵に乗せる3つの道具を学びます。
主役は標準化(zスコア)と、そこから生まれる偏差値、データ全体の相対的なばらつきを測る変動係数、そして基準を $100$ とそろえて推移を見る指数化。どれも「相対化」がキーワードです。数値例で計算しながら、意味と使い分けを身につけましょう。
3級でも標準化(zスコア)はちょっと触れたよね。2級では、なぜ「平均0・標準偏差1」になるのかも式で確かめて、変動係数や指数化までセットで整理するよ。全部「規模をそろえて比べる」ための道具だと思ってね!
1. 標準化(zスコア)─ 共通のものさしに乗せる
標準化とは、データの値を変換して平均 $0$・標準偏差 $1$ という共通のものさしに乗せ替える操作です。得られた値をzスコア(または z値)と呼びます。記号では、データの値を $x$、平均を $\bar{x}$、標準偏差を $s$ として次のように書きます。
$$z = \frac{x - \bar{x}}{s}$$ 分子の $x-\bar{x}$ は偏差(平均からのズレ)です。それを標準偏差 $s$ で割っているので、zスコアは「平均から標準偏差の何個分離れているか」を表します。
なぜ平均0・標準偏差1になるのか
この変換は $z = \frac{1}{s}x - \frac{\bar{x}}{s}$ という1次式(線形変換)です。$x$ から定数 $\bar{x}$ を引くと平均はその分だけ下がり、$s$ で割るとばらつきは $s$ 分の1に縮みます。だから、変換後の平均と標準偏差は次のように動きます。
$$ \begin{aligned} \text{平均:} &\quad \frac{\bar{x} - \bar{x}}{s} = 0\\[4pt] \text{標準偏差:} &\quad \frac{s}{s} = 1 \end{aligned} $$
平均を引けば中心が $0$ に、標準偏差で割ればばらつきが $1$ に。どんな単位・規模のデータでも、標準化すれば必ず平均 $0$・標準偏差 $1$ にそろう、というのがポイントです。
zスコアの読み方
- $z=0$ → 平均と同じ値
- $z=+1$ → 平均より標準偏差1個分上、$z=+2$ → 2個分上(かなり高い)
- $z=-1$ → 平均より標準偏差1個分下、$z=-2$ → 2個分下(かなり低い)
Bさんの結果が、英語75点(平均60点・標準偏差10点)、数学85点(平均80点・標準偏差5点)でした。生の点数は数学のほうが高いですが、相対的にはどちらが上でしょう?
英語:$z = \dfrac{75-60}{10} = 1.5$ 数学:$z = \dfrac{85-80}{5} = 1.0$
zスコアでは英語($1.5$)>数学($1.0$)。クラスの中での立ち位置で見ると、英語のほうが優れた成績だったとわかります。生の点数だけ見ていると逆の判断をしてしまうところでした。
2. 偏差値 ─ zスコアを使いやすく直したもの
zスコアは便利ですが、$-2$〜$+2$ あたりの小数で、マイナスも出るため日常では少し扱いづらい。そこで、zスコアを平均50・標準偏差10のものさしに乗せ替えたものが、おなじみの偏差値です。
$$\text{偏差値} = 10z + 50$$ zスコアを $10$ 倍して $50$ を足すだけ。これも1次式なので、偏差値の平均は $50$、標準偏差は $10$ になります(標準化の逆の発想です)。
平均60点・標準偏差15点のテストでの偏差値を計算します。
| 得点 $x$ | zスコア | 偏差値 $10z+50$ |
|---|---|---|
| 75点 | $\frac{75-60}{15}=+1.0$ | 60 |
| 60点 | $\frac{60-60}{15}=0$ | 50 |
| 45点 | $\frac{45-60}{15}=-1.0$ | 40 |
平均ちょうどなら偏差値50、標準偏差1個分上なら偏差値60、1個分下なら偏差値40。「偏差値60=平均より1標準偏差ぶん上」と読めると、数字の意味がぐっと立体的になりますね。
偏差値の正体は「お化粧したzスコア」! $z$ を $10$ 倍して $50$ 足しただけ。だから偏差値70は $z=+2$、つまり「平均より標準偏差2個分も上」ってこと。けっこうすごい順位なのが式から見えるね。
3. 変動係数 ─ 単位によらない相対的なばらつき
zスコアが「個々の値の相対化」だったのに対し、変動係数(CV:Coefficient of Variation)はデータセット全体のばらつきの相対化です。標準偏差 $s$ を平均 $\bar{x}$ で割って求めます。
$$\text{CV} = \frac{s}{\bar{x}}$$ $100$ 倍してパーセントで表すこともよくあります:$\text{CV}(\%) = \dfrac{s}{\bar{x}} \times 100$。
なぜ変動係数が必要なのか
標準偏差は「絶対的なばらつき」を、もとの単位のまま表します。だから「標準偏差50万円」だけでは、それが大きいのか小さいのか判断できません。平均がいくらかによるからです。標準偏差を平均で割ると、分子・分母の単位(万円)が打ち消し合って単位のない比率になり、規模の違うデータどうしを公平に比べられます。
A支店:平均売上500万円・標準偏差50万円。B支店:平均売上200万円・標準偏差30万円。どちらが相対的にばらついているでしょう?
A支店:$\text{CV} = \dfrac{50}{500} = 0.10\ (10\%)$ B支店:$\text{CV} = \dfrac{30}{200} = 0.15\ (15\%)$
標準偏差だけ見るとA(50万円)のほうが大きく見えますが、規模をそろえるとB支店(15%)のほうが相対的に揺れているとわかります。A支店は規模が大きいぶん、絶対値の標準偏差が大きく見えていただけ、というわけです。
標準偏差は「絶対的なばらつき」、変動係数は「相対的なばらつき」。規模や単位の違うデータのばらつきを公平に比べたいときは変動係数を使います。ただし、平均が $0$ に近い・負の値を含むデータ(気温や赤字を含む利益など)では割り算が破綻するため使えません。
4. 指数化 ─ 基準を100にそろえて推移を見る
最後は指数化です。ある時点(または対象)を基準=100と決め、ほかの値がその何倍かを $100$ 倍で表す方法です。物価指数や株価指数でおなじみの考え方ですね。基準とする値を $x_0$ とすると、次のようになります。
$$\text{指数} = \frac{x}{x_0} \times 100$$ 基準の年(または対象)では $\dfrac{x_0}{x_0}\times 100 = 100$ になります。$110$ なら基準より $10\%$ 増、$90$ なら $10\%$ 減、と直感的に読めるのが利点です。
ある店の年間売上(万円)を、2020年を基準($x_0=2500$)として指数化します。
| 年 | 売上 | 指数(2020=100) | 読み方 |
|---|---|---|---|
| 2020 | 2500 | 100 | 基準 |
| 2021 | 2750 | 110 | 基準比 +10% |
| 2022 | 3000 | 120 | 基準比 +20% |
| 2023 | 2250 | 90 | 基準比 −10% |
たとえば2022年は $\dfrac{3000}{2500}\times 100 = 120$。生の金額を追うより、「基準から何%動いたか」が一目でわかります。単位の違う複数の系列(売上と来客数など)を $100$ にそろえて重ねれば、伸び方の比較もしやすくなります。
5. 3つの道具の使い分け
似たような「相対化」の道具がそろったので、いつ何を使うかを整理しておきましょう。
| 道具 | 式 | そろえるもの | 使いどころ |
|---|---|---|---|
| 標準化(zスコア) | $z=\dfrac{x-\bar{x}}{s}$ | 平均0・標準偏差1 | 個々の値の相対的な位置を比べる |
| 偏差値 | $10z+50$ | 平均50・標準偏差10 | zスコアを読みやすく表示する |
| 変動係数 | $\dfrac{s}{\bar{x}}$ | 単位を消した比率 | 規模の違うデータのばらつきを比べる |
| 指数化 | $\dfrac{x}{x_0}\times 100$ | 基準=100 | 基準からの増減・推移を比べる |
合言葉は「個々の位置なら標準化、全体のばらつきなら変動係数、推移なら指数化」。どれも生の数字に潜む「規模・単位のワナ」を外してくれる道具です。比較の前に、まず土俵をそろえる──この習慣が2級以降の分析でずっと効いてきます。
標準化・偏差値・変動係数・指数化、ぜんぶ「比べるために土俵をそろえる」仲間だよ。zスコアの式 $z=\frac{x-\bar{x}}{s}$ は第2章の正規分布でも大活躍するから、今のうちに手で書けるようにしておいてね!
まとめ
第1章 1-6、ポイントを整理します。
- 標準化:$z=\dfrac{x-\bar{x}}{s}$。変換後は必ず平均 $0$・標準偏差 $1$
- 偏差値:$10z+50$。平均 $50$・標準偏差 $10$ にそろえた、読みやすいzスコア
- 変動係数:$\text{CV}=\dfrac{s}{\bar{x}}$。単位によらない相対的なばらつき。平均が0近辺・負だと使えない
- 指数化:$\dfrac{x}{x_0}\times 100$。基準を $100$ にそろえ、増減・推移を見やすくする
- 共通点:すべて「規模・単位をそろえて公平に比べる」ための相対化
次回 1-7 5数要約と外れ値 では、最小値・四分位数・最大値の5つでデータの輪郭をつかみ、$1.5\times \text{IQR}$ で外れ値を判定する方法、そして箱ひげ図との対応を学びます。