データの標準化方法
続いて、データの標準化について学習をしていきます。データの標準化というのは、異なる規模のデータを同一単位にして見る手法です。
例えば、スーパーで陳列している商品はたくさんありますよね。
しかし、どれも価格帯が異なるため、どの商品が相対的に売れているのか? 売上の合計金額だけでは比較できません。
そこで、各商品の平均値を「0」、標準偏差を「1」に置き換えることで、単位や規模の異なるデータを比較することができます。
この記事で学習できること
- z値
- 偏差値
標準された値をz値(ジースコア・ジーバリュー)と言います。まずは、データを標準化するための計算方法について学習していきましょう。
z値って呼び名がかっこいいよね!
第12講座
計算式は、以下の通りです。
z値 = 偏差 ÷ 標準偏差
偏差は「実データ - 平均値」をすることで、平均からの距離を求めることができました。
これを標準偏差で割ることで、平均を「0」、標準偏差を「1」に置き換えることができます。キャプチャでは、Excelを使って標準化をしてみました。
なお、データを標準化するときは、標本データであることがほとんどなので、不偏分散を使った標本標準偏差を分母で使います。
偏差のデータを使っているため、出力される値は偏差の性質を継承します。つまり、標準化データの合計値は、偏差同様「0」になるということです。
ExcelではSTANDARDIZE(スタンダーダイズ)関数を使って求めることができます。
データを標準化するメリット
変動係数を学習したときの概念と似ています。データを相対的に確認することが目的です。以下のキャプチャをご覧ください。
青果食品と加工肉食品のデータを標準化してみました。
金額では絶対的な指標となるため、見比べることが困難ですが、標準化すると平等なスコアとしてデータを見ることができます。
赤枠の4日間をご覧ください。どうして、肉の売上が平均以上だったとき、野菜の売上が平均以下になりやすいのか?
このような疑問が見つかります。どうしたら野菜も一緒に買ってくれるのか? 青果食品が加工肉食品の特売のときに、目に届きにくくなっているのだろうか? などなど、現場で見えなかったことが、データ上で見えてくることもあるでしょう。
標準化データz値は、データを相対的に見比べることができるので、統計の中では欠かせない値となっております。
また、1点補足ですが、偏差値はz値を10倍して、50を足し算した値になります。つまり、平均値が偏差値50という値になります。
偏差値 = z値 × 10 + 50
この偏差値は、東京都港区の中学校理科教員だった桑田昭三さんが導いたものです。
高度経済背長期、子供の人数が増えていった戦後のあの時代には、非常に役に立つ数字だったと思います。ただ、私自身あまり好きな値ではありません。偏差値マウントみたいなものが当時ありましたからね…。
さて、次の記事では、データの正規化方法について学習をしていきましょう。
z値も偏差値も同じ意味を持っているけど、スコアの値が大きくなれば、大きくなった分「順位尺度」としての情報量が大きくなっていくことがわかるよね