データの標準化方法
この記事では、データの標準化について学習します。データの標準化というのは、異なる規模のデータを同一単位にして見る手法です。
例えば、スーパーで陳列している商品はたくさんあります。しかし、どれも価格帯が異なるため、どの商品が相対的に売れているのか? 売上の合計金額だけでは比較できません。
そこで、各商品の平均値を「0」、標準偏差を「1」に置き換えることで、単位や規模の異なるデータを比較することができます。
この記事で学習できること
- z値
- 偏差値
標準された値をz値(ジースコア・ジーバリュー)と言います。まずは、データを標準化するための計算方法について学習していきましょう。
データを標準化する計算方法
計算式は、以下の通りです。
z値 = 偏差 ÷ 標準偏差
偏差は「実データ - 平均値」で求めることができます。平均との差の値でした。これを標準偏差で割ることで、平均を「0」、標準偏差を「1」に置き換えることができます。
キャプチャでは、Excelを使って標準化をしてみました。
なお、データを標準化するときは標本データであることがほとんどなので、不偏分散を使った標本の標準偏差を分母で使います。
偏差のデータを使っているため、出力される値は偏差の性質を継承しています。つまり、標準化データの合計値は偏差同様「0」になる、ということです。
ExcelではSTANDADARIZE(スタンダーダイズ)関数を使って求めることができます。
データを標準化するメリット
データを相対的に確認することができます。以下のキャプチャをご覧ください。青果食品と加工肉食品のデータを標準化してみました。
金額では絶対的な指標となるため、見比べることが困難ですが、標準化するとフラットにデータを見ることができるので、赤枠の4日間のようなアラートに気づきやすくなります。
どうして、肉の売上が平均以上だったとき、野菜の売上が平均以下になりやすいんだろう?
このような仮説を立てることで、どうしたら野菜も一緒に買ってくれるのか? 青果食品が加工肉食品の特売のときに見えなくなっているのだろうか? などなど、現場で見えなかったことがデータ上で見えてくることもあるでしょう。
標準化データz値は、データを相対的に見比べることができるので、統計の中では欠かせない値となっております。
以上、データの標準化方法とz値についてでした。
また、1点補足ですが、偏差値はz値を10倍して50を足し算した値になります。つまり、平均値が偏差値50という値になります。
偏差値 = z値 × 10 + 50
学生時代に学力をラベリングされた値なので、私自身あまり好きな値ではありません。次の記事では、データの正規化方法について学習をしていきましょう。