データの正規化方法
皆さんは、以下のキャプチャのようなヒートマップを見たことがありますでしょうか? これは、データを正規化して色付けをしております。
絶対的な数値データで眺めるよりも、色の濃淡を利用することでアラートなどのリスクや、混雑などの集中度合いを視覚的に確認することができます。
データを「面」で見ることができるため、この手法は大変便利です。
この記事で学習できること
- 正規化
- ヒートマップ
この記事では、色の濃淡を表現するためのデータの正規化とは、どのようにして行うのか? こちらにフォーカスをあてて記事を書いていきます。
データの正規化の方法
正規化とは、データセット内の全ての値を0~1の間に収める方法です。具体的には、各データ点から最小値を引き算し、それを最大値と最小値の差、つまりレンジで割ります。
このプロセスにより、データは標準化され、異なる尺度の変数が比較可能になります。
正規化された値 = ( 実データ - 最小値 )÷ レンジ
偏差を標準偏差で割り算して求める標準化データの「z値」は、きちんと専用の名前がついているのですが、この正規化された値には特定の用語はありません。
正規化された値、またはスケーリングされた値と呼びます。最初にご紹介したダミーデータのキャプチャ画像で、正規化された状態を見てみましょう。
データを正規化すると、最小値が「0」になり、最大値が「1」となります。この値に基づいて、色の度合いがグラデーションで定められているのがわかりますよね。
Excelのようなアプリケーションソフトでは、正規化の計算式をしないでも「条件付き書式」の「カラースケール」機能を使えば、自動でグラデーションカラーを塗ってくれます。
ですので、このような計算式を作成する機会も多くはないので、裏ではこのような計算がされて色が塗られているのだ、ということを覚えておいてください。
では、どういうときに正規化を使うのかというと、機械学習ではよく用いられます。
計測データを0~1の間に取得したデータを変換して学習させれば、スピーディーな学習をさせることができます。この前処理があれば、計算量が少なくなりますからね。
また、異なる単位のデータを統合する際にも正規化が役立ちます。
センチメートルとインチは単位が違いますが、正規化することで長さの度合いを均一に見ることが可能です。
このように、正規化の出番はなかなかありませんが、データの前処理ではとても重要な調理方法の一つでもあるので、ぜひ覚えておきましょう。
さて、次は移動平均に話は移ります。
時系列データを平滑化する移動平均の記事に進んでください。正規化の話は以上となります。おつかれさまでした。