2024.01.13

データの正規化方法

Yujiro Sakaki

縦長のキャプチャで恐縮です。皆さんは以下のキャプチャのようなヒートマップを見たことがありますか？

ヒートマップは、絶対的な数値データで眺めるよりも、色の濃淡を利用することで、データの集中度合いを視覚的に確認することができます。

セルを利用して、データを「面」で見ることができるため、この手法は大変便利です。これは、データを正規化して色付けがされています。

Check Point

この記事で学習できること

正規化とは、データを０～１の範囲に置き換えることです。ここではデータの正規化方法を学習していきましょう。

変動係数にデータの標準化、そして正規化。データを相対的にみる手法は、こんなにもあるんだね！

正規化とは、データセット内の全ての値を0～1の間に収める方法です。具体的には、各データから最小値を引き算し、それを最大値と最小値の差、つまりレンジで割ります。

正規化された値　＝　（実データ－最小値）÷ レンジ

偏差を標準偏差で割り算して求める標準化データの「ｚ値」は、きちんと専用の名前がついているのですが、この正規化された値には特定の用語はありません。

正規化された値、またはスケーリングされた値と呼びます。最初にご紹介したダミーデータのキャプチャ画像で、正規化された状態を見てみましょう。

データを正規化すると、最小値が「0」になり、最大値が「1」となります。この値に基づいて、色の度合いがグラデーションで定められているのがわかりますよね。

Excelのようなアプリケーションソフトでは、正規化の計算式をしないでも「条件付き書式」の「カラースケール」機能を使えば、自動でグラデーションカラーを塗ってくれます。

ですので、このような計算式を作成する機会も多くはないので、裏ではこのような計算がされて色が塗られているのだ、ということを覚えておいてください。

では、どういうときに正規化を使うのかというと、機械学習ではよく用いられます。

計測データを０～１の間に取得したデータを変換して学習させれば、スピーディーな学習をさせることができます。この前処理があることで、全体の計算量を節約できますからね。

また、異なる単位のデータを統合する際にも正規化が役に立ちます。

センチメートルとインチでは長さの単位が異なりますが、正規化することで長さの度合いを均一に見ることが可能です。

このように、正規化の出番はなかなかありませんが、データの前処理ではとても重要な調理方法の一つでもあるので、ぜひ覚えておきましょう。

ブレ幅をみるとき、そのままの数字で見るより、０～１の範囲で置き換えて見たほうが楽だよね。

ABOUT ME