Udemyで講座を受講しよう!
統計

データの正規化方法

Yujiro Sakaki

皆さんは、以下のキャプチャのようなヒートマップを見たことがありますでしょうか? これは、データを正規化して色付けをしております。

カラースケールをしたダミーデータです

絶対的な数値データで眺めるよりも、色の濃淡を利用することでアラートなどのリスクや、混雑などの集中度合いを視覚的に確認することができます。

データを「面」で見ることができるため、この手法は大変便利です。

Check Point

この記事で学習できること

  • 正規化
  • ヒートマップ

この記事では、色の濃淡を表現するためのデータの正規化とは、どのようにして行うのか? こちらにフォーカスをあてて記事を書いていきます。

データの正規化の方法

正規化とは、データセット内の全ての値を0~1の間に収める方法です。具体的には、各データ点から最小値を引き算し、それを最大値と最小値の差、つまりレンジで割ります。

このプロセスにより、データは標準化され、異なる尺度の変数が比較可能になります。

正規化された値 = ( 実データ - 最小値 )÷ レンジ

偏差を標準偏差で割り算して求める標準化データの「z値」は、きちんと専用の名前がついているのですが、この正規化された値には特定の用語はありません。

正規化された値、またはスケーリングされた値と呼びます。最初にご紹介したダミーデータのキャプチャ画像で、正規化された状態を見てみましょう。

データを正規化すると、最小値が「0」になり、最大値が「1」となります。この値に基づいて、色の度合いがグラデーションで定められているのがわかりますよね。

Excelのようなアプリケーションソフトでは、正規化の計算式をしないでも「条件付き書式」の「カラースケール」機能を使えば、自動でグラデーションカラーを塗ってくれます。

[ホーム]タブ→条件付き書式

ですので、このような計算式を作成する機会も多くはないので、裏ではこのような計算がされて色が塗られているのだ、ということを覚えておいてください。

では、どういうときに正規化を使うのかというと、機械学習ではよく用いられます。

計測データを0~1の間に取得したデータを変換して学習させれば、スピーディーな学習をさせることができます。この前処理があれば、計算量が少なくなりますからね。

また、異なる単位のデータを統合する際にも正規化が役立ちます。

センチメートルとインチは単位が違いますが、正規化することで長さの度合いを均一に見ることが可能です。

このように、正規化の出番はなかなかありませんが、データの前処理ではとても重要な調理方法の一つでもあるので、ぜひ覚えておきましょう。

さて、次は移動平均に話は移ります。

時系列データを平滑化する移動平均の記事に進んでください。正規化の話は以上となります。おつかれさまでした。

Advertisement
ABOUT ME
榊 裕次郎
榊 裕次郎
Excel講師
1981年10月生まれのてんびん座、東京都出身。趣味は、旅行と料理とワイン。2024年は、佐賀県に行って「呼子のイカ」を思いっきり食べたいです。

仕事では2023年も引き続き、青森・秋田・岩手でのお仕事依頼、お待ちしております!
記事URLをコピーしました