講座リクエスト受付フォーム
PeachRoom

外れ値・異常値・欠損値

Yujiro Sakaki

レポーティング作業において、どんなに高水準な自動化プログラムを組み込んでも、必ずと言っていいほど「このデータおかしいぞ?」という場面に遭遇します。

私が作成した地震ダッシュボードでも、ときたまマグニチュードの変数におかしな数値が入り込みます。マグニチュード9.4なんて起きたら、大ニュースになっていますからね。

異常値が入り込んだ例

このような異常な値は全部で3パターンあります。

外れ値(外れ値)、異常値(いじょうち)、欠損値(けっそんち)という言葉が出てきますが、これらは一体何が違うのでしょうか?

こちらの記事では、データ分析で避けては通れない「困ったデータ」の正体と、その対処方法について学習します。

Check Point

この記事で学習できること

  • 外れ値(Outlier:アウトライアー)とは何か
  • 異常値(Anomaly:アノマリー)とは何か
  • 欠損値(Missing Value:ミッシングバリュー)とは何か
  • それぞれの見分け方と対処法
  • データクリーニングの基本的な考え方

自動化プログラムを作って、出てきたエラーを対処しても、また別のエラーが出てきて、それを対処…その作業は延々と続き、終わりがありません。気がついたら、自動化プログラムが誰も手を付けられなくなる条件分岐だらけの産物となってしまう、というのはあるあるなことなんですよね

外れ値・異常値・欠損値は何が違う?

まず、この3つの違いを簡単に整理しましょう。

外れ値(Outlier)

他のデータと比べて極端に大きい、または小さい値のことです。

例: クラスのテストで、ほとんどが60~80点なのに、1人だけ15点や100点がある

異常値(Anomaly)

データとして明らかにおかしい、ありえない値のことを言います。

例: 身長が「-50cm」、年齢が「200歳」、気温が「150℃」

欠損値(Missing Value)

データが入力されていない、または記録されていない状態のことです。

例: アンケートで未回答の項目、センサーの記録エラー、機械の故障

この3つ、似ているようで対処法がそれぞれ異なります。

例えば、異常値と欠損値は、他のデータと反映させてしまうと明らかに問題が生じますが、外れ値の場合はどうでしょう? 外れ値は実際に未知の出来事を知らせてくれる唯一の情報源になるかもしれません。

それでは、この3つの値をそれぞれ詳しく見ていきましょう。

外れ値(Outlier)

外れ値は「他のデータから離れた値」のことでした。

外れ値の例

年収のデータを集めたとき:

  • 300万円
  • 350万円
  • 400万円
  • 420万円
  • 380万円
  • 2億円 ← これが外れ値

このデータ、おかしいでしょうか?

いいえ、おかしくはありません。実際に年収2億円の人は存在しますし、データとして間違っているわけではありません。

ただし、平均値を計算すると大きく引っ張られてしまうという問題があります。平均値・中央値・最頻値のところで、貯蓄高等級表を見ていただきましたが、平均値>中央値となっていたのは、まさにこの原因です。

この場合、中央値が重要な指標となります。

外れ値の判定方法

統計学では、外れ値を判定する方法がいくつかあります。

1. 四分位範囲(IQR法)

最もよく使われる方法です。このようにデータを区分けします。

  • 最小値
  • 第1四分位(25%位置)
  • 中央値(50%位置)
  • 第3四分位(75%位置)
  • 最大値

例えば、以下のようなデータがあったとしましょう。

  • 最小値 – 100
  • 第1四分位 – 500
  • 中央値 – 650
  • 第3四分位 – 700
  • 最大値 – 1,200

外れ値を定義する計算式はこちらになります。

IQR = Q3 - Q1

外れ値の基準:
● Q1 - 1.5×IQR より小さい
● Q3 + 1.5×IQR より大きい
  • IQR = 700 – 500 = 200
  • 小さいほうの外れ値:
    • 500 – 1.5 × 200 =200 より小さい値が外れ値
  • 大きいほうの外れ値:
    • 700 + 1.5 × 200 =1,000 より大きい値が外れ値

IQRは、Interquartile Range(インタークワタイル・レンジ)って言います。計算式で外れ値を定義できるので、何も考えなくて検出が可能です。ただ、外れ値すべてが悪でないことに注意してね

2. 標準偏差による方法

平均値から、標準偏差の3倍以上離れている値を外れ値とする方法もあります。

外れ値の基準:
● 平均 - 3×標準偏差 より小さい
● 平均 + 3×標準偏差 より大きい

外れ値の対処法

外れ値を見つけたら、まず 「なぜこの値が出たのか?」 を考えます。

対処法1:そのまま残す

外れ値が正当なデータであれば、削除してはいけません。年収2億円の人を「外れ値だから」と削除したら、データの偏りが生まれてしまいます。

繰り返しになりますが、平均値ではなく中央値を使うことで影響を抑えられます。

対処法2:削除する

明らかな入力ミスや測定エラーが原因であれば、削除を検討します。

対処法3:変換する

別のデータに置き換えて、外れ値の影響を小さくする方法もあります。

プロジェクトをスタートした時期では、まだ外れ値の定義を決めることができませんが、経験を積んでいくと、外れ値の取り扱いも慣れてくるはずです。

ただし、ここが落とし穴で、経験則から先にルール化しておかないといけません。

ルール化なしで経験則に頼ってばかりの状態で外れ値の操作をしてしまうと、対応する時期または人によって、それが恣意的な操作になってしまうためです。

こういうケースは削除する、こういうケースは組み込む、こういうときは変換するといったように、ある程度の運用が続いたらルール化しておくとことが望まれます。

異常値(Anomaly)とは?

異常値は「ありえない値」「明らかに間違っている値」のことです。

異常値の例

健康診断のデータで:

  • 身長:170cm → 正常
  • 身長:1700cm → 異常値(17メートルの人間はいない)
  • 体重:-50kg → 異常値(マイナスの体重はありえない)
  • 年齢:250歳 → 異常値(人間の寿命を超えている)

異常値は、データとして成立していないものです。

異常値が発生する原因

  1. 入力ミス:170cm を 1700cm と打ち間違えた
  2. 単位の間違い:メートルで記録すべきところをセンチで記録
  3. システムエラー:センサーの故障、データベースのバグ
  4. 不正なデータ:意図的な改ざん、いたずら入力

異常値の対処法

異常値を見つけたら、必ず削除または修正します。

対処法1:削除する

修正できない場合は、そのレコード(行)ごと削除します。

対処法2:修正する

元データを確認して正しい値に修正できるなら、修正します。

対処法3:欠損値として扱う

削除せず、空白(欠損値)として残す方法もあります。この場合、システムによっては空白が0データとして上がっていないかの確認が必要です。

欠損値(Missing Value)とは?

欠損値は「データが存在しない」状態のことです。

欠損値の例

次の表をご覧ください。

名前年齢性別年収
Aさん30男性700万円
Bさん25男性
Cさん女性650万円

BさんとCさんのデータに空白がありますね。これが欠損値です。

欠損値が発生する原因

  1. 回答拒否
    • アンケートで「答えたくない」項目をスキップ
  2. 記録漏れ
    • 担当者が入力を忘れた
  3. システムエラー
    • センサーが一時的に動作停止
  4. データ結合時のミス
    • 複数のデータを結合したときに情報が欠落

欠損値の種類

欠損値には3つのタイプがあります。

厳密な読み方、または統計学的に厳密な言い回し方がありますが、欠損値は基本的に空データが上がってきた状態をイメージしていただければ問題ありません。

以下、事細かに分けた場合のお話です。簡単にご紹介しておきます。

1. MCAR(完全にランダムな欠損)

Missing Completely At Random の略です。エムカーと言います。欠損がまったくランダムに発生している状態。

例: センサーがランダムに故障する

2. MAR(ランダムな欠損)

Missing At Random の略です。そのままエム・エー・アール、またはマーと言います。他の変数との関連で、欠損が発生している状態です。

例: 高齢者ほど「年収」欄の回答率が低い傾向にある

3. MNAR(ランダムでない欠損)

Missing Not At Random の略。エムエヌエー・アール。または短くエムナーと読むこともあります。欠損自体に意味がある状態のことです。

例: 女性ほど「年齢」欄を答えたがらない

欠損値の対処法

欠損値の対処法は、データの性質によって変わります。

対処法1:削除する(リストワイズ削除)

欠損値を含む行をすべて削除する方法です。

  • メリット:シンプルで分かりやすい
  • デメリット:データが大幅に減る可能性がある

対処法2:平均値で補完する

数値データの場合、その列の平均値で埋める方法。

年収の欠損値 → 年収の平均値で補完する。

  • メリット:データ数を減らさない
  • デメリット:データが整いすぎてしまう(分散が小さくなる)

対処法3:中央値で補完

外れ値の影響を受けにくい中央値で補完する方法。

対処法4:最頻値で補完

カテゴリデータ(性別、地域など)の場合、最も多い値で埋める方法。

対処法5:予測モデルで補完

線形回帰や機械学習を使って、他の変数から欠損値を予測する方法。

外れ値・欠損値の除去、そして欠損値の補完データは、データの信頼性に影響が出てしまうため、必ずどういう操作をしたのか明記しておくと信頼性が担保されます。

まとめ

それでは最後に、外れ値・異常値・欠損値のまとめです。

  • 外れ値は「極端な値」だが、正当なデータの可能性がある
  • 異常値は「ありえない値」で、必ず削除または修正が必要
  • 欠損値は「データがない状態」で、削除か補完を検討する

データ分析の8割はデータをきれいにする作業、データクレンジング(データクリーニング)だと言われるほど、この作業は重要で負荷が大きいんですね。

これは実体験から言いますと、誰もやりたくない作業です。

誰にも評価されませんし、データは整っていて当たり前、レポートはいつだって完璧でなければならない。そんな減点評価の世界の作業なので、私自身もこの十字架(作業)を背負いたくはありません。

けれども、誰かがやらなければいけない作業ですし、その人がいなければ分析作業もできないのですから、どうかその作業をしている人へのリスペクトを忘れないように心掛けてください。

外れ値・異常値・欠損値を正しく理解して、信頼性の高い分析を目指しましょう!

最終確認日:2025年11月20日

Advertisement

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください

ABOUT ME
榊 裕次郎
榊 裕次郎
Excel講師
1981年10月生まれのてんびん座、東京都出身。趣味は、旅行と料理とワイン。2025年もラストスパートですね! 皆さんはどんな1年でしたでしょうか?

2025年が最後までいい1年でありますように、がんばっていきましょう!
記事URLをコピーしました