第3章 3-4 / 1変数データの分析

探索的データ解析法と外れ値

このページで学ぶこと

第3章ファイナル。これまで学んだ代表値・散らばり・標準化・グラフを総動員して、データを探索的に読み解く方法をまとめていきます。

登場するキーワードはEDA(探索的データ解析)要約統計量外れ値の判定基準、そして頑健(robust)。最後に、第2章のグラフと第3章の数値を両輪として使う、データ分析の本質的な姿勢をお伝えします。

1. 探索的データ解析(EDA)とは

探索的データ解析(Exploratory Data Analysis、略してEDA)とは、データを本格的に分析する前に、データの素顔を観察する活動のことです。1977年にアメリカの統計学者ジョン・テューキーが提唱したアプローチで、現代のデータサイエンスでも基本中の基本とされています。

ちなみに、第2章で学んだ箱ひげ図を考案したのもこのテューキーです。「データに語らせる」という哲学のもと、グラフや要約統計量を使って、まずはデータと対話する──これがEDAの本質です。

EDAの目的

EDAは、次のような目的で行います。

EDAをサボっていきなり高度な分析に進むと、データに潜む罠(外れ値、二峰性の分布など)に気づかず、まちがった結論を出してしまうことがあります。EDAは、データ分析の最初のステップであり、もっとも大事なステップです。

さえちゃん
さえ

EDAって難しそうな名前だけど、要は「いきなり計算しないで、まずデータをじっくり見ようよ」ってこと! データと仲良くなる時間、と思えば気楽に取り組めるよ!

2. 要約統計量でデータの全体像をつかむ

EDAの第一歩は、要約統計量(summary statistics)でデータの全体像をつかむことです。これまで学んできた指標を、目的別に整理しましょう。

目的 指標
中心の位置を知る平均値、中央値、最頻値3-1
データの広がりを知るレンジ、四分位範囲2-5
散らばりの大きさを測る分散、標準偏差3-2
分布の輪郭をつかむ5数要約(最小・Q1・中央・Q3・最大)2-4
規模を越えて比較するzスコア、変動係数3-3

典型的な要約統計量の例

たとえば、あるクラス40人の身長データから、次のような要約統計量が得られたとしましょう。

SUMMARY
  • 平均値:165cm
  • 中央値:163cm
  • 最頻値:162cm
  • 標準偏差:7cm
  • 最小値:150cm 最大値:185cm
  • Q1:158cm Q3:170cm IQR:12cm

この数字から、見るだけでいくつかのことが読み取れます。

要約統計量だけで、これだけのストーリーが見えてくるわけです。

3. 外れ値の判定基準 ─ 1.5×IQR ルール

要約統計量を見ていると、しばしば「これは外れ値かもしれない」という値に出会います。外れ値(はずれち、outlier)とは、他の多くのデータから極端に離れた値のこと。判定には、いくつかの流派がありますが、もっとも広く使われるのが1.5×IQRルールです。

判定式

FORMULA

次のいずれかにあてはまる値を、外れ値と判定する:

下限の閾値:Q1 − 1.5 × IQR より小さい値
上限の閾値:Q3 + 1.5 × IQR より大きい値

つまり、Q1とQ3を中心に、IQRの1.5倍ぶん外側に「フェンス」を張り、それを越える値を外れ値と判定するイメージです。これは第2章の箱ひげ図で「ひげの長さ」を決めるルールでもありました。

例題 外れ値を判定する

9個のデータ「5, 10, 15, 20, 25, 30, 35, 40, 100」について、1.5×IQRルールで外れ値を判定してください。

解答を見る

① 5数要約を求める

中央値(5番目)= 25

Q1(下半分の中央値、2番目と3番目の平均)= (10 + 15) ÷ 2 = 12.5

Q3(上半分の中央値、7番目と8番目の平均)= (35 + 40) ÷ 2 = 37.5

② IQRを求める

IQR = Q3 − Q1 = 37.5 − 12.5 = 25

③ 上下のフェンスを計算

下限の閾値:Q1 − 1.5 × IQR = 12.5 − 1.5 × 25 = 12.5 − 37.5 = −25

上限の閾値:Q3 + 1.5 × IQR = 37.5 + 1.5 × 25 = 37.5 + 37.5 = 75

④ データを見て、フェンスの外にある値を探す

下限−25よりも小さい値 → なし

上限75よりも大きい値 → 100

結論:100が外れ値と判定される。

このデータは、2-5でも扱った「100が外れ値であることが計算的に明らか」になる典型例です。「なんとなく外れている気がする」を、数字でしっかり示せるようになりました。

なぜ「1.5倍」なのかというと、テューキーの経験的な目安に基づくもので、実用上ちょうどよく外れ値を拾える値とされています。3倍以上離れた値は「極端な外れ値」と呼ばれることもあります。

外れ値が見つかったらどうするか

外れ値 = 即削除ではない、というのが大事なポイントです。値が外れている理由を考え、それに応じて扱いを決めます。

外れ値こそ、もっとも重要な発見の入り口になることもあります。「なぜこの値だけ違うのか?」を問うことが、データ分析の醍醐味です。

さえちゃん
さえ

外れ値を見つけたら、機械的に削除しちゃダメだよ! 「なぜ?」って一度立ち止まって考えるのが、いいデータ分析者になる第一歩!

4. 頑健(robust)な統計量

データに外れ値が含まれているとき、影響を受けにくい統計量大きく動いてしまう統計量があります。前者の性質を頑健性(がんけんせい、robustness、ロバストネス)と呼びます。

頑健な統計量と、頑健でない統計量

分類 統計量 性質
頑健中央値真ん中の位置だけ見るので外れ値に動じない
四分位範囲(IQR)中央50%だけ見るので外れ値に動じない
最頻値もっとも多く出る値が変わらなければ動じない
頑健でない平均値1つの極端な値で大きく動く
分散・標準偏差偏差を2乗するので外れ値の影響が増幅
レンジ最小値と最大値そのものなので、外れ値が直撃

具体例で実感する

先ほどの「5, 10, 15, 20, 25, 30, 35, 40, 100」を例に取りましょう。100という外れ値が、各統計量にどう影響するか見てみます。

COMPARE
  • 平均値:100を含むと 30.0、100を除くと 22.5 (大きく変動)
  • 中央値:100を含むと 25、100を除いても 22.5付近 (ほぼ動じない)
  • レンジ:100を含むと95、100を除くと35 (直撃を受ける)
  • 四分位範囲:100を含むと25、100を除いてもほぼ同じ (動じない)

平均値とレンジは外れ値に大きく動かされ、中央値と四分位範囲はほとんど動かない──この対比が、頑健性の本質です。

使い分けの目安

実務では、両方を併記するのが鉄則です。「平均は450万円、中央値は380万円」と並べて報告すれば、両者のずれから分布の偏りも読み取れます。頑健な統計量と、頑健でない統計量を組み合わせることで、データの本当の姿が見えてきます。

POINT

頑健性は「外れ値に振り回されないか」のものさしです。中央値と四分位範囲は、外れ値があるデータでも信頼できる味方。一方、平均値や標準偏差はデータが整っているときの主役です。場面に応じて使い分けてください。

さえちゃん
さえ

「頑健」って漢字が固いけど、要は「ブレない」ってこと。外れ値があっても動じない指標と、ぐらぐら動いちゃう指標、両方を知って使い分けるのが大事!

5. グラフと数値、両輪で読む

ここまで第3章で数値による要約を学んできました。でも、本当のEDAはここで終わりません。要約統計量とグラフを両輪として組み合わせる──これが、第3章を締めくくる、もっとも大切なメッセージです。

数値だけでは見落とすこと

要約統計量は強力ですが、いくつかの「見落とし」があります。

これらは、グラフを描けばすぐにわかります。「平均と中央値が近いから左右対称」と数値で判断したつもりが、実は二峰性の分布だった──ということもあります。

EDAの実践フロー

EDAを進めるときの、おすすめの手順を整理しておきましょう。

  1. 要約統計量で「ぱっと見」をつかむ:平均・中央値・標準偏差・5数要約
  2. ヒストグラムで分布の形を確認:山の形、対称性、谷の有無
  3. 箱ひげ図で外れ値の位置を確認:中央50%とひげ、点で表示される外れ値
  4. 必要に応じて層別する:男女別、年代別、地域別など
  5. パターンを発見し、仮説を立てる:気づいたことをメモに残す

この5ステップを習慣にするだけで、データの読み方が一段深くなります。「数字を見る → 形を見る → 違いを見る」という流れを、自然にできるようになることが目標です。

第2章のグラフたちを思い出してみよう

第3章で学んだ数値は、第2章で学んだグラフとぴったり対応しています。

第3章で学んだ数値 第2章で学んだ対応するグラフ
平均値・最頻値ヒストグラムの重心、山の頂上
中央値・5数要約箱ひげ図の中央線、箱、ひげ
レンジ・四分位範囲箱ひげ図のひげの全長、箱の高さ
外れ値箱ひげ図のひげの外側にある点
分布の形(対称・偏り)ヒストグラムの形

第2章と第3章の両方を学んだあなたは、もうデータを「数値でも、形でも」読めるようになっているはずです。

POINT

EDAは「グラフと数値、両輪で読む」のが基本です。どちらか一方だけでは、データの本当の姿は見えません。両方を行き来しながら、データと対話してください。

まとめ ─ そして第3章完了

第3章ファイナルのポイントを整理します。

第3章「1変数データの分析」、ここで完了です。代表値の3つから始まり、分散・標準偏差で散らばりを測り、zスコアと変動係数で規模を超えて比較し、最後にEDAと外れ値で全体を統合する──データを1つの数字で代表させるための道具が一通り揃いました。

第3章「1変数データの分析」、ここで完了です。 次章からは2変数のデータに進み、変数同士の関係性──相関や回帰──を学んでいきます。1つのデータを読む力が、関係を見る力に進化していきます。

さえちゃん
さえ

第3章おつかれさま! 平均から外れ値まで、1変数データを読む道具がぜんぶ手に入ったね。第4章ではついに2つの変数の関係を扱うよ。お楽しみに!

X
EXCEL — 補助資料

探索的データ解析法と外れ値 確認シート

要約統計量を一気に求めるDESCRIPTIVE関数、1.5×IQRルールによる外れ値の自動判定、そしてヒストグラムと箱ひげ図を組み合わせたEDAの実践を、Excelで体験できる練習ファイルです。

ダウンロード