探索的データ解析法と外れ値
第3章ファイナル。これまで学んだ代表値・散らばり・標準化・グラフを総動員して、データを探索的に読み解く方法をまとめていきます。
登場するキーワードはEDA(探索的データ解析)、要約統計量、外れ値の判定基準、そして頑健(robust)。最後に、第2章のグラフと第3章の数値を両輪として使う、データ分析の本質的な姿勢をお伝えします。
1. 探索的データ解析(EDA)とは
探索的データ解析(Exploratory Data Analysis、略してEDA)とは、データを本格的に分析する前に、データの素顔を観察する活動のことです。1977年にアメリカの統計学者ジョン・テューキーが提唱したアプローチで、現代のデータサイエンスでも基本中の基本とされています。
ちなみに、第2章で学んだ箱ひげ図を考案したのもこのテューキーです。「データに語らせる」という哲学のもと、グラフや要約統計量を使って、まずはデータと対話する──これがEDAの本質です。
EDAの目的
EDAは、次のような目的で行います。
- データの全体像をつかむ:分布の形、中心、ばらつきのおおよその姿
- 外れ値や異常値を発見する:分析結果を歪める可能性のある特異な値
- パターンを見つける:層ごとの違い、時間的なトレンド、関係性
- 仮説を立てる材料を集める:「ここに違いがありそう」という気づき
- 適切な分析手法を選ぶ:データの形に応じた手法の判断
EDAをサボっていきなり高度な分析に進むと、データに潜む罠(外れ値、二峰性の分布など)に気づかず、まちがった結論を出してしまうことがあります。EDAは、データ分析の最初のステップであり、もっとも大事なステップです。
EDAって難しそうな名前だけど、要は「いきなり計算しないで、まずデータをじっくり見ようよ」ってこと! データと仲良くなる時間、と思えば気楽に取り組めるよ!
2. 要約統計量でデータの全体像をつかむ
EDAの第一歩は、要約統計量(summary statistics)でデータの全体像をつかむことです。これまで学んできた指標を、目的別に整理しましょう。
| 目的 | 指標 | 章 |
|---|---|---|
| 中心の位置を知る | 平均値、中央値、最頻値 | 3-1 |
| データの広がりを知る | レンジ、四分位範囲 | 2-5 |
| 散らばりの大きさを測る | 分散、標準偏差 | 3-2 |
| 分布の輪郭をつかむ | 5数要約(最小・Q1・中央・Q3・最大) | 2-4 |
| 規模を越えて比較する | zスコア、変動係数 | 3-3 |
典型的な要約統計量の例
たとえば、あるクラス40人の身長データから、次のような要約統計量が得られたとしましょう。
- 平均値:165cm
- 中央値:163cm
- 最頻値:162cm
- 標準偏差:7cm
- 最小値:150cm 最大値:185cm
- Q1:158cm Q3:170cm IQR:12cm
この数字から、見るだけでいくつかのことが読み取れます。
- 平均(165)と中央値(163)が近いので、左右対称に近い分布かもしれない
- 標準偏差7cmなので、おおよそ158〜172cmあたりにデータが集中している
- 最大値185cmは、平均から3標準偏差近く離れているので、外れ値の可能性がある
- IQRが12cmなので、中央50%の人は12cmの幅に収まっている
要約統計量だけで、これだけのストーリーが見えてくるわけです。
3. 外れ値の判定基準 ─ 1.5×IQR ルール
要約統計量を見ていると、しばしば「これは外れ値かもしれない」という値に出会います。外れ値(はずれち、outlier)とは、他の多くのデータから極端に離れた値のこと。判定には、いくつかの流派がありますが、もっとも広く使われるのが1.5×IQRルールです。
判定式
次のいずれかにあてはまる値を、外れ値と判定する:
下限の閾値:Q1 − 1.5 × IQR より小さい値
上限の閾値:Q3 + 1.5 × IQR より大きい値
つまり、Q1とQ3を中心に、IQRの1.5倍ぶん外側に「フェンス」を張り、それを越える値を外れ値と判定するイメージです。これは第2章の箱ひげ図で「ひげの長さ」を決めるルールでもありました。
9個のデータ「5, 10, 15, 20, 25, 30, 35, 40, 100」について、1.5×IQRルールで外れ値を判定してください。
解答を見る
① 5数要約を求める
中央値(5番目)= 25
Q1(下半分の中央値、2番目と3番目の平均)= (10 + 15) ÷ 2 = 12.5
Q3(上半分の中央値、7番目と8番目の平均)= (35 + 40) ÷ 2 = 37.5
② IQRを求める
IQR = Q3 − Q1 = 37.5 − 12.5 = 25
③ 上下のフェンスを計算
下限の閾値:Q1 − 1.5 × IQR = 12.5 − 1.5 × 25 = 12.5 − 37.5 = −25
上限の閾値:Q3 + 1.5 × IQR = 37.5 + 1.5 × 25 = 37.5 + 37.5 = 75
④ データを見て、フェンスの外にある値を探す
下限−25よりも小さい値 → なし
上限75よりも大きい値 → 100
結論:100が外れ値と判定される。
このデータは、2-5でも扱った「100が外れ値であることが計算的に明らか」になる典型例です。「なんとなく外れている気がする」を、数字でしっかり示せるようになりました。
なぜ「1.5倍」なのかというと、テューキーの経験的な目安に基づくもので、実用上ちょうどよく外れ値を拾える値とされています。3倍以上離れた値は「極端な外れ値」と呼ばれることもあります。
外れ値が見つかったらどうするか
外れ値 = 即削除ではない、というのが大事なポイントです。値が外れている理由を考え、それに応じて扱いを決めます。
- 測定ミス・入力ミスが原因 → 修正、または除外
- 例外的な事象が原因(イベントなど) → 別扱いで分析
- 本物の特異値(ある社員だけ突出した実績) → そのまま保持して、分布を別表示
外れ値こそ、もっとも重要な発見の入り口になることもあります。「なぜこの値だけ違うのか?」を問うことが、データ分析の醍醐味です。
外れ値を見つけたら、機械的に削除しちゃダメだよ! 「なぜ?」って一度立ち止まって考えるのが、いいデータ分析者になる第一歩!
4. 頑健(robust)な統計量
データに外れ値が含まれているとき、影響を受けにくい統計量と大きく動いてしまう統計量があります。前者の性質を頑健性(がんけんせい、robustness、ロバストネス)と呼びます。
頑健な統計量と、頑健でない統計量
| 分類 | 統計量 | 性質 |
|---|---|---|
| 頑健 | 中央値 | 真ん中の位置だけ見るので外れ値に動じない |
| 四分位範囲(IQR) | 中央50%だけ見るので外れ値に動じない | |
| 最頻値 | もっとも多く出る値が変わらなければ動じない | |
| 頑健でない | 平均値 | 1つの極端な値で大きく動く |
| 分散・標準偏差 | 偏差を2乗するので外れ値の影響が増幅 | |
| レンジ | 最小値と最大値そのものなので、外れ値が直撃 |
具体例で実感する
先ほどの「5, 10, 15, 20, 25, 30, 35, 40, 100」を例に取りましょう。100という外れ値が、各統計量にどう影響するか見てみます。
- 平均値:100を含むと 30.0、100を除くと 22.5 (大きく変動)
- 中央値:100を含むと 25、100を除いても 22.5付近 (ほぼ動じない)
- レンジ:100を含むと95、100を除くと35 (直撃を受ける)
- 四分位範囲:100を含むと25、100を除いてもほぼ同じ (動じない)
平均値とレンジは外れ値に大きく動かされ、中央値と四分位範囲はほとんど動かない──この対比が、頑健性の本質です。
使い分けの目安
- データが整っている(外れ値が少ない、左右対称) → 平均値・標準偏差を使う
- 外れ値の懸念がある、または分布が偏っている → 中央値・四分位範囲を併用
実務では、両方を併記するのが鉄則です。「平均は450万円、中央値は380万円」と並べて報告すれば、両者のずれから分布の偏りも読み取れます。頑健な統計量と、頑健でない統計量を組み合わせることで、データの本当の姿が見えてきます。
頑健性は「外れ値に振り回されないか」のものさしです。中央値と四分位範囲は、外れ値があるデータでも信頼できる味方。一方、平均値や標準偏差はデータが整っているときの主役です。場面に応じて使い分けてください。
「頑健」って漢字が固いけど、要は「ブレない」ってこと。外れ値があっても動じない指標と、ぐらぐら動いちゃう指標、両方を知って使い分けるのが大事!
5. グラフと数値、両輪で読む
ここまで第3章で数値による要約を学んできました。でも、本当のEDAはここで終わりません。要約統計量とグラフを両輪として組み合わせる──これが、第3章を締めくくる、もっとも大切なメッセージです。
数値だけでは見落とすこと
要約統計量は強力ですが、いくつかの「見落とし」があります。
- 分布の形が見えない(左右対称か、偏っているか、二峰性か)
- 山がいくつあるかがわからない(2-6で見たとおり)
- 外れ値の存在が定量的にしかつかめない(位置や数が直感的に見えない)
- 層別による違いが見えない(男女混合、地域差など)
これらは、グラフを描けばすぐにわかります。「平均と中央値が近いから左右対称」と数値で判断したつもりが、実は二峰性の分布だった──ということもあります。
EDAの実践フロー
EDAを進めるときの、おすすめの手順を整理しておきましょう。
- 要約統計量で「ぱっと見」をつかむ:平均・中央値・標準偏差・5数要約
- ヒストグラムで分布の形を確認:山の形、対称性、谷の有無
- 箱ひげ図で外れ値の位置を確認:中央50%とひげ、点で表示される外れ値
- 必要に応じて層別する:男女別、年代別、地域別など
- パターンを発見し、仮説を立てる:気づいたことをメモに残す
この5ステップを習慣にするだけで、データの読み方が一段深くなります。「数字を見る → 形を見る → 違いを見る」という流れを、自然にできるようになることが目標です。
第2章のグラフたちを思い出してみよう
第3章で学んだ数値は、第2章で学んだグラフとぴったり対応しています。
| 第3章で学んだ数値 | 第2章で学んだ対応するグラフ |
|---|---|
| 平均値・最頻値 | ヒストグラムの重心、山の頂上 |
| 中央値・5数要約 | 箱ひげ図の中央線、箱、ひげ |
| レンジ・四分位範囲 | 箱ひげ図のひげの全長、箱の高さ |
| 外れ値 | 箱ひげ図のひげの外側にある点 |
| 分布の形(対称・偏り) | ヒストグラムの形 |
第2章と第3章の両方を学んだあなたは、もうデータを「数値でも、形でも」読めるようになっているはずです。
EDAは「グラフと数値、両輪で読む」のが基本です。どちらか一方だけでは、データの本当の姿は見えません。両方を行き来しながら、データと対話してください。
まとめ ─ そして第3章完了
第3章ファイナルのポイントを整理します。
- EDA(探索的データ解析):データを分析する前に、データの素顔を観察する活動
- 要約統計量:平均・中央値・標準偏差・5数要約などで、データの全体像をつかむ
- 外れ値の判定:Q1 − 1.5×IQR より小さい、または Q3 + 1.5×IQR より大きい値
- 頑健な統計量:中央値・四分位範囲(外れ値に動じない)。平均・標準偏差は頑健でない
- EDAの本質:グラフと数値を両輪として、データと対話する
第3章「1変数データの分析」、ここで完了です。代表値の3つから始まり、分散・標準偏差で散らばりを測り、zスコアと変動係数で規模を超えて比較し、最後にEDAと外れ値で全体を統合する──データを1つの数字で代表させるための道具が一通り揃いました。
第3章「1変数データの分析」、ここで完了です。 次章からは2変数のデータに進み、変数同士の関係性──相関や回帰──を学んでいきます。1つのデータを読む力が、関係を見る力に進化していきます。
第3章おつかれさま! 平均から外れ値まで、1変数データを読む道具がぜんぶ手に入ったね。第4章ではついに2つの変数の関係を扱うよ。お楽しみに!
探索的データ解析法と外れ値 確認シート
要約統計量を一気に求めるDESCRIPTIVE関数、1.5×IQRルールによる外れ値の自動判定、そしてヒストグラムと箱ひげ図を組み合わせたEDAの実践を、Excelで体験できる練習ファイルです。