第3章 3-4 / 1変数データの分析

探索的データ解析法と外れ値

このページで学ぶこと

第3章ファイナル。これまで学んだ代表値・散らばり・標準化・グラフを総動員して、データを探索的に読み解く方法をまとめていきます。

登場するキーワードはEDA（探索的データ解析）、要約統計量、外れ値の判定基準、そして頑健（robust）。最後に、第2章のグラフと第3章の数値を両輪として使う、データ分析の本質的な姿勢をお伝えします。

1. 探索的データ解析（EDA）とは

探索的データ解析（Exploratory Data Analysis、略してEDA）とは、データを本格的に分析する前に、データの素顔を観察する活動のことです。1977年にアメリカの統計学者ジョン・テューキーが提唱したアプローチで、現代のデータサイエンスでも基本中の基本とされています。

ちなみに、第2章で学んだ箱ひげ図を考案したのもこのテューキーです。「データに語らせる」という哲学のもと、グラフや要約統計量を使って、まずはデータと対話する──これがEDAの本質です。

EDAの目的

EDAは、次のような目的で行います。

データの全体像をつかむ：分布の形、中心、ばらつきのおおよその姿
外れ値や異常値を発見する：分析結果を歪める可能性のある特異な値
パターンを見つける：層ごとの違い、時間的なトレンド、関係性
仮説を立てる材料を集める：「ここに違いがありそう」という気づき
適切な分析手法を選ぶ：データの形に応じた手法の判断

EDAをサボっていきなり高度な分析に進むと、データに潜む罠（外れ値、二峰性の分布など）に気づかず、まちがった結論を出してしまうことがあります。EDAは、データ分析の最初のステップであり、もっとも大事なステップです。

さえ

EDAって難しそうな名前だけど、要は「いきなり計算しないで、まずデータをじっくり見ようよ」ってこと! データと仲良くなる時間、と思えば気楽に取り組めるよ!

2. 要約統計量でデータの全体像をつかむ

EDAの第一歩は、要約統計量（summary statistics）でデータの全体像をつかむことです。これまで学んできた指標を、目的別に整理しましょう。

目的	指標	章
中心の位置を知る	平均値、中央値、最頻値	3-1
データの広がりを知る	レンジ、四分位範囲	2-5
散らばりの大きさを測る	分散、標準偏差	3-2
分布の輪郭をつかむ	5数要約（最小・Q1・中央・Q3・最大）	2-4
規模を越えて比較する	zスコア、変動係数	3-3

典型的な要約統計量の例

たとえば、あるクラス40人の身長データから、次のような要約統計量が得られたとしましょう。

SUMMARY

平均値：165cm
中央値：163cm
最頻値：162cm
標準偏差：7cm
最小値：150cm　最大値：185cm
Q1：158cm　Q3：170cm　IQR：12cm

この数字から、見るだけでいくつかのことが読み取れます。

平均（165）と中央値（163）が近いので、左右対称に近い分布かもしれない
標準偏差7cmなので、おおよそ158〜172cmあたりにデータが集中している
最大値185cmは、平均から3標準偏差近く離れているので、外れ値の可能性がある
IQRが12cmなので、中央50%の人は12cmの幅に収まっている

要約統計量だけで、これだけのストーリーが見えてくるわけです。

3. 外れ値の判定基準 ─ 1.5×IQR ルール

要約統計量を見ていると、しばしば「これは外れ値かもしれない」という値に出会います。外れ値（はずれち、outlier）とは、他の多くのデータから極端に離れた値のこと。判定には、いくつかの流派がありますが、もっとも広く使われるのが1.5×IQRルールです。

判定式

FORMULA

次のいずれかにあてはまる値を、外れ値と判定する：

下限の閾値：Q1 − 1.5 × IQR　より小さい値
上限の閾値：Q3 + 1.5 × IQR　より大きい値

つまり、Q1とQ3を中心に、IQRの1.5倍ぶん外側に「フェンス」を張り、それを越える値を外れ値と判定するイメージです。これは第2章の箱ひげ図で「ひげの長さ」を決めるルールでもありました。

例題外れ値を判定する

9個のデータ「5, 10, 15, 20, 25, 30, 35, 40, 100」について、1.5×IQRルールで外れ値を判定してください。

解答を見る

① 5数要約を求める

中央値（5番目）= 25

Q1（下半分の中央値、2番目と3番目の平均）= (10 + 15) ÷ 2 = 12.5

Q3（上半分の中央値、7番目と8番目の平均）= (35 + 40) ÷ 2 = 37.5

② IQRを求める

IQR = Q3 − Q1 = 37.5 − 12.5 = 25

③ 上下のフェンスを計算

下限の閾値：Q1 − 1.5 × IQR = 12.5 − 1.5 × 25 = 12.5 − 37.5 = −25

上限の閾値：Q3 + 1.5 × IQR = 37.5 + 1.5 × 25 = 37.5 + 37.5 = 75

④ データを見て、フェンスの外にある値を探す

下限−25よりも小さい値 → なし

上限75よりも大きい値 → 100

結論：100が外れ値と判定される。

このデータは、2-5でも扱った「100が外れ値であることが計算的に明らか」になる典型例です。「なんとなく外れている気がする」を、数字でしっかり示せるようになりました。

なぜ「1.5倍」なのかというと、テューキーの経験的な目安に基づくもので、実用上ちょうどよく外れ値を拾える値とされています。3倍以上離れた値は「極端な外れ値」と呼ばれることもあります。

外れ値が見つかったらどうするか

外れ値＝即削除ではない、というのが大事なポイントです。値が外れている理由を考え、それに応じて扱いを決めます。

測定ミス・入力ミスが原因 → 修正、または除外
例外的な事象が原因（イベントなど） → 別扱いで分析
本物の特異値（ある社員だけ突出した実績） → そのまま保持して、分布を別表示

外れ値こそ、もっとも重要な発見の入り口になることもあります。「なぜこの値だけ違うのか?」を問うことが、データ分析の醍醐味です。

さえ

外れ値を見つけたら、機械的に削除しちゃダメだよ! 「なぜ?」って一度立ち止まって考えるのが、いいデータ分析者になる第一歩!

4. 頑健（robust）な統計量

データに外れ値が含まれているとき、影響を受けにくい統計量と大きく動いてしまう統計量があります。前者の性質を頑健性（がんけんせい、robustness、ロバストネス）と呼びます。

頑健な統計量と、頑健でない統計量

分類	統計量	性質
頑健	中央値	真ん中の位置だけ見るので外れ値に動じない
	四分位範囲（IQR）	中央50%だけ見るので外れ値に動じない
	最頻値	もっとも多く出る値が変わらなければ動じない
頑健でない	平均値	1つの極端な値で大きく動く
	分散・標準偏差	偏差を2乗するので外れ値の影響が増幅
	レンジ	最小値と最大値そのものなので、外れ値が直撃

具体例で実感する

先ほどの「5, 10, 15, 20, 25, 30, 35, 40, 100」を例に取りましょう。100という外れ値が、各統計量にどう影響するか見てみます。

COMPARE

平均値：100を含むと 30.0、100を除くと 22.5　（大きく変動）
中央値：100を含むと 25、100を除いても 22.5付近　（ほぼ動じない）
レンジ：100を含むと95、100を除くと35　（直撃を受ける）
四分位範囲：100を含むと25、100を除いてもほぼ同じ　（動じない）

平均値とレンジは外れ値に大きく動かされ、中央値と四分位範囲はほとんど動かない──この対比が、頑健性の本質です。

使い分けの目安

データが整っている（外れ値が少ない、左右対称） → 平均値・標準偏差を使う
外れ値の懸念がある、または分布が偏っている → 中央値・四分位範囲を併用

実務では、両方を併記するのが鉄則です。「平均は450万円、中央値は380万円」と並べて報告すれば、両者のずれから分布の偏りも読み取れます。頑健な統計量と、頑健でない統計量を組み合わせることで、データの本当の姿が見えてきます。

POINT

頑健性は「外れ値に振り回されないか」のものさしです。中央値と四分位範囲は、外れ値があるデータでも信頼できる味方。一方、平均値や標準偏差はデータが整っているときの主役です。場面に応じて使い分けてください。

さえ

「頑健」って漢字が固いけど、要は「ブレない」ってこと。外れ値があっても動じない指標と、ぐらぐら動いちゃう指標、両方を知って使い分けるのが大事!

5. グラフと数値、両輪で読む

ここまで第3章で数値による要約を学んできました。でも、本当のEDAはここで終わりません。要約統計量とグラフを両輪として組み合わせる──これが、第3章を締めくくる、もっとも大切なメッセージです。

数値だけでは見落とすこと

要約統計量は強力ですが、いくつかの「見落とし」があります。

分布の形が見えない（左右対称か、偏っているか、二峰性か）
山がいくつあるかがわからない（2-6で見たとおり）
外れ値の存在が定量的にしかつかめない（位置や数が直感的に見えない）
層別による違いが見えない（男女混合、地域差など）

これらは、グラフを描けばすぐにわかります。「平均と中央値が近いから左右対称」と数値で判断したつもりが、実は二峰性の分布だった──ということもあります。

EDAの実践フロー

EDAを進めるときの、おすすめの手順を整理しておきましょう。

要約統計量で「ぱっと見」をつかむ：平均・中央値・標準偏差・5数要約
ヒストグラムで分布の形を確認：山の形、対称性、谷の有無
箱ひげ図で外れ値の位置を確認：中央50%とひげ、点で表示される外れ値
必要に応じて層別する：男女別、年代別、地域別など
パターンを発見し、仮説を立てる：気づいたことをメモに残す

この5ステップを習慣にするだけで、データの読み方が一段深くなります。「数字を見る → 形を見る → 違いを見る」という流れを、自然にできるようになることが目標です。

第2章のグラフたちを思い出してみよう

第3章で学んだ数値は、第2章で学んだグラフとぴったり対応しています。

第3章で学んだ数値	第2章で学んだ対応するグラフ
平均値・最頻値	ヒストグラムの重心、山の頂上
中央値・5数要約	箱ひげ図の中央線、箱、ひげ
レンジ・四分位範囲	箱ひげ図のひげの全長、箱の高さ
外れ値	箱ひげ図のひげの外側にある点
分布の形（対称・偏り）	ヒストグラムの形

第2章と第3章の両方を学んだあなたは、もうデータを「数値でも、形でも」読めるようになっているはずです。

POINT

EDAは「グラフと数値、両輪で読む」のが基本です。どちらか一方だけでは、データの本当の姿は見えません。両方を行き来しながら、データと対話してください。

まとめ ─ そして第3章完了

第3章ファイナルのポイントを整理します。

EDA（探索的データ解析）：データを分析する前に、データの素顔を観察する活動
要約統計量：平均・中央値・標準偏差・5数要約などで、データの全体像をつかむ
外れ値の判定：Q1 − 1.5×IQR より小さい、または Q3 + 1.5×IQR より大きい値
頑健な統計量：中央値・四分位範囲（外れ値に動じない）。平均・標準偏差は頑健でない
EDAの本質：グラフと数値を両輪として、データと対話する

第3章「1変数データの分析」、ここで完了です。代表値の3つから始まり、分散・標準偏差で散らばりを測り、zスコアと変動係数で規模を超えて比較し、最後にEDAと外れ値で全体を統合する──データを1つの数字で代表させるための道具が一通り揃いました。

第3章「1変数データの分析」、ここで完了です。　次章からは2変数のデータに進み、変数同士の関係性──相関や回帰──を学んでいきます。1つのデータを読む力が、関係を見る力に進化していきます。

さえ

第3章おつかれさま! 平均から外れ値まで、1変数データを読む道具がぜんぶ手に入ったね。第4章ではついに2つの変数の関係を扱うよ。お楽しみに!

EXCEL — 補助資料

探索的データ解析法と外れ値確認シート

要約統計量を一気に求めるDESCRIPTIVE関数、1.5×IQRルールによる外れ値の自動判定、そしてヒストグラムと箱ひげ図を組み合わせたEDAの実践を、Excelで体験できる練習ファイルです。

ダウンロード