位置に関する代表値
第3章「1変数データの分析」へようこそ。第2章まではデータを視覚的にとらえる方法を学んできましたが、ここからはデータを1つの数字で代表させる方法──代表値を扱います。
今回登場するのは平均値・中央値・最頻値の3つです。それぞれの意味と求め方、度数分布表からの平均値の計算(検定頻出!)、そして3つの代表値の大小関係から分布の形を読み取る方法までを、ひととおり整理していきます。
1. 平均値 ─ もっとも基本的な代表値
平均値(へいきんち、mean)は、もっともよく知られた代表値です。「全部足して、個数で割る」というシンプルな計算で求められます。
計算式
平均値 = データの合計 ÷ データの個数
記号では x̄(エックスバー)と書きます。
具体例で確認
たとえば5人のテスト点数が「70, 80, 90, 60, 50」だったとします。
合計 = 70 + 80 + 90 + 60 + 50 = 350
平均値 = 350 ÷ 5 = 70点
度数分布表からの平均値(検定頻出)
ここからがこのページで一番大事なテーマです。実際のデータがすべて手元にない場合や、データが多くてひとつずつ足し算するのが大変な場合、度数分布表から平均値を求める方法があります。
考え方はとてもシンプル。各階級のデータは「だいたいその階級の真ん中の値(=階級値)」で代表させ、その値が「度数(人数)の分だけある」と考えて、合計を計算します。
度数分布表からの平均値 = Σ(階級値 × 度数) ÷ データの総数
Σ(シグマ)は「合計」の記号。階級ごとに「階級値 × 度数」を計算して、全部足したもの、ということです。
例題で計算してみよう
第2章で使ってきた20人のテスト点数を、度数分布表に整理した表で確かめてみましょう。
| 階級(点) | 階級値 | 度数 | 階級値 × 度数 |
|---|---|---|---|
| 0以上 20未満 | 10 | 1 | 10 × 1 = 10 |
| 20以上 40未満 | 30 | 4 | 30 × 4 = 120 |
| 40以上 60未満 | 50 | 5 | 50 × 5 = 250 |
| 60以上 80未満 | 70 | 6 | 70 × 6 = 420 |
| 80以上 100未満 | 90 | 4 | 90 × 4 = 360 |
| 合計 | ― | 20 | 1,160 |
表で「階級値 × 度数」の列をすべて足すと、1,160になります。これを総数の20で割ると平均値が出ます。
平均値 = 1,160 ÷ 20 = 58点
計算のコツ
度数分布表から平均値を求めるときは、表に「階級値 × 度数」の列を1つ足すのが定番のテクニックです。一気に計算しようとするとミスしやすいので、列ごとに区切って順番に処理してください。
- 階級値の列がない場合は、まず階級値を埋める(下端+上端を2で割る)
- 各階級で「階級値 × 度数」を計算し、新しい列に書く
- その列の合計を求める
- 合計を「度数の合計(=総データ数)」で割る
度数分布表からの平均値は、「各階級の値を、その人数分カウントしている」と考えると腑に落ちます。「20点台が4人いる」なら、30点という代表値が4回登場している、というイメージです。
表に「階級値×度数」の列を足すのがコツ! いきなり全部の式を書くんじゃなくて、列を1つずつ埋めていけば、計算ミスがぐっと減るよ!
平均値の弱点 ─ 外れ値に弱い
平均値はとても便利ですが、弱点もあります。極端に大きい値や小さい値(外れ値)に引っ張られやすいことです。
たとえば、5人の年収が「400万、420万、450万、480万、500万」なら平均は450万円。これに「年収1億円」の人が1人加わると、平均は2,041万円に跳ね上がります。「6人の平均年収は2,041万円」と聞いても、その集団の典型的な姿を表しているとは言い難いですよね。
こうした場面で活躍するのが、次に学ぶ中央値や最頻値です。
2. 中央値 ─ ちょうど真ん中の値
中央値(ちゅうおうち、median)は、第2章でも登場しました。データを小さい順に並べたとき、ちょうど真ん中にある値です。
データ数が奇数のとき
データを並べた中で、ちょうど中央にある1つの値が中央値です。データ数が n のとき、(n+1)÷2 番目の値を選びます。
5人の点数を並べて:50, 60, 70, 80, 90
(5+1)÷2 = 3番目の値が中央値 → 70点
データ数が偶数のとき
ちょうど真ん中が「2つの値の間」になるので、その2つの値の平均を中央値とします。データ数が n のとき、n÷2 番目と n÷2+1 番目の値の平均です。
6人の点数を並べて:50, 60, 70, 80, 90, 100
3番目(70)と4番目(80)の平均 → (70 + 80) ÷ 2 = 75点
中央値の強み ─ 外れ値に強い
中央値の最大の強みは、外れ値の影響を受けにくいこと。先ほどの「年収400万〜500万+1億円」の6人の場合、中央値はちょうど真ん中の3番目と4番目の値の平均で、465万円です。1億円の人が混じっていても変わりません。
平均年収(2,041万円)と中央値(465万円)、どちらが「この集団の典型的な姿」を表しているかは明白ですよね。分布が偏っているデータでは、中央値の方が実感に近いのです。
3. 最頻値 ─ もっとも多く現れる値
最頻値(さいひんち、mode)は、データの中でもっとも多く現れる値のことです。最頻値には、扱うデータによって2種類の求め方があるので、それぞれ確認しましょう。
(1) 実データそのものから求める最頻値
質的変数や、整数値などの離散変数では、同じ値が何度も登場することがあります。このときは、もっとも頻繁に出てくる値そのものを最頻値とします。
あるクラスの好きな色:「赤・青・赤・緑・赤・青・赤・緑」
赤が4回でいちばん多い → 最頻値は赤
サイコロを10回振った結果:「3, 5, 5, 2, 6, 5, 1, 4, 5, 3」
5が4回でいちばん多い → 最頻値は5
質的変数(カテゴリ)では、平均値や中央値が計算できないことが多いので、最頻値が代表値の主役になります。「もっとも好まれる色」「もっとも売れた商品」なども、最頻値の発想です。
(2) 度数分布表(ヒストグラム)から求める最頻値
身長や時間のような連続的な量的変数では、まったく同じ値はめったに現れません。「身長170.5234cm」と「身長170.5235cm」が両方いる、ということはほぼ起きないからです。そのため、(1)の方法では最頻値が求められません。
そこで、データを階級ごとに集計(=度数分布表に整理)して、もっとも度数が大きい階級の階級値を最頻値とします。これがヒストグラムの「山の頂上」にあたる値です。
先ほどの20人のテスト点数の度数分布表で確認してみましょう。
| 階級(点) | 階級値 | 度数 |
|---|---|---|
| 0以上 20未満 | 10 | 1 |
| 20以上 40未満 | 30 | 4 |
| 40以上 60未満 | 50 | 5 |
| 60以上 80未満 | 70 | 6 ← 最大 |
| 80以上 100未満 | 90 | 4 |
度数がもっとも大きいのは「60以上80未満」の階級で6人。よって最頻値は、その階級の階級値である70点になります。
最頻値の求め方は2種類あります。実データそのままで「もっとも多い値」が見えるなら(1)の方法、量的変数で階級化が必要なら(2)の方法です。データの性質に合わせて使い分けてください。
最頻値はいくつもあることもある
データによっては、最頻値が複数あるケースもあります。たとえば「3, 5, 5, 7, 8, 8, 9」では、5と8が2回ずつでいちばん多いので、最頻値は5と8の2つになります。
ヒストグラムが二峰性(山が2つ)になっているデータも同様で、男女混合の身長分布などがその典型例です。山が2つあるなら、最頻値も2つあると考えるのが自然な見方です。
最頻値、2種類あるってちょっと混乱するよね。でも要はシンプル! 「同じ値が何回も出るデータ」はそのまま、「連続的なデータ」は階級にまとめてから、って覚えればOK!
4. 3つの代表値の大小関係 ─ 分布の形を読む
平均値・中央値・最頻値の3つは、第2章2-3で予告したとおり、分布の形によって大小関係が変わります。ここでもう一度、しっかり整理しておきましょう。
左右対称:3つはほぼ一致
山の頂上が中央にあり、左右に均等に広がる形では、平均・中央・最頻の3つはほぼ同じ値になります。「真ん中の値」がぶれない、わかりやすい分布です。
右の裾が長い:平均が引きずられる
多くのデータが左に集中し、少数が右に長く広がる形では、右にある少数の大きな値が平均を引き上げます。一方、中央値(人数の真ん中)や最頻値(山の頂上)はそれほど影響を受けません。結果、平均値 > 中央値 > 最頻値という順序になります。
年収・貯蓄・家賃などの経済データはこの形になることが多いです。「平均年収」よりも「中央値」のほうが実感に近いのは、このメカニズムによります。
左の裾が長い:右の鏡映し
右の裾と反対のパターンです。少数の小さな値が平均を引き下げる結果、平均値 < 中央値 < 最頻値の順序になります。実生活では右の裾ほど多くは見ないものの、たとえば「合格者がほぼ満点を取る簡単な試験の点数」などがこの形をとります。
大小関係から分布の形を推測する
この関係を覚えておくと、「平均値と中央値の値を聞いただけで、分布の形を推測できる」ようになります。
- 「平均年収450万、中央値380万」と聞いたら → 右の裾が長い分布だな(ごく一部の高年収層が平均を引き上げている)
- 「平均点80点、中央値85点」と聞いたら → 左の裾が長い分布だな(少数の低得点者が平均を引き下げている)
- 「平均と中央値がほぼ同じ」と聞いたら → 左右対称に近い分布だな
分布が偏っているデータでは、「平均値だけを見ると判断を誤る」ことがあります。中央値や最頻値とセットで見る習慣をつけてください。
「平均」って聞くと「真ん中の値」だと思いがちだけど、分布が偏ってるとそうじゃないんだよね。3つセットで見るのが大人のデータの読み方!
まとめ
第3章のスタートとなる代表値、ポイントを整理しておきましょう。
- 平均値:データの合計 ÷ データの個数。記号は x̄。外れ値に弱い
- 度数分布表からの平均値:Σ(階級値 × 度数)÷ データの総数。表に「階級値×度数」の列を足すのがコツ
- 中央値:データを並べたとき真ん中の値。外れ値に強い
- 最頻値:もっとも多く現れる値。実データから求める方法と、ヒストグラムの最大階級から求める方法の2種類
- 大小関係:左右対称なら3つはほぼ一致。右の裾が長いなら平均>中央>最頻、左の裾が長いなら平均<中央<最頻
代表値は「データを1つの数字で代表させる」ための道具ですが、1つだけでは不十分です。複数の代表値を組み合わせ、さらに分布の形を見ることで、はじめてデータの本当の姿が見えてきます。次回は「散らばりの尺度」──分散と標準偏差──に進んでいきます。
位置に関する代表値 確認シート
AVERAGE関数、MEDIAN関数、MODE関数を使った3つの代表値の計算と、度数分布表からの平均値計算(SUMPRODUCT関数)を実際にExcelで体験できる練習ファイルです。