第3章 3-1 / 1変数データの分析

位置に関する代表値

このページで学ぶこと

第3章「1変数データの分析」へようこそ。第2章まではデータを視覚的にとらえる方法を学んできましたが、ここからはデータを1つの数字で代表させる方法──代表値を扱います。

今回登場するのは平均値・中央値・最頻値の3つです。それぞれの意味と求め方、度数分布表からの平均値の計算(検定頻出!)、そして3つの代表値の大小関係から分布の形を読み取る方法までを、ひととおり整理していきます。

1. 平均値 ─ もっとも基本的な代表値

平均値(へいきんち、mean)は、もっともよく知られた代表値です。「全部足して、個数で割る」というシンプルな計算で求められます。

計算式

FORMULA

平均値 = データの合計 ÷ データの個数

記号では (エックスバー)と書きます。

具体例で確認

たとえば5人のテスト点数が「70, 80, 90, 60, 50」だったとします。

CALC

合計 = 70 + 80 + 90 + 60 + 50 = 350

平均値 = 350 ÷ 5 = 70点

度数分布表からの平均値(検定頻出)

ここからがこのページで一番大事なテーマです。実際のデータがすべて手元にない場合や、データが多くてひとつずつ足し算するのが大変な場合、度数分布表から平均値を求める方法があります。

考え方はとてもシンプル。各階級のデータは「だいたいその階級の真ん中の値(=階級値)」で代表させ、その値が「度数(人数)の分だけある」と考えて、合計を計算します。

FORMULA

度数分布表からの平均値 = Σ(階級値 × 度数) ÷ データの総数

Σ(シグマ)は「合計」の記号。階級ごとに「階級値 × 度数」を計算して、全部足したもの、ということです。

例題で計算してみよう

第2章で使ってきた20人のテスト点数を、度数分布表に整理した表で確かめてみましょう。

階級(点) 階級値 度数 階級値 × 度数
0以上 20未満10110 × 1 = 10
20以上 40未満30430 × 4 = 120
40以上 60未満50550 × 5 = 250
60以上 80未満70670 × 6 = 420
80以上 100未満90490 × 4 = 360
合計201,160

表で「階級値 × 度数」の列をすべて足すと、1,160になります。これを総数の20で割ると平均値が出ます。

CALC

平均値 = 1,160 ÷ 20 = 58点

計算のコツ

度数分布表から平均値を求めるときは、表に「階級値 × 度数」の列を1つ足すのが定番のテクニックです。一気に計算しようとするとミスしやすいので、列ごとに区切って順番に処理してください。

  1. 階級値の列がない場合は、まず階級値を埋める(下端+上端を2で割る)
  2. 各階級で「階級値 × 度数」を計算し、新しい列に書く
  3. その列の合計を求める
  4. 合計を「度数の合計(=総データ数)」で割る
POINT

度数分布表からの平均値は、「各階級の値を、その人数分カウントしている」と考えると腑に落ちます。「20点台が4人いる」なら、30点という代表値が4回登場している、というイメージです。

さえちゃん
さえ

表に「階級値×度数」の列を足すのがコツ! いきなり全部の式を書くんじゃなくて、列を1つずつ埋めていけば、計算ミスがぐっと減るよ!

平均値の弱点 ─ 外れ値に弱い

平均値はとても便利ですが、弱点もあります。極端に大きい値や小さい値(外れ値)に引っ張られやすいことです。

たとえば、5人の年収が「400万、420万、450万、480万、500万」なら平均は450万円。これに「年収1億円」の人が1人加わると、平均は2,041万円に跳ね上がります。「6人の平均年収は2,041万円」と聞いても、その集団の典型的な姿を表しているとは言い難いですよね。

こうした場面で活躍するのが、次に学ぶ中央値や最頻値です。

2. 中央値 ─ ちょうど真ん中の値

中央値(ちゅうおうち、median)は、第2章でも登場しました。データを小さい順に並べたとき、ちょうど真ん中にある値です。

データ数が奇数のとき

データを並べた中で、ちょうど中央にある1つの値が中央値です。データ数が n のとき、(n+1)÷2 番目の値を選びます。

EXAMPLE

5人の点数を並べて:50, 60, 70, 80, 90

(5+1)÷2 = 3番目の値が中央値 → 70点

データ数が偶数のとき

ちょうど真ん中が「2つの値の間」になるので、その2つの値の平均を中央値とします。データ数が n のとき、n÷2 番目と n÷2+1 番目の値の平均です。

EXAMPLE

6人の点数を並べて:50, 60, 70, 80, 90, 100

3番目(70)と4番目(80)の平均 → (70 + 80) ÷ 2 = 75点

中央値の強み ─ 外れ値に強い

中央値の最大の強みは、外れ値の影響を受けにくいこと。先ほどの「年収400万〜500万+1億円」の6人の場合、中央値はちょうど真ん中の3番目と4番目の値の平均で、465万円です。1億円の人が混じっていても変わりません。

平均年収(2,041万円)と中央値(465万円)、どちらが「この集団の典型的な姿」を表しているかは明白ですよね。分布が偏っているデータでは、中央値の方が実感に近いのです。

3. 最頻値 ─ もっとも多く現れる値

最頻値(さいひんち、mode)は、データの中でもっとも多く現れる値のことです。最頻値には、扱うデータによって2種類の求め方があるので、それぞれ確認しましょう。

(1) 実データそのものから求める最頻値

質的変数や、整数値などの離散変数では、同じ値が何度も登場することがあります。このときは、もっとも頻繁に出てくる値そのものを最頻値とします。

EXAMPLE

あるクラスの好きな色:「赤・青・赤・緑・赤・青・赤・緑」

赤が4回でいちばん多い → 最頻値は

EXAMPLE

サイコロを10回振った結果:「3, 5, 5, 2, 6, 5, 1, 4, 5, 3」

5が4回でいちばん多い → 最頻値は5

質的変数(カテゴリ)では、平均値や中央値が計算できないことが多いので、最頻値が代表値の主役になります。「もっとも好まれる色」「もっとも売れた商品」なども、最頻値の発想です。

(2) 度数分布表(ヒストグラム)から求める最頻値

身長や時間のような連続的な量的変数では、まったく同じ値はめったに現れません。「身長170.5234cm」と「身長170.5235cm」が両方いる、ということはほぼ起きないからです。そのため、(1)の方法では最頻値が求められません。

そこで、データを階級ごとに集計(=度数分布表に整理)して、もっとも度数が大きい階級の階級値を最頻値とします。これがヒストグラムの「山の頂上」にあたる値です。

先ほどの20人のテスト点数の度数分布表で確認してみましょう。

階級(点) 階級値 度数
0以上 20未満101
20以上 40未満304
40以上 60未満505
60以上 80未満706 ← 最大
80以上 100未満904

度数がもっとも大きいのは「60以上80未満」の階級で6人。よって最頻値は、その階級の階級値である70点になります。

POINT

最頻値の求め方は2種類あります。実データそのままで「もっとも多い値」が見えるなら(1)の方法、量的変数で階級化が必要なら(2)の方法です。データの性質に合わせて使い分けてください。

最頻値はいくつもあることもある

データによっては、最頻値が複数あるケースもあります。たとえば「3, 5, 5, 7, 8, 8, 9」では、5と8が2回ずつでいちばん多いので、最頻値は5と8の2つになります。

ヒストグラムが二峰性(山が2つ)になっているデータも同様で、男女混合の身長分布などがその典型例です。山が2つあるなら、最頻値も2つあると考えるのが自然な見方です。

さえちゃん
さえ

最頻値、2種類あるってちょっと混乱するよね。でも要はシンプル! 「同じ値が何回も出るデータ」はそのまま、「連続的なデータ」は階級にまとめてから、って覚えればOK!

4. 3つの代表値の大小関係 ─ 分布の形を読む

平均値・中央値・最頻値の3つは、第2章2-3で予告したとおり、分布の形によって大小関係が変わります。ここでもう一度、しっかり整理しておきましょう。

左右対称
平均≒中央≒最頻
右の裾が長い
平均>中央>最頻
左の裾が長い
平均<中央<最頻

左右対称:3つはほぼ一致

山の頂上が中央にあり、左右に均等に広がる形では、平均・中央・最頻の3つはほぼ同じ値になります。「真ん中の値」がぶれない、わかりやすい分布です。

右の裾が長い:平均が引きずられる

多くのデータが左に集中し、少数が右に長く広がる形では、右にある少数の大きな値が平均を引き上げます。一方、中央値(人数の真ん中)や最頻値(山の頂上)はそれほど影響を受けません。結果、平均値 > 中央値 > 最頻値という順序になります。

年収・貯蓄・家賃などの経済データはこの形になることが多いです。「平均年収」よりも「中央値」のほうが実感に近いのは、このメカニズムによります。

左の裾が長い:右の鏡映し

右の裾と反対のパターンです。少数の小さな値が平均を引き下げる結果、平均値 < 中央値 < 最頻値の順序になります。実生活では右の裾ほど多くは見ないものの、たとえば「合格者がほぼ満点を取る簡単な試験の点数」などがこの形をとります。

大小関係から分布の形を推測する

この関係を覚えておくと、「平均値と中央値の値を聞いただけで、分布の形を推測できる」ようになります。

POINT

分布が偏っているデータでは、「平均値だけを見ると判断を誤る」ことがあります。中央値や最頻値とセットで見る習慣をつけてください。

さえちゃん
さえ

「平均」って聞くと「真ん中の値」だと思いがちだけど、分布が偏ってるとそうじゃないんだよね。3つセットで見るのが大人のデータの読み方!

まとめ

第3章のスタートとなる代表値、ポイントを整理しておきましょう。

代表値は「データを1つの数字で代表させる」ための道具ですが、1つだけでは不十分です。複数の代表値を組み合わせ、さらに分布の形を見ることで、はじめてデータの本当の姿が見えてきます。次回は「散らばりの尺度」──分散と標準偏差──に進んでいきます。

X
EXCEL — 補助資料

位置に関する代表値 確認シート

AVERAGE関数、MEDIAN関数、MODE関数を使った3つの代表値の計算と、度数分布表からの平均値計算(SUMPRODUCT関数)を実際にExcelで体験できる練習ファイルです。

ダウンロード