第3章 3-1 / 1変数データの分析

位置に関する代表値

このページで学ぶこと

第3章「1変数データの分析」へようこそ。第2章まではデータを視覚的にとらえる方法を学んできましたが、ここからはデータを1つの数字で代表させる方法──代表値を扱います。

今回登場するのは平均値・中央値・最頻値の3つです。それぞれの意味と求め方、度数分布表からの平均値の計算、そして3つの代表値の大小関係から分布の形を読み取る方法までを、ひととおり整理していきます。

1. 平均値 ─ もっとも基本的な代表値

平均値（へいきんち、mean）は、もっともよく知られた代表値です。「全部足して、個数で割る」というシンプルな計算で求められます。

計算式

FORMULA

平均値＝データの合計 ÷ データの個数

記号では x̄（エックスバー）と書きます。（※ Xの下線は文字装飾です）

具体例で確認

たとえば5人のテスト点数が「70, 80, 90, 60, 50」だったとします。

CALC

合計＝ 70 ＋ 80 ＋ 90 ＋ 60 ＋ 50 ＝ 350

平均値＝ 350 ÷ 5 ＝ 70点

度数分布表からの平均値（検定頻出）

ここからがこのページで一番大事なテーマです。実際のデータがすべて手元にない場合や、データが多くてひとつずつ足し算するのが大変な場合、度数分布表から平均値を求める方法があります。

考え方はとてもシンプルです。各階級のデータは「だいたいその階級の真ん中の値（=階級値）」で代表させ、その値が「度数（人数）の分だけある」と考えて、合計を計算します。

FORMULA

度数分布表からの平均値＝ Σ（階級値 × 度数） ÷ データの総数

Σ（シグマ）は「合計」の記号。階級ごとに「階級値 × 度数」を計算して、全部足したもの、ということです。

例題で計算してみよう

第2章で使ってきた20人のテスト点数を、度数分布表に整理した表で確かめてみましょう。

階級（点）	階級値	度数	階級値 × 度数
0以上 20未満	10	1	10 × 1 ＝ 10
20以上 40未満	30	4	30 × 4 ＝ 120
40以上 60未満	50	5	50 × 5 ＝ 250
60以上 80未満	70	6	70 × 6 ＝ 420
80以上 100未満	90	4	90 × 4 ＝ 360
合計	―	20	1,160

表で「階級値 × 度数」の列をすべて足すと、1,160になります。これを総数の20で割ると平均値が出ます。

CALC

平均値＝ 1,160 ÷ 20 ＝ 58点

計算のコツ

度数分布表から平均値を求めるときは、表に「階級値 × 度数」の列を1つ足すのが定番のテクニックです。統計検定3級では電卓が使えますので、上の表で計算練習をしておいてください。

階級値の列がない場合は、まず階級値を埋める（下端＋上端を2で割る）
各階級で「階級値 × 度数」を計算し、新しい列に書く
その列の合計を求める
合計を「度数の合計（＝総データ数）」で割る

POINT

度数分布表からの平均値は、「各階級の値を、その人数分カウントしている」と考えると腑に落ちます。「20点台が4人いる」なら、30点という代表値が4回登場している、というイメージでしたね。

さえ

表に「階級値×度数」の列を足すのがコツ！いきなり全部の式を書くんじゃなくて、列を1つずつ埋めていけば、計算ミスがぐっと減るよ！

平均値の弱点 ─ 外れ値に弱い

平均値はとても便利ですが、弱点もあります。極端に大きい値や小さい値（外れ値）に引っ張られやすいことです。

たとえば、5人の年収が「400万、420万、450万、480万、500万」なら平均は450万円。これに「年収1億円」の人が1人加わると、平均は2,041万円に跳ね上がります。「6人の平均年収は2,041万円」と聞いても、その集団の典型的な姿を表しているとは言い難いですよね。

こうした場面で活躍するのが、次に学ぶ中央値や最頻値です。

2. 中央値 ─ ちょうど真ん中の値

中央値（ちゅうおうち、median）は、第2章でも登場しました。データを小さい順に並べたとき、ちょうど真ん中にある値です。

データ数が奇数のとき

データを並べた中で、ちょうど中央にある1つの値が中央値です。データ数が n のとき、(n+1)÷2 番目の値を選びます。

EXAMPLE

5人の点数を並べて：50, 60, 70, 80, 90

(5+1)÷2 ＝ 3番目の値が中央値 → 70点

データ数が偶数のとき

ちょうど真ん中が「2つの値の間」になるので、その2つの値の平均を中央値とします。データ数が n のとき、n÷2 番目と n÷2+1 番目の値の平均です。

EXAMPLE

6人の点数を並べて：50, 60, 70, 80, 90, 100

3番目（70）と4番目（80）の平均 → (70 + 80) ÷ 2 ＝ 75点

中央値の強み ─ 外れ値に強い

中央値の最大の強みは、外れ値の影響を受けにくいこと。先ほどの「年収400万〜500万＋1億円」の6人の場合、中央値はちょうど真ん中の3番目と4番目の値の平均で、465万円です。1億円の人が混じっていても変わりません。

平均年収（2,041万円）と中央値（465万円）、どちらが「この集団の典型的な姿」を表しているかは明白ですよね。分布が偏っているデータでは、中央値の方が実感に近いのです。

3. 最頻値 ─ もっとも多く現れる値

最頻値（さいひんち、mode）は、データの中でもっとも多く現れる値のことです。最頻値には、扱うデータによって2種類の求め方があるので、それぞれ確認しましょう。

(1) 実データそのものから求める最頻値

質的変数や、整数値などの離散変数では、同じ値が何度も登場することがあります。このときは、もっとも頻繁に出てくる値そのものを最頻値とします。

EXAMPLE

あるクラスの好きな色：「赤・青・赤・緑・赤・青・赤・緑」

赤が4回でいちばん多い → 最頻値は赤

EXAMPLE

サイコロを10回振った結果：「3, 5, 5, 2, 6, 5, 1, 4, 5, 3」

5が4回でいちばん多い → 最頻値は5

質的変数（カテゴリ）では、平均値や中央値が計算できないことが多いので、最頻値が代表値の主役になります。「もっとも好まれる色」「もっとも売れた商品」なども、最頻値の発想です。

(2) 度数分布表（ヒストグラム）から求める最頻値

身長や時間のような連続的な量的変数では、離散変数とは異なり、重なりのあるデータの出現は稀です。そのため、(1)の方法では最頻値が求められません。

そこで、データを階級ごとに集計（=度数分布表に整理）して、もっとも度数が大きい階級の階級値を最頻値とします。これがヒストグラムの「山の頂上」にあたる値です。

先ほどの20人のテスト点数の度数分布表で確認してみましょう。

階級（点）	階級値	度数
0以上 20未満	10	1
20以上 40未満	30	4
40以上 60未満	50	5
60以上 80未満	70	6 ← 最大
80以上 100未満	90	4

度数がもっとも大きいのは「60以上80未満」の階級で6人。よって最頻値は、その階級の階級値である70点になります。

POINT

最頻値の求め方は2種類あります。実データそのままで「もっとも多い値」が見えるなら(1)の方法、量的変数で階級化が必要なら(2)の方法です。データの性質に合わせて使い分けてください。

最頻値はいくつもあることもある

データによっては、最頻値が複数あるケースもあります。たとえば「3, 5, 5, 7, 8, 8, 9」では、5と8が2回ずつでいちばん多いので、最頻値は5と8の2つになります。

ヒストグラムが二峰性（山が2つ）になっているデータも同様で、男女混合の身長分布などがその典型例です。山が2つあるなら、最頻値も2つあると考えるのが自然な見方です。

さえ

最頻値、2種類あるってちょっと混乱するよね。でも要はシンプル！「同じ値が何回も出るデータ」はそのまま、「連続的なデータ」は階級にまとめてから、って覚えればOK！

4. 3つの代表値の大小関係 ─ 分布の形を読む

平均値・中央値・最頻値の3つは、第2章2-3で予告したとおり、分布の形によって大小関係が変わります。ここでもう一度、しっかり整理しておきましょう。

左右対称

平均≒中央≒最頻

右の裾が長い

平均>中央>最頻

左の裾が長い

平均<中央<最頻

左右対称：3つはほぼ一致

山の頂上が中央にあり、左右に均等に広がる形では、平均・中央・最頻の3つはほぼ同じ値になります。「真ん中の値」がぶれない、わかりやすい分布です。

右の裾が長い：平均が引きずられる

多くのデータが左に集中し、少数が右に長く広がる形では、右にある少数の大きな値が平均を引き上げます。一方、中央値（人数の真ん中）や最頻値（山の頂上）はそれほど影響を受けません。結果、平均値＞中央値＞最頻値という順序になります。

年収・貯蓄・家賃などの経済データはこの形になることが多いです。「平均年収」よりも「中央値」のほうが実感に近いのは、このメカニズムによります。

左の裾が長い：右の鏡映し

右の裾と反対のパターンです。少数の小さな値が平均を引き下げる結果、平均値＜中央値＜最頻値の順序になります。実生活では右の裾ほど多くは見ないものの、たとえば「合格者がほぼ満点を取る簡単な試験の点数」などがこの形をとります。

大小関係から分布の形を推測する

この関係を覚えておくと、「平均値と中央値の値を聞いただけで、分布の形を推測できる」ようになります。

「平均年収450万、中央値380万」と聞いたら → 右の裾が長い分布だな（ごく一部の高年収層が平均を引き上げている）
「平均点80点、中央値85点」と聞いたら → 左の裾が長い分布だな（少数の低得点者が平均を引き下げている）
「平均と中央値がほぼ同じ」と聞いたら → 左右対称に近い分布だな

POINT

分布が偏っているデータでは、「平均値だけを見ると判断を誤る」ことがあります。中央値や最頻値とセットで見る習慣をつけてください。

さえ

「平均」って聞くと「真ん中の値」だと思いがちだけど、分布が偏ってるとそうじゃないんだよね。3つセットで見るのがデキる大人のデータの読み方！

まとめ

第3章のスタートとなる代表値、ポイントを整理しておきましょう。

平均値：データの合計 ÷ データの個数。記号は x̄。外れ値に弱い
度数分布表からの平均値：Σ（階級値 × 度数）÷ データの総数。表に「階級値×度数」の列を足すのがコツ
中央値：データを並べたとき真ん中の値。外れ値に強い
最頻値：もっとも多く現れる値。実データから求める方法と、ヒストグラムの最大階級から求める方法の2種類
大小関係：左右対称なら3つはほぼ一致。右の裾が長いなら平均>中央>最頻、左の裾が長いなら平均<中央<最頻

代表値は「データを1つの数字で代表させる」ための値ですが、1つだけでは不十分です。複数の代表値を組み合わせ、さらに分布の形を見ることで、はじめてデータの本当の姿が見えてきます。次回は「散らばりの尺度」──分散と標準偏差──に進んでいきます。