統計のはじまりは「基本統計量」から
この記事では、統計学における「基本統計量」を学習していきます。
基本統計量とは、データから情報を引き出す分析作業において、重要指標となる値の集まりのことを指しています。
この記事では、①平均値、②中央値、③最頻値、④最大値、⑤最小値、⑥レンジからスタートしていきましょう。
この記事で学習できること
- 平均値
- 中央値
- 最頻値
- 最大値
- 最小値
- レンジ
この6つの値はすべて、異なるデータの特徴を捉える代表的な値として使われるため、これらの値は「代表値」とも呼ばれています。
基本統計量に選出された代表値のひとつ、①平均値 から解説を始めてまいりましょう。
① 平均値
ご存じの方も多いと思いますが、平均値の求め方からおさらいです。
平均値 = 合計値 ÷ 個数
統計学の用語では別名があり、相加(そうか)平均とも呼びます。平均値にも相乗平均・調和平均とありますので、それらと区別するために相加平均という言葉を使います。
けれども、一般的に平均値といったら相加平均を指しています。
平均値は、データの合計を個数で割る計算方法で求められますが、言葉を分解して考えるとさらに平均値を理解することができます。
平らに、均(なら)す、値。それが平均値です。以下のキャプチャのように、ブルドーザーが平均線上に土を平らにしていくようなイメージです。
大きな溝があれば、そこに土を埋めなければいけません。また、大きな山があればその山を崩して、平らに均していきます。
データの中でひと際大きな溝・大きな山のことを「外れ値」と呼び、平均値はこの外れ値に対して、影響が出やすい値とも言えます。
最後に、平均値の英語読みの確認です。
Excelでは、平均の関数が「AVERAGE(アベレージ)関数」のため、アベレージという言葉をよく聞きますが、平均は英語読みで「MEAN(ミーン)」といいます。
統計の書籍を紐解いていると、この単語もよく出てきますので、併せてMEANという単語でも「平均」というキーワードを紐づけておきましょう。
② 中央値
データを昇順(または降順)に並び替えた、真ん中の値が中央値です。
中央値は、データ群の中に外れ値が含まれていたとしても、中央値は計算されずに抽出されるため、外れ値の影響を受けにくい値として扱われます。
そして、平均値と比較材料となる値です。
データ群が奇数の場合、きちんと真ん中の値が抽出されますが、データ群が偶数の場合、真ん中の値は2つ存在します。
その2つの値の平均値となるため、データ群が偶数の場合だと実測データが出てこない可能性がある、ということを抑えておいてください。中央値を実データで捉えたいのであれば、集めるサンプルデータ数は奇数にしたほうがいいでしょう。
しかし、データ群が奇数でも偶数でも、中央値としての性質は失われないので、絶対にサンプルデータ数は奇数でなければならない! ということはありません。
また、平均値と中央値が近しい値であれば、そのデータにばらつきはないだろうなと推定もできます。いろいろな値を参考にして最終結論を出すわけですが、中央値と平均値はよく比較してみることが多いです。
中央値は、英語読みで「MEDIAN(メジアン)」と呼びます。ExcelではMEDIAN関数を使って、中央値を求めることができます。
③ 最頻値
出現頻度が一番多い値のことを指します。「3,4,4,5,5,5,6,6」というデータ郡であれば、最頻値は「5」になります。
また「3,4,5,6,7,8,9,10」のように、最頻値の値が見つからない場合は 「NA」 という記号を使って表現します。
NAは、Not Applicable(ノット・アプリカブル)の略で、該当なしを意味しています。空港でも使用する機体の搭乗ゲートが未定の場合、コードは「NA」の表示がされますよね。
Excelなどのアプリケーションソフトでは「#N/A」というエラーが表示されます。この場合は「ノー・アサイン」と読むことの方が多いのですが、読み方はどちらでもいいでしょう。
最頻値も中央値と同じで、外れ値の影響を受けません。
ただ、実際の分析では最頻値を算出するシーンは少なめです。講座でもご質問が多いところなので、先に説明しておきますね。
実際には、「100万〜200万、200万〜300万……」「30代・40代・50代……」といった区間(これを階級といいます)に置き換えて、どこの区間が一番件数が多いのか? ヒストグラムというグラフを使って、最頻値を把握することのほうが多いです。
ヒストグラムについては、また度数分布表の話に入ってからご説明いたします。ですので、この記事では基本統計量の代表値である「最頻値」をまず覚えておきましょう。
最頻値の英語読みは「MODE(モード)」といいます。
④ 最大値
データ群の中で最も大きな値を「最大値」といいます。シンプルですが、これも代表値のひとつです。英語読みは「MAX(マックス)」。
これは、特に説明は不要ですね。
⑤ 最小値
その逆に、データ群の中で最も小さな値を「最小値」といいます。英語読みは「MIN(ミニマム)」。これも説明不要な代表値と言えるでしょう。
ExcelではMIN関数を「ミニマム関数」と読むことが一般的ですが、データベースなどのSQLを学習しているときのMIN関数は「ミン関数」と読むことが多いです。
なんだか不思議ですよね。
⑥ レンジ
データの最大値と最小値の差を「レンジ(範囲)」といいます。
データの振れ幅です。上限と下限の範囲を知ることで、どれくらい繁忙期と閑散期で差があるのか? などを確認することができます。
レンジが広すぎれば、データは散らばっている、または外れ値が存在していると判断できるわけです。
英語読みでは「RANGE(レンジ)」と読み、レンジは「Data Range(データ・レンジ)」と呼ぶことが多い印象です。
Excelを含むほとんどのアプリケーションでは、RANGE関数というものは存在しないため、最大値と最小値の差分より求めます。
プログラミングでも、標準の関数にはありませんね。
まとめ
この記事では、基本統計量の①平均値、②中央値、③最頻値、④最大値、⑤最小値、⑥レンジを学習しました。
まだまだ基本統計量として見るべき値は残っているのですが、一旦ここで記事を区切りたいと思います。
次の記事は、標準偏差を説明している統計学の最初のハードル「標準偏差」に進んでください。ここまでご一読ありがとうございました。