Udemyで講座を受講しよう!
統計

4つの尺度 – 素材としてデータを扱うために

Yujiro Sakaki

データ分析とは、いわばデータを料理することです。

実際の料理でも、それぞれの素材をしっかりと把握しなければいけません。この記事では、データの素材をしっかりと分類できるように勉強していきましょう。

Check Point

この記事で学習できること

  • 比例尺度
  • 間隔尺度
  • 順序尺度
  • 名義尺度

尺度、という言葉が登場します。尺度とは「基準」と言い換えても間違いではないでしょう。データをそれぞれの基準で分類します。

4つの尺度

データは4つの尺度に分類されます。

  1. 比例尺度(ひれい-しゃくど)
  2. 間隔尺度(かんかく-しゃくど)
  3. 順序尺度(じゅんじょ-しゃくど)
  4. 名義尺度(めいぎ-しゃくど)

①~④の尺度に向かうにつれて情報量が減っていく、というところがポイントです。

比例尺度

四則演算が適用可能で、数値間の比率に意味があるデータを指します。

例えば、売上金額、駅からの徒歩時間、部屋の面積、注文数などがこのカテゴリに入ります。これらのデータでは、「売上が2倍になった」「徒歩時間が2倍になった」「部屋の面積が2倍に広がった」「注文数が2倍に増えた」といった表現が可能です。

こうした表現は、データの比率に実際の意味があることを示しています。

また、比例尺度の重要な特徴として、絶対ゼロ点(ゼロが完全な不在または欠如を意味する点)を持つことが挙げられます。

例えば、売上金額が0円であれば、売上が全くない状態を意味し、部屋の面積が0平方メートルであれば、実際には部屋が存在しないことを示します。

これらの特徴から、比例尺度は情報量が最も豊富なデータ尺度といえます。データの比率が具体的な意味を持つため、より詳細な分析が可能になります。

間隔尺度

四則演算は可能ですが、値の比例関係は成り立ちません。わかりやすい例が「気温」です。

例えば、10℃から20℃への温度上昇は10℃の差を意味しますが、これは「10℃が20℃の半分である」と解釈することはできません。

ここで言う「間隔」とは、10℃と20℃の間に一定の差があるということを指しますが、この数値自体の比例関係は意味を成しません。

また、間隔尺度は絶対ゼロ点を持たないというのもポイントです。

0℃は氷点を表しますが、これは温度が全く存在しないことを意味するわけではありません。温度のような間隔尺度では、0℃は単に特定の点を示すに過ぎず、比例尺度のゼロ点(絶対ゼロ)とは異なります。

これにより、四則演算の意味合いが比例尺度に比べて制限されるため、情報量は比例尺度よりも少なくなります。

あと、統計学を学ぶ初学者は、「感覚尺度」と混同しないように注意しましょう。

順序尺度

データが順序(ランキング)によってのみ区別される尺度です。

これは、データ間の具体的な量的差異は測定できませんが、順位付けは可能であることを意味しています。レースの順位が典型的な例です。

たとえば、レースで2位と4位の差があったとしても、これは単に順位における差であり、2位の選手が4位の選手より「2倍速い」や「2倍優れている」ということは意味しません。

単純に、2位の選手が4位の選手よりも前にゴールした、ということだけが分かります。

この尺度では、順位付けされたアイテム間の相対的な位置関係はわかりますが、それらの間の具体的な差異や比率はわかりません。

順序尺度のもう一つの例として、顧客満足度調査などで見られる「非常に満足」「満足」「普通」「不満足」「非常に不満足」のような評価があります。

これらの評価は順序を示していますが、各カテゴリ間の具体的な感情の差は定量化されていません。ただ、これらのデータを1~5の数字に置き換えて満足度の平均評価値を出すことはできます。

また、統計学においては、このようなデータを分析する際に、順序尺度に基づいた特定の手法が使用されることがあります。

統計学でよく用いられる 相関係数も、この順序尺度となります。

名義尺度

名義尺度は、データを区別するためのラベルやカテゴリーとして機能します。この尺度においては、データは単に名前や種類によって分類され、数値的な大小や順序は存在しません。

例えば、人の名前、血液型、出身地、趣味などが名義尺度に当たります。

これらのデータは文字列や記号で表され、各カテゴリー間には数値的な関連性や順序はありません。たとえば、血液型がA型、B型、O型、AB型と分類されていても、これらの間には数値的な上下関係は存在せず、単に異なるタイプを示しているだけです。

このため、名義尺度のデータは、特定のカテゴリーの属性や特徴を識別するのに役立ちますが、数値的な分析や比較には向いていません。

その結果、名義尺度は他の尺度と比較して情報量が最も限られると言えますが、カテゴリー分けや分類においては非常に重要な役割を果たします。

統計を含む資格試験のひっかけ問題で出てくるのが、「小学校・中学校・高校・大学」という教育レベルを表したデータです。これらは順序尺度に見えるかもしれませんが、実際には名義尺度に分類されます。

例えば、アンケートでよく見られる5段階評価は、各段階が連続していて相互に関連しています。しかし、「小学校・中学校・高校・大学」といったカテゴリーは、それぞれが独立した教育の段階を示しており、これらの間には数値的な連続性や階層関係はありません。

「小学校、中学校、高校、大学」といった各データは、それぞれ異なる教育のレベルをラベル付けするために使用されます。

これらは互いに独立したカテゴリーであり、例えば「中学校は小学校の次の段階」というような順序的な意味は持たないため、名義尺度に分類されるわけです。

まとめ

データを理解し分析する上で基礎となる4つの尺度、

  1. 比例尺度
  2. 間隔尺度
  3. 順序尺度
  4. 名義尺度

について解説しました。

データ分析の過程で最も重要なステップの一つは、扱っているデータがどの尺度に分類されるかを正確に理解することです。

それぞれの尺度は、データの特性を反映しており、その分析方法にも影響を与えます。例えば、比例尺度のデータでは、より精緻な分析手法である回帰分析が有効に機能します。

一方、情報量が限られた名義尺度のデータには、カイ二乗検定のような方法が適していますが、これは分析が複雑になることもあります。もともと情報量が少ないデータに対して分析をするわけですからね。

統計学を学ぶ過程でこれらの概念をしっかりと把握して、データに基づいた有効な意思決定を行うための基礎を固めていきましょう。

こちらの記事は以上となります。

Advertisement
ABOUT ME
榊 裕次郎
榊 裕次郎
Excel講師
1981年10月生まれのてんびん座、東京都出身。趣味は、旅行と料理とワイン。2024年は、佐賀県に行って「呼子のイカ」を思いっきり食べたいです。

仕事では2023年も引き続き、青森・秋田・岩手でのお仕事依頼、お待ちしております!
記事URLをコピーしました