変数の分類
統計学の旅は、目の前のデータが「どんな種類のものなのか」を見分けるところから始まります。種類がわかると、使えるグラフも、計算してよい統計量も自然に決まってくるからです。このページでは、3級でも触れた質的変数と量的変数、離散と連続、そして4つの尺度水準(名義・順序・間隔・比)を、2級向けにもう一段ていねいに整理します。
ここは暗記で乗り切れる単元ですが、丸暗記よりも「なぜその分類になるのか」を腹落ちさせておくほうが、後の章でずっとラクになります。たくさんの具体例と、迷ったときの判定のコツを一緒に見ていきましょう。
料理でいうと、ここは「素材の見分け方」だよ。魚なのか野菜なのかで包丁の入れ方が変わるよね。データも同じで、種類を間違えると、そのあとの分析がぜんぶ的外れになっちゃうの。最初が肝心!
1. データは大きく2種類 ─ 質的変数と量的変数
まず、ここでいう変数とは「対象ごとに値が変わりうる項目」のことです。たとえばクラスの名簿なら、氏名・性別・身長・テストの点数……これらがすべて変数です。観測して得られた値そのものをデータと呼びます。
変数は大きく2つに分けられます。カテゴリ(分類)で表されるものと、数量で表されるものです。前者を質的変数(カテゴリカル変数)、後者を量的変数(数量変数)と呼びます。
質的変数
質的変数は、「どのカテゴリに属するか」で対象を分類する変数です。性別、血液型、都道府県名などがこれにあたります。たとえ数字で表されていても、その数字に足し算や平均の意味がなければ質的変数です。背番号やアンケートの選択肢番号がよい例ですね。
- 性別(男・女・その他)
- 血液型(A・B・O・AB)
- 都道府県(東京・大阪・…)
- 満足度のラベル(満足・普通・不満)
- 背番号、会員番号
量的変数
量的変数は、計算の対象になる数量データです。身長、体重、年齢、売上金額のように、足したり平均をとったりすることに意味がある値を指します。
- 身長(cm)、体重(kg)
- 年齢(歳)、来店人数(人)
- 売上金額(円)
- 気温(℃)、所要時間(分)
迷ったら「平均をとって意味があるか」で考えてみてください。「血液型の平均」はナンセンスですが、「身長の平均」には意味があります。前者が質的変数、後者が量的変数です。数字で書かれているかどうかは、判定の決め手にはなりません。
2. それぞれをもう一段分ける
2級では、質的・量的の2分類をさらに細かく分けて問われます。質的変数は名義変数と順序変数に、量的変数は離散変数と連続変数に分かれます。
質的変数:名義変数と順序変数
名義変数は、ただ区別するだけで、カテゴリの間に順序がない変数です。血液型のA・B・O・ABに「上下」はありませんよね。これが名義変数です。
順序変数は、カテゴリに順番の意味がある変数です。アンケートの「満足・普通・不満」や、成績の「松・竹・梅」のように、並びそのものに意味があるものを指します。ただし「満足と普通の差」と「普通と不満の差」が等しい保証はありません。間隔の大きさはあてにできない、というのが順序変数の特徴です。
量的変数:離散変数と連続変数
離散変数は、飛び飛びの値しか取らない変数です。来店人数(1人・2人・3人…)やサイコロの目のように、間の値が存在しないものを指します。1.5人の来店はありえません。
連続変数は、ある区間のなかでどんな値でも取れる変数です。身長は170cmでも170.1cmでも170.15cmでも存在しえます。測定の精度を上げれば、いくらでも細かく刻めるのが連続変数です。
離散か連続かで迷ったら、「数えるのか、測るのか」。数えるものは離散変数、測るものは連続変数です。なお、年齢のように「測れる量を整数で記録している」ものは、本来は連続量を切り捨てたものなので、文脈によって扱いが変わることもあります。
「数えるか、測るか」は本当に便利な合言葉だよ。リンゴの個数は数えるから離散、リンゴの重さは測るから連続。同じリンゴでも、何を見るかで変わるのがおもしろいよね!
3. 4つの尺度水準
ここまでの分類を、もう一つの視点で整理したのが尺度水準です。「そのデータにどんな計算を許してよいか」という、情報の豊かさの段階を表します。名義変数は名義尺度、順序変数は順序尺度、そして量的変数は間隔尺度と比尺度(比例尺度)に対応します。
| 尺度水準 | 区別 | 順序 | 差(間隔) | 比 | 例 |
|---|---|---|---|---|---|
| 名義尺度 | ○ | × | × | × | 血液型、性別、電話番号 |
| 順序尺度 | ○ | ○ | × | × | 満足度(5段階)、成績順位、震度 |
| 間隔尺度 | ○ | ○ | ○ | × | 気温(摂氏)、西暦、知能指数 |
| 比尺度 | ○ | ○ | ○ | ○ | 身長、体重、売上金額、絶対温度(K) |
表の○が下に進むほど増えていくのがポイントです。名義 → 順序 → 間隔 → 比の順に、許される計算がどんどん増え、データから取り出せる情報も豊かになっていきます。上位の尺度は、下位の尺度ができることをすべて含んでいます。
名義尺度と順序尺度のちがい
どちらも質的変数ですが、順序の有無で分かれます。血液型は区別するだけ(名義尺度)。5段階の満足度は「5の人のほうが満足している」と順番が言える(順序尺度)。ただし順序尺度では、差の大きさまでは比べられません。満足度5と4の差が、2と1の差と同じとは限らないからです。
間隔尺度と比尺度のちがい ─ ここが最大の山場
ここが2級でいちばん問われやすいポイントです。両者の違いは「0(原点)に絶対的な意味があるか」の一点に尽きます。
摂氏温度の0℃は、「温度がない」という意味ではありません。ただの基準点です。だから差を語ることはできても(「昨日より3℃高い」はOK)、比を語ることはできません。「20℃は10℃の2倍暑い」とは言えないのです。これが間隔尺度。等間隔ではあるけれど、原点が便宜的、というのが特徴です。
一方、身長の0cmは「長さがない」という絶対的なゼロを意味します。だから「160cmは80cmの2倍」と言えます。これが比尺度です。私たちが実務で扱う数値の多く──売上、体重、人数、時間など──は比尺度です。
間隔か比かは「2倍と言えるか」で見分けるとラクです。「2倍」と言えれば比尺度、言えなければ間隔尺度。摂氏温度・西暦・知能指数は「2倍」が言えないので間隔尺度の代表例として狙われます。これらは試験の定番なので、セットで覚えておきましょう。
「西暦2000年は西暦1000年の2倍むかし?」って聞かれたら変だよね。年号には絶対的なゼロがないから、これは間隔尺度。逆に「絶対温度(ケルビン)」は0Kが本物のゼロだから比尺度になる、っていうのも面白いポイントだよ!
4. 尺度水準で「使える統計量」が決まる
尺度水準を学ぶ最大のご利益は、どの代表値・統計量を使ってよいかが決まることです。たとえば名義尺度に平均を計算してもナンセンスですが、最頻値なら意味があります。次の章以降で学ぶ統計量が、どの尺度から使えるのかを先取りで一覧にしておきます。
| 尺度水準 | 使える代表的な統計量 |
|---|---|
| 名義尺度 | 度数、最頻値 |
| 順序尺度 | + 中央値、四分位数 |
| 間隔尺度 | + 平均、標準偏差(差をとる計算が可能に) |
| 比尺度 | + 変動係数、幾何平均(比をとる計算が可能に) |
たとえば中央値 $\tilde{x}$ は「順序が決まれば真ん中が選べる」ので順序尺度から使えますが、平均 $\bar{x}=\frac{1}{n}\sum_{i=1}^{n} x_i$ は「足し算と割り算」を必要とするので間隔尺度以上でないと意味を持ちません。さらに、変動係数のように割り算(比)を含む量は、比尺度でないと使えない、というわけです。これらの統計量は次の記事から順に学んでいきます。
5. データセット全体の形による分類
ここまでは「1つ1つの変数」の種類でした。最後に視点を変えて、データセット全体(表)の形による分類も押さえておきましょう。これは「データの集め方」の違いとも言えます。
- クロスセクションデータ(横断面データ):ある一時点で、複数の対象を観測したデータ。例:2026年4月時点の各都道府県の人口。時間が固定なので並び替えが可能です。
- 時系列データ:同じ対象を、時間を追って観測しつづけたデータ。例:ある会社の月次売上(2020〜2026年)。並び替えると時間の情報が失われます。
- パネルデータ:複数の対象を、時間を追って観測したデータ。上の2つを兼ね備えたもの。例:47都道府県の年次人口推移。情報量が一気に増えます。
時系列データは第1章の終盤(1-13・1-14)でくわしく扱います。ここでは「3つの形がある」とだけ押さえておけば十分です。
見分けのコツは「時間が動くか、対象が複数か」。時間が固定で対象が複数ならクロスセクション、対象が固定で時間が動くなら時系列、両方ならパネルです。
まとめ
第1章 1-1、ポイントを整理します。
- 質的変数:カテゴリで分類(名義・順序)。量的変数:数量で表す(離散・連続)
- 判定のコツ:質的か量的かは「平均に意味があるか」、離散か連続かは「数えるか測るか」
- 尺度水準:名義 → 順序 → 間隔 → 比 の順に情報量が増える
- 間隔と比の違い:原点(0)に絶対的な意味があるか。「2倍と言えれば比尺度」
- 尺度で使える統計量が決まる:名義=最頻値、順序=中央値、間隔=平均、比=変動係数
- データの形:クロスセクション・時系列・パネルの3種類
次回 1-2 量的データの分布 では、量的変数を度数分布表とヒストグラムで「見える化」し、分布の形を読み取る方法を学びます。今日分けた変数の種類が、さっそく活躍しますよ。
分類、おつかれさま! 迷ったときの合言葉は2つ。「平均に意味ある?」と「2倍って言える?」。この2つを唱えれば、たいていの変数はスパッと分類できるよ。次はいよいよグラフで分布を見ていこう!