データの種類
統計学のはじめの一歩は、目の前にあるデータがどんな種類のものなのかを見分けることです。種類によって、使えるグラフも、計算できる統計量も変わります。このページでは、質的変数と量的変数、4つの尺度水準、離散変数と連続変数、そしてクロスセクションデータ・時系列データ・パネルデータの3つの形式までを、ひととおり整理します。
統計検定3級でくり返し問われる土台の知識ですので、ここでしっかり押さえておきましょう。
1. データには大きく2種類ある ― 質的変数と量的変数
アンケートの集計表やExcelの売上一覧を眺めていると、そこに並ぶ値は大きく2つに分けられることに気づきます。カテゴリで分類されるデータと、数値で表されるデータです。前者を質的変数(カテゴリカル変数)、後者を量的変数(数量変数)と呼びます。
質的変数(しつてき・へんすう)
質的変数とは、データが「どのカテゴリに属するか」で分類されるものです。たとえば性別、血液型、都道府県名、商品カテゴリなどがこれに当たります。数値で表されていたとしても、その数値自体に意味のない計算をしないものは質的変数として扱います。
- 性別(男・女・その他)
- 血液型(A・B・O・AB)
- 都道府県(東京・大阪・…)
- 好きな色(赤・青・…)
- 顧客満足度のラベル(不満・普通・満足)
量的変数(りょうてき・へんすう)
量的変数は、計算の対象になる数値データです。身長、体重、年齢、売上金額、来店人数のように、足したり平均をとったりすることに意味があります。
- 身長(cm)
- 体重(kg)
- 年齢(歳)
- 売上金額(円)
- 来店人数(人)
- 気温(℃)
判断に迷ったら「平均をとって意味があるかどうか」で考えてみてください。「血液型の平均」は意味がありませんが、「身長の平均」には意味があります。前者が質的変数、後者が量的変数です。
背番号が「10番」の選手を「平均すると6.5番」って言わないよね。同じ数字でも、計算していいかは中身で決まるってこと!
2. もう一段細かく分ける ― 4つの尺度水準
質的・量的の2分類は便利ですが、統計検定ではもう一段細かい分類が問われます。それが尺度水準です。質的変数は名義尺度と順序尺度に、量的変数は間隔尺度と比率尺度にそれぞれ分かれます。
| 分類 | 尺度水準 | 特徴 | 例 |
|---|---|---|---|
| 質的変数 | 名義尺度 | 区別するだけ。順序の意味なし | 血液型、性別、電話番号 |
| 順序尺度 | 順序に意味あり。間隔は不均等 | 満足度(5段階)、成績順位、震度 | |
| 量的変数 | 間隔尺度 | 等間隔。原点(0)に絶対的な意味はない | 気温(摂氏)、西暦、知能指数 |
| 比率尺度 | 等間隔かつ0が「無い」を意味する | 身長、体重、売上金額、絶対温度(K) |
名義尺度と順序尺度のちがい
血液型のA・B・O・ABは、ただの分類です。「Aの方がBより上」のような順序はありません。これが名義尺度です。
一方、5段階の満足度評価(1=不満〜5=満足)は順序に意味があります。5の人の方が4の人より満足している、と言えます。これが順序尺度です。ただし、「満足度4と5の差」と「満足度1と2の差」が同じ大きさかは保証されません。間隔は不均等なのです。
間隔尺度と比率尺度のちがい
ここがいちばん混乱しやすいポイントです。両者の違いは「0に絶対的な意味があるか」の一点です。
気温(摂氏)の0℃は、温度がないことを意味しません。ただの基準点です。だから「20℃は10℃の2倍暖かい」とは言えません。これが間隔尺度です。
対して、身長0cmは「身長がない」ことを意味します。だから「160cmは80cmの2倍」と言えます。これが比率尺度です。売上金額、体重、人数、所要時間など、私たちが業務で扱う数値の多くは比率尺度です。
「気温20℃は10℃の2倍暑い」って言いたくなるけど、ダメなんだよね。摂氏の0℃は「ただの基準点」だから、倍とか半分の比較ができないの。ここ、検定でよく出るから要注意!
尺度水準が名義 → 順序 → 間隔 → 比率と上がるほど、扱える計算が増えます。比率尺度なら平均も比率も自由に計算できますが、名義尺度では「最頻値(一番多く出てきたもの)」くらいしか意味のある統計量がありません。
3. 量的変数をさらに分ける ― 離散変数と連続変数
量的変数は、取りうる値の性質によってさらに2つに分けられます。離散変数と連続変数です。
離散変数(りさん・へんすう)
離散変数は、飛び飛びの値しか取らない変数です。サイコロの目(1・2・3・4・5・6)、来店人数(1人・2人・3人…)、商品の販売個数のように、間の値が存在しないものを指します。1.5人の来店、というのはありえません。
- 来店人数
- 商品の販売個数
- 不良品の数
- サイコロの目
- 世帯人数
連続変数(れんぞく・へんすう)
連続変数は、区間の中であればどんな値でも取れる変数です。身長は170cmでも170.1cmでも170.15cmでも存在しえます。測定の精度を上げれば、いくらでも細かく刻めるのが連続変数です。
- 身長
- 体重
- 時間
- 距離
- 気温
- 速度
判断に迷ったときは「数えるか、測るか」で考えてみてください。数えるものは離散変数、測るものは連続変数です。
4. データの集め方による分類 ― 横断・時系列・パネル
ここまでは「ひとつひとつの値」がどんな種類かという話でした。最後に視点を変えて、データセット全体の形による分類を見ていきます。これは集め方の違いと言ってもよいでしょう。
クロスセクションデータ(横断面データ)
ある一時点で、複数の対象を観測したデータです。「2026年4月時点の、47都道府県それぞれの人口」がその典型です。時間は固定、対象はバラバラ。スナップショットのようなデータと言えます。
- 2026年4月時点の各都道府県の人口
- 同じクラスの生徒40人の身長一覧
- ある日の各支店の売上
時系列データ(じけいれつ・データ)
同じ対象を、時間順に観測しつづけたデータです。「ある会社の2020年から2026年までの月次売上」のように、対象は固定、時間が動いていきます。トレンドや季節変動を見るのに使います。
- ある会社の月次売上(2020年〜2026年)
- 日経平均株価の日次推移
- 東京の月別平均気温
パネルデータ
クロスセクションと時系列のかけ算です。「47都道府県それぞれの、2020年から2026年までの人口推移」のように、複数の対象を、時間を追って観測したデータがこれに当たります。情報量が一気に増えるぶん、分析の幅も広がります。
- 47都道府県の年次人口推移
- 全店舗の月次売上推移
- 全社員の年次評価データ
| 分類 | 対象 | 時間 | イメージ |
|---|---|---|---|
| クロスセクションデータ | 複数 | 1時点 | 横の広がり |
| 時系列データ | 1つ | 複数時点 | 縦の流れ |
| パネルデータ | 複数 | 複数時点 | 横 × 縦 |
まとめ
データの種類は、統計学のすべての入口です。手元のデータがどの種類なのかを正しく見分けられるようになると、「このデータには平均が使えるのか」「このグラフは適切なのか」といった判断が、ぐっとラクになります。
検定本番で迷ったら、次の3つの問いを順番に当ててみてください。
この3つの質問を覚えちゃえば、もうデータの種類で迷うことはないよ!呪文みたいに繰り返してね。
- 計算(平均など)に意味があるか? → Yesなら量的変数、Noなら質的変数
- 0は「無い」を意味するか? → Yesなら比率尺度、Noで間隔のみ等しいなら間隔尺度
- 数えるのか、測るのか? → 数えるなら離散変数、測るなら連続変数
この3つの問いをくぐらせるだけで、ほとんどのデータは正しく分類できます。
データの種類 確認シート
本ページで紹介した分類を、実際のデータでなぞって確認できるExcelファイルです。