第1章 1-1 / データの記述と要約

変数の分類

1. データは大きく2種類 ─ 質的変数と量的変数

まず、ここでいう変数とは「対象ごとに値が変わりうる項目」のことです。たとえばクラスの名簿なら、氏名・性別・身長・テストの点数……これらがすべて変数です。観測して得られた値そのものをデータと呼びます。

変数は大きく2つに分けられます。カテゴリ（分類）で表されるものと、数量で表されるものです。前者を質的変数（カテゴリカル変数）、後者を量的変数（数量変数）と呼びます。

質的変数

質的変数は、「どのカテゴリに属するか」で対象を分類する変数です。性別（男・女・その他）、血液型（A・B・O・AB）、都道府県（東京・大阪・…）、満足度のラベル（満足・普通・不満）、背番号や会員番号など、身のまわりにたくさんあります。

たとえ数字で表されていても、その数字に足し算や平均の意味がなければ質的変数です。背番号やアンケートの選択肢番号がよい例ですね。

量的変数

量的変数は、計算の対象になる数量データです。身長（cm）・体重（kg）、年齢（歳）・来店人数（人）、売上金額（円）、気温（℃）・所要時間（分）のように、足したり平均をとったりすることに意味がある値を指します。

迷ったら平均をとって意味があるかで考えてみてください。「血液型の平均」はナンセンスですが、「身長の平均」には意味があります。前者が質的変数、後者が量的変数です。

数字で書かれているかどうかは、判定の決め手にはなりません。

2. それぞれをもう一段分ける

2級では、質的・量的の2分類をさらに細かく分けて問われます。質的変数は名義変数と順序変数に、量的変数は離散変数と連続変数に分かれます。

質的変数：名義変数と順序変数

名義変数は、ただ区別するだけで、カテゴリの間に順序がない変数です。血液型のA・B・O・ABに「上下」はありませんよね。これが名義変数です。

順序変数は、カテゴリに順番の意味がある変数です。アンケートの「満足・普通・不満」や、成績の「松・竹・梅」のように、並びそのものに意味があるものを指します。

ただし「満足と普通の差」と「普通と不満の差」が等しい保証はありません。間隔の大きさはあてにできない、というのが順序変数の特徴です。

量的変数：離散変数と連続変数

離散変数は、飛び飛びの値しか取らない変数です。来店人数（1人・2人・3人…）やサイコロの目のように、間の値が存在しないものを指します。1.5人の来店はありえません。

連続変数は、ある区間のなかでどんな値でも取れる変数です。身長は170cmでも170.1cmでも170.15cmでも存在しえます。測定の精度を上げれば、いくらでも細かく刻めるのが連続変数です。

離散か連続かで迷ったら、数えるのか、測るのかという合言葉が便利です。数えるものは離散変数、測るものは連続変数。

リンゴでいえば、個数は数えるから離散、重さは測るから連続です。同じリンゴでも、何を見るかで変わるのがおもしろいところですね。

なお、年齢のように「測れる量を整数で記録している」ものは、本来は連続量を切り捨てたものなので、文脈によって扱いが変わることもあります。

3. 4つの尺度水準

ここまでの分類を、もう一つの視点で整理したのが尺度水準です。「そのデータにどんな計算を許してよいか」という、情報の豊かさの段階を表します。

名義変数は名義尺度、順序変数は順序尺度、そして量的変数は間隔尺度と比例尺度（比尺度）に対応します。

尺度水準	区別	順序	間隔	比率	例
名義尺度	○	×	×	×	血液型、性別、電話番号
順序尺度	○	○	×	×	満足度（5段階）、成績順位、震度
間隔尺度	○	○	○	×	気温（摂氏）、西暦、知能指数
比例尺度	○	○	○	○	身長、体重、売上金額、絶対温度（K）

表の○が下に進むほど増えていくのがポイントです。名義 → 順序 → 間隔 → 比の順に、許される計算がどんどん増え、データから取り出せる情報も豊かになっていきます。

上位の尺度は、下位の尺度ができることをすべて含んでいます。

名義尺度と順序尺度のちがい

どちらも質的変数ですが、順序の有無で分かれます。血液型は区別するだけ（名義尺度）。5段階の満足度は「5の人のほうが満足している」と順番が言える（順序尺度）。

ただし順序尺度では、差の大きさまでは比べられません。満足度5と4の差が、2と1の差と同じとは限らないからです。

間隔尺度と比例尺度のちがい ─ ここが最大の山場

ここが2級でいちばん問われやすいポイントです。両者の違いは0（原点）に絶対的な意味があるかの一点に尽きます。

摂氏温度の0℃は、「温度がない」という意味ではありません。ただの基準点です。だから差を語ることはできても（「昨日より3℃高い」はOK）、比を語ることはできません。「20℃は10℃の2倍暑い」とは言えないのです。

これが間隔尺度。等間隔ではあるけれど、原点が便宜的、というのが特徴です。「西暦2000年は西暦1000年の2倍むかし？」と聞かれたら変ですよね。年号にも絶対的なゼロがないから、これも間隔尺度です。

一方、身長の0cmは「長さがない」という絶対的なゼロを意味します。だから「160cmは80cmの2倍」と言えます。これが比例尺度です。

私たちが実務で扱う数値の多く──売上、体重、人数、時間など──は比例尺度です。逆に「絶対温度（ケルビン）」は0Kが本物のゼロだから比例尺度になる、というのも面白いポイントです。

間隔か比かは2倍と言えるかで見分けるとラクです。「2倍」と言えれば比例尺度、言えなければ間隔尺度。

摂氏温度・西暦・知能指数は「2倍」が言えないので間隔尺度の代表例として狙われます。これらは試験の定番なので、セットで覚えておきましょう。

4. 尺度水準で「使える統計量」が決まる

尺度水準を学ぶ最大のご利益は、どの代表値・統計量を使ってよいかが決まることです。たとえば名義尺度に平均を計算してもナンセンスですが、最頻値なら意味があります。

次の章以降で学ぶ統計量が、どの尺度から使えるのかを先取りで一覧にしておきます。

尺度水準	使える代表的な統計量
名義尺度	度数、最頻値
順序尺度	＋中央値、四分位数
間隔尺度	＋平均、標準偏差（差をとる計算が可能に）
比例尺度	＋変動係数、幾何平均（比をとる計算が可能に）

たとえば中央値 $\tilde{x}$ は「順序が決まれば真ん中が選べる」ので順序尺度から使えますが、平均のように「足し算と割り算」を必要とする統計量は間隔尺度以上でないと意味を持ちません。

さらに、変動係数（※ あとで学習します）のような割り算（比）を含む量は、比例尺度でないと使えない、というわけです。これらの統計量は次の記事から順に学んでいきます。

FORMULA — 試験に出る式 $$\bar{x} = \frac{1}{n}\sum_{i=1}^{n} x_i$$

中央値は順序尺度から、平均は間隔尺度から使える統計量です。平均は「差をとる計算」を前提にしているため、原点に意味のない間隔尺度でようやく計算に意味が生まれます。

5. データセット全体の形による分類

ここまでは「1つ1つの変数」の種類でした。最後に視点を変えて、データセット全体（表）の形による分類も押さえておきましょう。これは「データの集め方」の違いとも言えます。

クロスセクションデータ（横断面データ）：ある一時点で、複数の対象を観測したデータ。例：2026年4月時点の各都道府県の人口。時間が固定なので並び替えが可能です。
時系列データ：同じ対象を、時間を追って観測しつづけたデータ。例：ある会社の月次売上（2020〜2026年）。並び替えると時間の情報が失われます。
パネルデータ：複数の対象を、時間を追って観測したデータ。上の2つを兼ね備えたもの。例：47都道府県の年次人口推移。情報量が一気に増えます。

時系列データは第1章の終盤（1-13・1-14）でくわしく扱います。見分けのコツは時間が動くか、対象が複数か。

時間が固定で対象が複数ならクロスセクション、対象が固定で時間が動くなら時系列、両方ならパネルです。ここでは「3つの形がある」とだけ押さえておけば十分です。

CHECK TEST — 確認テスト

この章の理解度チェック

答えを開く前に、必ずノートに手で書いてください。書いてから答え合わせをすることで、試験本番でも同じ判断がすぐにできるようになります。

Q1摂氏温度・西暦・知能指数の尺度水準は何でしょうか？

間隔尺度です。どれも等間隔ではありますが、0に絶対的な意味がなく「2倍」が言えません。摂氏0℃・西暦0年・知能指数0のいずれも「無」を意味しないのがポイントです。

Q2「満足・普通・不満」は質的・量的のどちらで、尺度水準は何でしょうか？

質的変数の順序尺度です。カテゴリで分類しつつ、満足＞普通＞不満という順序が言えるためです。ただし差の大きさまでは保証されません。

Q3来店人数と身長、離散・連続はどちらでしょうか？　見分けの合言葉もあわせて答えてください。

来店人数は離散変数、身長は連続変数です。合言葉は「数えるものは離散、測るものは連続」。人数は1人単位で数え、身長はいくらでも細かく測れます。

Q4間隔尺度と比例尺度を見分けるひとことは何でしょうか？

「2倍と言えるか」です。0（原点）に絶対的な意味があれば比例尺度、便宜的な基準点にすぎなければ間隔尺度です。

Q547都道府県の年次人口推移データは、どのようなデータの形でしょうか？

パネルデータです。複数の対象（都道府県）を、時間を追って（年次で）観測しているため、クロスセクションと時系列の両方の性質を兼ね備えています。

次回 1-2 量的データの分布では、量的変数を度数分布表とヒストグラムで「見える化」し、分布の形を読み取る方法を学びます。今日分けた変数の種類が、さっそく活躍しますよ。

さえ

分類、おつかれさま！　迷ったときの合言葉は2つ。「平均に意味ある？」と「2倍って言える？」。この2つを唱えれば、たいていの変数はスパッと分類できるよ。次はいよいよグラフで分布を見ていこう！

HANDWRITING — 紙に書いてインプットしよう！

このページに出てきた重要キーワードです。ページを閉じる前に、声に出しながら紙に手で書いてみてください。手を動かすと、読むだけの何倍も速く記憶に定着します。

変数
データ
質的変数（カテゴリカル変数）
量的変数（数量変数）
名義変数
順序変数
離散変数
連続変数
尺度水準
名義尺度
順序尺度
間隔尺度
比例尺度
クロスセクションデータ
時系列データ
パネルデータ