質的変数と量的変数
4つの尺度を学習したら、次は質的変数と量的変数について学習していきましょう。
この記事で学習できること
- 変数とは?
- 質的変数について
- 量的変数について
まずは「変数」というキーワードに慣れましょう。
第2講座
データ分析において「変数」とは、異なる値をとることができるデータ要素のことを指します。具体的に、データセット内でどのように存在するかをイメージしていきましょう。
変数
データセットとは、行と列で構成される表形式のデータのことを意味します。
通常、データセットの「列」にあたる部分が「変数」に相当します。例えば、Excelやデータベースの表で考えると、各列には「日付」や「売上額」、「商品名」、「顧客年齢」といった異なる種類の情報が含まれています。
それらの列が、それぞれの変数に該当します。
一方、データセットの「行」は、各変数の観測値、つまりデータポイントを表しています。
売上データのセットであれば、1行が特定の日付における売上情報全体を表し、各列にはその日付、売上額、販売した商品の情報などが含まれています。
いつも何気なく見ている表も、データセットや変数、データポイントという用語を使うだけで、すごく統計学っぽくなりますよね
これをデータベース的な用語として言い換えると、列単位のデータの集まりを「フィールド」、行単位のデータの集まりを「レコード」なんて呼んだりもするので覚えておいてね
そして、これらの変数には「質的変数」と「量的変数」に分類されます。この2つの変数をそれぞれ見ていきましょう。
質的変数
順序尺度や名義尺度に分類されるデータです。
これには、出身地や血液型など、カテゴリーやラベルとして表現されるデータが含まれます。このタイプの変数は、それぞれのデータ件数をカウントして整理します。
そして全体を100%として、割合を見て差があるかを調べる分析に適しています。
量的変数
比例尺度や間隔尺度、また一部の順序尺度に分類されるデータです。
売上データや販売実績データなど、数値として表されるデータがこれに該当します。これらの変数は、計算が可能であり、数値的な分析に適しています。
尺度と変数の関係
データ分析において、変数はその尺度に基づいて分類されます。一般的に変数と尺度の対応は、以下のようになります。
- 比例尺度(量的変数)
- 間隔尺度(量的変数)
- 順序尺度(質的変数)
- 名義尺度(質的変数)
まず、比例尺度から見ていきましょう。
① 比例尺度
ゼロ地点だと、データはなしと見做されるデータです。売上・注文数・クリック率などがこちらに該当します。
② 間隔尺度
ゼロ地点でも、データが存在するデータです。気温・西暦・平均レビュー値・相関係数などがこちらに該当します
③ 順序尺度
レースの順位や教育レベル(小学校・中学校・高校・大学)などを指します。それぞれ質的変数ですが、順番に意味を持つデータのことです。
④ 名義尺度
血液型や出身地のように順番すら持たない、単なるラベルのデータです。
分析の目的によって、変数の尺度を置き換えることも可能となります。例えば、年齢データを考えてみましょう。
これは通常、量的変数として扱われますが、これを10歳ごとの年齢区分としてカテゴライズする(10代・20代・30代…)と、質的変数に変換されます。
年齢は比例尺度ですから、それを順序尺度に落とし込むことで別の分析ができるようになるわけです。
これにより、特定の年代グループに焦点を当てた分析が可能になります。
また、講座評価のように「満足」「やや満足」「普通」「やや不満」「不満」のデータラベルを、「満足」=5、「やや満足」=4…のように変換したデータに置き換えると、これは量的変数として分析が可能となります。
平均レビュー値というのを求めることができますよね。
データ分析を行う際には、まずは変数がどの尺度に属しているかを理解し、分析の目的に応じて適切な変換を行うことが大切です。これにより、データからより深い理解を得ることができ、効果的な意思決定へと繋がっていきます。
原因と結果となる変数の組み合わせ
さらに、データ分析においては、変数間の関係性を把握する必要があります。
特に、原因となる変数と結果となる変数が、どのような組み合わせで存在するのかを理解することで、適切な分析手法を選択することができます。
例えば、
「原因」×「結果」
と定義して変数を割り当てると、以下の4つの組み合わせが考えられます。
- 質的変数 × 質的変数
- 質的変数同士の関係を調べるケース
- 性別と新商品案①②③は、それぞれどのような違いがあるか?
- 質的変数 × 量的変数
- 質的変数が原因で量的変数が結果となるケース
- 各地域によって、平均収入が異なるかどうか?
- 量的変数 × 量的変数
- 量的変数同士の関係を調べるケース
- 売上と広告費の関係性があるかどうか?
- 量的変数 × 質的変数
- 量的変数が原因で質的変数が結果となるケース
- スマートフォンの利用時間経過に伴い、購入意欲が出てくるかどうか?
このような組み合わせに応じて、使用する分析手法も異なります。
これら4つのパターンに基づく分析手法については、別の記事で詳しく解説してきますので、ぜひお楽しみにお待ちください!
まとめ
第2講座では、データ分析における「変数」と、その分類である「質的変数」と「量的変数」について学びました。
- 変数
- 異なる値をとることができるデータ要素。データセット内で列として存在する
- 質的変数
- カテゴリーやラベルとして表現されるデータで、順序尺度や名義尺度に該当。計算が適用できないのが特徴
- 量的変数
- 数値として表されるデータで、比例尺度や間隔尺度、場合によっては順序尺度にも該当。計算が可能で、数値的な分析に適している
変数の分類だけでなく、分析の目的に応じて変数を異なる尺度に変換することができる点も重要です。目的に応じてグループ化することにより、データに対して多角的な視点を持つことができます。
データの特性をしっかりと把握し、目的に応じたアプローチを選ぶことが、効果的なデータ分析の鍵となります。引き続き、学習を進めていきましょう!
データの特性をしっかりと把握し、目的に合わせて適切なアプローチを選ぶことが、より良い分析結果につながります!