可視化の方向性と軸出し
第5章では「データ可視化」を扱います。可視化と聞くと、きれいなグラフの作り方をイメージするかもしれませんが、その前段階にある「何のために可視化するのか」「何を軸にするのか」という設計のほうがずっと重要です。このページでは、可視化の目的がどれほど幅広いかを整理したうえで、散布図の軸出しと積み上げ縦棒グラフの層化(比較軸)の選び方という、DS検定でも重要度の高い2つの技術を身につけます。
グラフを描き始める前に「何を、何と比べて見せたいのか」を決める力。これが第5章全体を通じての土台になります。
1. 可視化の目的は「現場の作業支援」から「大量データの関連性発見」まで幅広い
多くの人が「データ可視化」と聞いて思い浮かべるのは、会議資料に貼る棒グラフや円グラフかもしれません。しかし、DS検定が扱う可視化※1の目的は、それよりずっと広い範囲をカバーしています。まず押さえておきたいのは、可視化における目的の広がりそのものです。
片方の極には、日々の業務をその場で支えるための可視化があります。たとえば工場のラインで機械の稼働状況をモニター表示し、異常があればすぐ気づけるようにするダッシュボードです。これは「今この瞬間、現場の作業者が判断を誤らないようにする」ことが目的で、グラフは単純で、瞬時に読み取れることが最優先されます。
もう片方の極には、ビッグデータの中に埋もれた要素間の関連性を、探索的かつダイナミックに表示する可視化があります。数百万件規模の顧客データから、商品同士の購買パターンをネットワーク図でぐるぐる動かしながら眺めたり、多変量のセンサーデータをインタラクティブなダッシュボードで自由に絞り込んで探ったりする使い方です。ここでの主役はグラフを見る「作業者」ではなく、仮説を探す「分析者」であり、目的は「まだ気づいていない関係性を発見すること」です。
| 観点 | 現場の作業支援に近い可視化 | ビッグデータの関連性発見に近い可視化 |
|---|---|---|
| 主な利用者 | 現場の作業者・オペレーター | データ分析者・企画担当 |
| 目的 | すぐ気づく、すぐ判断する | 隠れた関係性・パターンを探る |
| グラフの例 | 稼働状況モニター、単純な棒グラフ | ネットワーク図、多変量ダッシュボード |
| 操作性 | 基本は見るだけ(静的) | 絞り込み・拡大縮小などダイナミックな操作 |
- コールセンターの受電待ち件数をリアルタイムでモニターに表示し、混雑時にすぐ応援を呼べるようにする(現場の作業支援)
- ECサイトの数百万件の購買履歴から、「一緒に買われやすい商品の組み合わせ」をネットワーク図で探索する(関連性の発見)
- 月次の経営会議で使う、売上と利益率の推移をまとめた定型レポート(その中間、意思決定支援)
可視化の目的は一様ではありません。「誰が」「何のために」そのグラフを見るのかによって、適切な複雑さも、更新頻度も、インタラクティブ性も変わってきます。作り始める前に、この目的の広がりのどのあたりを狙っているのかを意識しましょう。
可視化って「きれいなグラフを描くこと」だと思われがちだけど、DS検定的には「何のために」「誰のために」がもっと大事なんだよね。ここを押さえておくと、あとの章がぐっと分かりやすくなるよ!
2. 散布図の軸出し ― 縦軸・横軸の候補をどう洗い出すか
可視化の目的が定まったら、次に必要なのが「何を軸にするか」を決める作業です。これを軸出し※2と呼びます。とくに散布図※3は、2つの量的変数の関係を見るためのグラフですが、「縦軸と横軸に何を置くか」を誤ると、意味のある関係性を見逃してしまいます。
軸出しの基本は、「目的(明らかにしたい問い)」と「手元にあるデータの変数」を突き合わせて、候補を複数洗い出すことです。1本の散布図で終わらせず、いくつかの組み合わせを試してみる姿勢が重要になります。
たとえば、ECサイトの「購入率を上げたい」という目的があったとします。このとき、横軸の候補として「サイト滞在時間」「閲覧ページ数」「広告経由か自然検索経由か」「訪問時刻」などが考えられます。縦軸は目的に直結する「購入率」や「カート追加率」が基本の候補になりますが、それだけでなく「平均購入金額」を縦軸にした散布図も作ってみることで、また違う関係性が見えてくるかもしれません。
- 目的:「どんな来店客が高単価商品を買うか」→ 横軸候補「年齢」「来店回数」「滞在時間」、縦軸候補「購入金額」「購入点数」
- 目的:「広告費をどこに投下すべきか」→ 横軸候補「媒体別広告費」、縦軸候補「新規顧客獲得数」「獲得単価」
- 目的:「気温と売上の関係を知りたい」→ 横軸候補「最高気温」「湿度」、縦軸候補「アイス売上」「ホット飲料売上」
注意したいのは、軸出しの候補は「量的変数どうし」に限られるという点です。散布図は本来、2つの量的変数の関係を視覚化するグラフなので、性別やカテゴリのような質的変数をそのまま軸に置くことはできません。質的な違いを見たい場合は、色分けやマーカーの形を変えるといった形で散布図に「第3の軸」として加えるか、後述する層化の考え方を使います。
軸出しでは「目的に対して意味のある候補を複数洗い出し、実際に描いて比較する」姿勢が評価されます。最初に思いついた1組の軸だけで結論を出さず、他の候補も試すクセをつけましょう。
散布図の軸出しは「とりあえず手元にある数字を2つ選ぶ」んじゃなくて、「目的から逆算して候補を出す」のがコツだよ。試験でも「軸の候補を適切に洗い出せるか」がそのまま問われるから、この考え方を覚えておいてね。
3. 積み上げ縦棒グラフの層化 ― 比較軸をどう選ぶか
散布図が「2つの量的変数の関係」を見るのに対し、積み上げ縦棒グラフ※4は「全体の内訳(構成)」を比較するのに向いたグラフです。ここで重要になるのが、層化※5、つまり「どの属性で積み上げの内訳を区切るか」という比較軸の選び方です。
たとえば、月別の売上を積み上げ縦棒グラフで表現するとき、内訳を「商品カテゴリ別」にするのか、「店舗別」にするのか、「新規顧客・既存顧客別」にするのかで、グラフから読み取れる意味合いはまったく変わります。層化の選択は、散布図の軸出しと同様に「その可視化で何を明らかにしたいか」という目的から逆算して決める必要があります。
- 「新商品の貢献度を見せたい」→ 商品カテゴリ別に層化した積み上げ縦棒グラフ
- 「店舗ごとの好不調を見せたい」→ 店舗別に層化した積み上げ縦棒グラフ
- 「新規顧客の獲得が進んでいるか見せたい」→ 新規・既存顧客別に層化した積み上げ縦棒グラフ
層化の候補を選ぶときは、積み上げる区分の数にも注意が必要です。区分が多すぎると色の判別が難しくなり、かえって何も読み取れないグラフになってしまいます。目的に照らして本当に見せたい区分を絞り込み、必要であれば「その他」としてまとめることも検討しましょう。
積み上げ縦棒グラフの層化(比較軸)を選ぶときも、散布図の軸出しと同じく「目的やデータに応じて適切な候補を洗い出す」ことが評価対象です。1つの層化案に固執せず、「他にどんな軸で区切れば目的に近づけるか」を複数検討する姿勢が大切です。
同じ「月別売上の積み上げ棒グラフ」でも、内訳を商品で切るか店舗で切るかで、まったく違うことが見えてくるんだよね。「何を比較したいんだっけ?」を忘れずに層化の軸を選ぼう。
まとめ
このページでは、可視化の設計にあたって最初に押さえるべき3つのポイントを見てきました。最後に振り返っておきましょう。
- 可視化の目的の広がり ― 現場の作業支援からビッグデータ中の関連性の発見まで、可視化の目的は幅広いことを理解する
- 散布図の軸出し ― 目的やデータに応じて、縦軸・横軸の候補を複数洗い出し、比較検討する
- 積み上げ縦棒グラフの層化 ― 属性の選択など、目的やデータに応じて適切な比較軸の候補を出す
次のレッスンでは、可視化の「方向性」が決まったあとに必要になる、データ加工の技術を扱います。サンプリングや統計量を使ったデータの整理は、グラフを描く前の重要な下ごしらえです。引き続き見ていきましょう。
- 可視化 … データを図やグラフの形にして、人が直感的に理解できるようにすること。英語ではビジュアライゼーション(Visualization)と呼ばれる。↩
- 軸出し … グラフの縦軸・横軸に何の変数を置くかを検討し、候補を洗い出す作業のこと。↩
- 散布図 … 2つの量的変数の関係を、点の集まりとして視覚化するグラフ。点の散らばり方から相関関係の有無や強さを読み取れる。↩
- 積み上げ縦棒グラフ … 棒グラフの各棒を、内訳の区分ごとに積み上げて表現したグラフ。全体量と内訳の構成を同時に示せる。↩
- 層化 … データをある属性(区分)によってグループ分けし、グループごとに比較・分析できるようにすること。比較軸とほぼ同じ意味で使われる。↩