基本チャートの使い分け
ここからは、実際にグラフを描くときの「表現・実装」の技法に入ります。DS検定の出題範囲は幅広いため、このページと次のレッスン(5-4)の2本にまたがって扱います。このページ(5-3)では、可視化の重要性そのものの理解、データインク比という情報濃度の考え方、軸表現の基礎(Y軸を0から始める原則)、そして比較・構成・分布・変化という目的別に見た1〜3次元の基本チャートの使い分けを扱います。
次のレッスン(5-4)では、強調表現の効果、アニメーション表現、多変量の可視化手法という、より高度な表現技法を扱います。まずはグラフ表現の土台となる基本から押さえましょう。
1. なぜ可視化するのか ― 専門家以外に伝える力
データサイエンティストの仕事は、分析して終わりではありません。分析した結果を、統計や専門知識を持たない人にも理解してもらい、意思決定に活かしてもらって初めて価値が生まれます。ここで欠かせないのが、データ解析部門以外の方に、データの意味を可視化して伝える重要性を理解することです。
どれほど精緻な分析をしても、数字の羅列や難解な統計用語だけで報告書を作ってしまうと、経営層や現場の担当者には伝わりません。逆に、適切なグラフ1枚があれば、専門知識がなくても一瞬で状況を把握してもらえます。可視化は、分析結果と意思決定者をつなぐ「翻訳」の役割を果たしていると言えます。
- 回帰分析の係数の表をそのまま見せるのではなく、「この要因が効いている」ことが分かる棒グラフにする
- クラスタリングの結果を数値のクラスタIDのまま報告せず、散布図で色分けして視覚的に見せる
- 経営会議では細かい検定結果よりも、傾向がひと目で分かるシンプルなグラフを優先する
分析結果ってどんなに正しくても、伝わらなきゃ意味がないんだよね。可視化は「専門家じゃない人にも一瞬で伝える」ための技術だって思うと、力の入れどころが分かってくるよ。
2. 情報濃度を判断する ― データインク比という考え方
伝わる可視化を作るうえで重要な考え方が、データインク比※1です。これは、グラフを構成する要素(インク・ピクセル)のうち、実際にデータの意味を伝えるために使われている割合を指す考え方です。統計学者エドワード・タフティが提唱した概念で、比率が高いほど無駄のない、伝わりやすいグラフだとされます。
装飾的な背景、過剰な3D効果、不要なグリッド線、意味のない影付きなど、データの意味と関係のない要素を「インク」に加えれば加えるほど、データインク比は下がります。情報提示の相手や場に応じて、適切な情報濃度を判断できることが重要です。経営会議で1枚見せるスライドなら、思い切って装飾を削ぎ落としたシンプルなグラフが適切ですし、じっくり読み込む分析レポートであれば、多少の補助線や注釈があってもよい場合があります。
データインク比は「グラフの中で、データを伝えることに直接貢献している要素の割合」という考え方です。グリッド線・枠・影・過剰な色使いなど、意味を持たない装飾は情報濃度を下げます。相手や場に応じて、削れる要素は削りましょう。
3. 軸表現の基礎 ― Y軸は「0」から始めるのが原則
グラフ表現でもっとも基本的でありながら、実務で軽視されがちなルールが、軸表現です。とくにコラムチャート※2(縦棒グラフ)では、Y軸の基準点は「0」からを原則とし、軸を切らないことが重要です。これは不必要な誇張を避けるための、もっとも基礎的な作法です。
棒グラフは、棒の「高さ」で数量を表現するグラフです。高さによる比較は、ゼロを基準にしたときにだけ正しく機能します。もしY軸の下限を0以外(たとえば100)にしてしまうと、わずかな差が実際よりも何倍も大きな差であるかのように誇張されて見えてしまいます。
ただし、この原則には例外もあります。株価や気温のように、値の絶対量ではなく「変化そのもの」を追うことが目的の折れ線グラフでは、軸を0から始めると変化が見えにくくなる場合があります。原則が適用されるのは、あくまで棒の高さで絶対量を比較するグラフの場合であることを押さえておきましょう。
「コラムチャートのY軸の基準点は0からを原則とし、軸を切らない」という不必要な誇張を避けるルールは、DS検定で頻出のポイントです。棒グラフを見たとき・作るときは、まずY軸が0から始まっているかを確認するクセをつけましょう。
ニュースとかで「急成長!」って煽ってる棒グラフ、軸を確認すると意外と横ばいだったりするんだよね…。試験でも軸を切ったグラフの問題はひっかけとしてよく出るから、要注意だよ。
4. 目的別に見る、1〜3次元チャートの選び方
基本チャートを使い分けるコツは、「何を目的にした比較か」を先に決めることです。DS検定では、目的を大きく比較・構成・分布・変化・関連性に整理し、それぞれに適したチャートをBIツールやスプレッドシートで選べることが求められます。
| 目的 | 説明 | 代表的なチャート |
|---|---|---|
| 比較 | 複数の項目の大小を比べる | 棒グラフ、レーダーチャート |
| 構成 | 全体に対する内訳・割合を見る | 円グラフ、帯グラフ、積み上げ縦棒グラフ |
| 分布 | データの散らばり方・偏りを見る | ヒストグラム、箱ひげ図 |
| 変化 | 時間の経過にともなう推移を見る | 折れ線グラフ、面グラフ |
| 関連性 | 2つの変数がどう関係しているかを見る | 散布図 |
次元の数も選択の基準になります。1次元(1つの変数の分布)ならヒストグラムや箱ひげ図、2次元(2変数の関係)なら散布図や2軸の折れ線グラフ、3次元(3変数の関係)ならバブルチャート※3(散布図に色やサイズを加えたもの)が候補になります。ExcelやGoogleスプレッドシートといった身近なツール、あるいはTableauやPower BIのようなBIツール※4でも、これらの基本チャートはメニューから簡単に選んで作成できます。大切なのは、ツールの使い方以前に「目的にはどのチャートが合っているか」を判断できることです。
- 「支店ごとの売上を比較したい」→ 比較が目的なので棒グラフ
- 「顧客層の内訳(年代別構成)を見せたい」→ 構成が目的なので円グラフか帯グラフ
- 「テストの点数がどんな分布か知りたい」→ 分布が目的なのでヒストグラム
- 「月次売上の推移を見せたい」→ 変化が目的なので折れ線グラフ
- 「価格・売上・利益率の3つの関係を1枚で見たい」→ 3次元の比較なのでバブルチャート
1〜3次元の比較において、目的(比較・構成・分布・変化など)に応じてBIツールやスプレッドシートで図表化できることが、DS検定でも重要視されるスキルです。まず「比較・構成・分布・変化・関連性のどれを見せたいか」を自問し、それから適したチャートを選びましょう。
「このデータ、何のグラフにしよう?」って迷ったら、まず「比較・構成・分布・変化」のどれを見せたいのかを自分に聞いてみて。目的さえ決まれば、チャートの種類は自然と絞られてくるよ。
まとめ
このページでは、基本チャートを使いこなすための土台となる4つのポイントを見てきました。最後に振り返っておきましょう。
- 可視化を伝える重要性 ― データ解析部門以外の方にも意味を伝えるために可視化を使う
- データインク比 ― 情報提示の相手や場に応じて、適切な情報濃度を判断する
- 軸表現の基礎 ― コラムチャートのY軸は「0」から始めるのが原則で、不必要な誇張を避ける
- 目的別のチャート選び ― 比較・構成・分布・変化・関連性という目的に応じて、1〜3次元の基本チャートを使い分ける
次のレッスン(5-4)では、強調表現の効果とその落とし穴、アニメーションによる変化の可視化、そして多変量データを扱う高度な可視化手法を見ていきます。基本を押さえたところで、表現の幅を広げていきましょう。
- データインク比 … グラフを構成する要素(インク・ピクセル)のうち、実際にデータの意味を伝えるために使われている割合を示す考え方。統計学者エドワード・タフティが提唱した。↩
- コラムチャート … 縦に伸びる棒で数量を表現するグラフ(縦棒グラフ)のこと。棒の高さで数量を比較するため、Y軸の基準点(0)の扱いがとくに重要になる。↩
- バブルチャート … 散布図の点(バブル)の大きさに、3つ目の変数の値を対応させて表現するグラフ。2次元の散布図を3次元に拡張したものと言える。↩
- BIツール … Business Intelligence(ビジネスインテリジェンス)ツールの略。データを集計・分析し、グラフやダッシュボードとして可視化するためのソフトウェア。Tableau、Power BIなどが代表例。↩