第1章 1-4 / データサイエンスの世界と行動規範

データを正しく読む力

このページで学ぶこと

世の中には数字やグラフがあふれていますが、その多くは「正しく読む」ための工夫がされていなかったり、時には意図的にミスリードを誘うものすらあります。このページでは、実数ではなく比率で比較することグラフや統計の不適切な解釈に気づく力仮説を持ってデータを見ること事象の背景・意味合いを見抜く力データが生まれる経緯を疑うこと、そしてデータを可視化して眺めることの重要性という6つの視点を扱います。

これらは、DS検定の中でも特に「社会人としてのデータリテラシー」を直接問う分野です。ニュースや職場で日々目にする数字を、一段深く読み解けるようになりましょう。

1. 実数ではなく比率で見る

「A店の解約者数は50人、B店の解約者数は20人だった」と聞くと、多くの人はA店の方が問題が大きいと感じるかもしれません。しかし、A店の会員数が5,000人、B店の会員数が200人だったとしたらどうでしょうか。単なるローデータとしての実数だけを見ても判断できない事象が大多数であり、母集団に占める割合などの比率的な指標でなければ数字の比較に意味がないことを、まず理解する必要があります。

先ほどの例で解約率を計算すると、A店は50 ÷ 5,000 = 1.0%、B店は20 ÷ 200 = 10.0%となり、実際にはB店の方がはるかに深刻な状況だとわかります。実数だけを比べていては、この逆転にまったく気づけません。母集団※1の大きさが異なる集団を比較するときは、必ず割合・比率に直してから比較するという原則を徹底しましょう。

EXAMPLE ― 実数だけでは判断を誤る例
  • 「都会の方が交通事故件数が多い」→ 人口や自動車保有台数あたりの事故率で見ると、地方の方が高いことがある
  • 「新商品Aのクレーム件数が10件、商品Bは3件」→ 販売数を考慮すると、Aは10万個中10件、Bは100個中3件で、Bの方が深刻
  • 「今月の問い合わせ件数が過去最多」→ 利用者数自体が増えているなら、1人あたりの問い合わせ率はむしろ下がっているかもしれない
POINT

数字を比較するときは、常に「その数字の分母は何か」を確認しましょう。分母(母集団の大きさ)を確認しないまま実数だけを比べるのは、データ解釈における典型的な落とし穴です。

さえちゃん
さえ

「件数」を見せられたら、まず「それって母数はいくつなの?」って聞き返す癖をつけるといいよ。この視点、DS検定でもすごくよく出てくるから覚えておいてね!

2. グラフや統計の不適切な解釈に気づく

ニュース記事やSNSでは、統計情報が図やグラフとともに紹介されることがよくあります。しかし、その解釈が必ずしも正確とは限りません。ニュース記事などで統計情報に接したときに、数字やグラフの不適切な解釈に気づくことができることは、データリテラシーの重要な要素です。

よくある不適切な解釈のパターンには、縦軸の目盛りを0から始めずに変化を実際より大きく見せる、相関関係を因果関係と混同する、都合の良い期間だけを切り取って全体の傾向であるかのように見せる、といったものがあります。こうしたグラフや主張に接したときに「本当にそう言えるのか」と立ち止まって考える姿勢が求められます。

ありがちな誤読 問題点
縦軸が0から始まっていないグラフ わずかな差が大きな変化のように誇張されて見える
「相関があるから原因だ」という主張 相関関係と因果関係は別物。第三の要因が両方に影響している可能性がある
都合の良い一部期間だけの切り取り 長期で見れば傾向が違う可能性があるのに、短期の一部だけで結論づけてしまう
EXAMPLE
  • 「アイスの売上と水難事故の件数には強い相関がある」という記事を見て、アイスが事故の原因だと即断しない(どちらも気温という第三の要因の影響を受けている)
  • 「今年は先月より20%も売上増!」というグラフを見て、縦軸の始点や、前年同月との比較も確認する
  • アンケート結果の見出しだけでなく、母数や質問文の聞き方まで確認してから解釈する
POINT

統計情報に接したら、「軸の始点」「母数」「相関と因果の別」の3点を確認する癖をつけましょう。この3点だけでも、多くのミスリードは見抜けるようになります。

3. 仮説を持ってデータを見る

データを眺めるとき、何の仮説も持たずに漫然と数字を追いかけていては、重要な発見を見落としがちです。ビジネス観点で仮説を持ってデータをみることの重要性を理解し、実践することが求められます。

仮説を持ってデータを見るとは、「おそらくこうなっているはずだ」という予想を先に立てたうえで、実際のデータがそれを支持するか、あるいは裏切るかを確認する態度のことです。ここで大切なのは、仮に仮説と異なる結果となった場合にも、それが重大な知見である可能性があると理解しておくことです。予想が外れたとき、それは「失敗」ではなく、「自分の理解が事業の実態とズレていた」という価値ある発見かもしれません。

EXAMPLE ― 仮説が外れて価値ある発見につながった例
  • 「若い世代ほどアプリの利用頻度が高いはず」という仮説で分析したところ、実は40代の利用頻度が最も高いことが判明し、想定していたターゲット層を見直すきっかけになった
  • 「価格を下げれば売上が伸びる」という仮説に反し、値下げ後も売上が変わらなかったことから、価格以外の要因(認知度不足など)が課題だと気づけた
POINT

仮説が外れたときこそ、そのデータをじっくり見直しましょう。「予想通りの結果」よりも「予想外の結果」の方が、多くの場合、価値のある発見につながります。

さえちゃん
さえ

仮説が外れたときに「あーハズレか」で終わらせちゃうの、すごくもったいないんだよね。「なんで外れたんだろう?」って考える方が、実はお宝が眠ってることが多いよ!

4. 事象の背景・意味合い(真実)を見抜く

データを比率や仮説とあわせて丁寧に見ていくと、単なる数字の増減の先にある、起きている事象の背景や意味合い(真実)を見抜くことができるようになります。これは分析の最終ゴールとも言える力です。

たとえば「特定の店舗だけ返品率が高い」というデータが出てきたとき、その表面的な数字だけを報告して終わるのではなく、「なぜその店舗だけ高いのか」を掘り下げることが真実の発見につながります。スタッフの接客説明が不十分なのか、その店舗の客層が特殊なのか、あるいは配送方法に問題があるのか。データの奥にある構造的な原因まで踏み込んで初めて、意味のある分析と言えます。

EXAMPLE
  • 「休日の来客数だけが伸び悩んでいる」というデータの裏に、実は近隣で競合店の休日限定セールが始まっていたという背景があった
  • 「20代の解約率が高い」というデータの真因を探ると、20代向けのプランだけ自動更新の案内が分かりにくいUIになっていたことが判明した

5. データが生まれる経緯を疑い、可視化して眺める

最後に、データそのものへの向き合い方について扱います。データが生み出される経緯・背景を考え、データを鵜呑みにはしないことは、データリテラシーの土台です。どんなデータにも「誰が」「どうやって」「何のために」集めたのかという背景があり、その過程で偏りや欠落が生じている可能性があります。

たとえば、店舗に設置したアンケート箱に投函された「顧客満足度アンケート」があったとします。このデータは、そもそも「わざわざアンケートに答えようと思った人」だけのデータであり、無関心な層や不満があっても書かない層の声は含まれていません。こうしたサンプリングバイアス※2の可能性を考えずにデータを鵜呑みにすると、実態とズレた結論に至ってしまいます。

そして、データの性質を理解するためには、表計算ソフトの数字の羅列を眺めるだけでなく、データを可視化し眺めて考えることの重要性も忘れてはいけません。ヒストグラムや散布図として可視化することで、数字の一覧表だけでは気づけない分布の偏り、外れ値、パターンが一目で見えてくることがあります。

EXAMPLE
  • コールセンターへの問い合わせデータは、「電話をかけてきた人」のデータであり、電話をかけずに黙って離脱した顧客の声は含まれていないことを意識する
  • Webアンケートの回答者は、そもそもインターネットやそのサービスをよく使う層に偏っている可能性を考慮する
  • 売上データを数表だけで見るのではなく、ヒストグラムにして分布の形(山が1つか2つかなど)を確認してみる
POINT

データを見たら、「このデータは誰の、どんな行動の結果として記録されているのか」を必ず自問しましょう。そして数字の一覧だけで判断せず、可視化して分布の形を自分の目で確かめる習慣をつけてください。

さえちゃん
さえ

「データがあるから正しい」って思い込んじゃうの、実はすごく危ないんだよね。そのデータがどうやって集まったものかまで想像できると、一段上のデータの読み方ができるようになるよ!

まとめ

ここまで、DS検定の出題範囲である「行動規範/データリテラシー」の内容を見てきました。数字やグラフを疑いながら、正しく読み解く力は、専門的な分析技術以前に求められる基礎体力です。最後に振り返っておきましょう。

  1. 比率で見る ― 実数だけでなく、母集団に占める割合で数字を比較する
  2. 不適切な解釈への気づき ― グラフの軸や相関・因果の混同など、統計の誤読に気づく
  3. 仮説を持って見る ― 予想と異なる結果が出ても、それを重大な知見の可能性として捉える
  4. 背景・真実を見抜く ― 数字の増減の奥にある構造的な原因まで掘り下げる
  5. データの経緯を疑う ― データがどう生まれたかを考え、鵜呑みにしない
  6. 可視化して眺める ― 数表だけでなく、グラフ化してデータの性質を目で確かめる

次のレッスンでは、「セキュリティと生成AIの基礎」を扱います。マルウェアなどのリスクへの理解と、生成AIを業務で正しく活用するための基礎知識を見ていきましょう。

脚注 ─ 用語解説
  1. 母集団 … 統計的な分析や調査の対象となる、集団全体のこと。比率を計算する際の「分母」にあたる。
  2. サンプリングバイアス … データの集め方に偏りがあることで、そのデータが母集団全体を正しく代表していない状態のこと。回答者の属性や集め方によって生じる。