第1章 1-5 / データサイエンスの世界と行動規範

セキュリティと生成AIの基礎

このページで学ぶこと

第1章の最後のテーマは、データを扱ううえで避けて通れないセキュリティと、いまや実務に欠かせない存在になった生成AIです。このページでは、マルウェアによる消失・漏洩・サービス停止といったリスクの種類を理解したうえで、生成AIが持つHallucination(ハルシネーション)という根本的な弱点、そしてそれに気づくための具体的なアクション、さらに生成AIの仕組みを踏まえた業務での活用方法までを扱います。

生成AIは便利な道具ですが、「万能で常に正しい」わけではありません。正しく警戒しながら正しく使いこなす力を、この章の締めくくりとして身につけましょう。

1. マルウェアによる深刻なリスク ― 消失・漏洩・サービス停止

データを扱う仕事をする以上、マルウェア^※1による被害と無縁ではいられません。マルウェアなどによる深刻なリスクの種類として、代表的なものにデータの消失、情報の漏洩、サービスの停止の3つがあります。それぞれの特徴を理解しておきましょう。

リスクの種類	内容	代表例
データの消失	データが破壊され、業務に必要な情報が使えなくなる	ランサムウェア^※2によるファイルの暗号化・破壊
情報の漏洩	個人情報や機密情報が外部に流出する	顧客データベースへの不正アクセスによる情報流出
サービスの停止	システムが機能しなくなり、事業が継続できなくなる	DDoS攻撃^※3による大量アクセスでサーバーがダウンする

これら3つのリスクは独立して起きることもあれば、連鎖して起きることもあります。たとえばランサムウェアに感染すると、データが暗号化されて使えなくなる(消失)だけでなく、身代金を払わなければ情報を公開すると脅される(漏洩の恐れ)こともあり、さらに業務システムが停止して事業活動そのものがストップする(サービス停止)という、複合的な被害に発展するケースも珍しくありません。

EXAMPLE

取引先を装った偽メールの添付ファイルを開いてしまい、社内システムがランサムウェアに感染して顧客データが暗号化される
ECサイトの脆弱性を突かれ、会員のクレジットカード情報が外部に流出する
大量のアクセスを送りつけられたことでWebサイトがダウンし、丸1日注文を受け付けられなくなる

POINT

データサイエンティストは分析の専門家であると同時に、日常的に大量のデータを扱う立場でもあります。自分が扱うデータが「消失」「漏洩」「停止」のどのリスクにさらされているかを意識し、不審なファイルやリンクを不用意に開かないなど、基本的な防御意識を持ちましょう。

さえ

セキュリティって「情報システム部の仕事」って思われがちだけど、データを扱う人みんなに関係がある話なんだよね。消失・漏洩・停止の3つ、セットで覚えておこう！

2. 生成AIのHallucination(幻覚)を知る

次に、生成AIの活用にあたって絶対に押さえておくべき弱点を扱います。それがHallucination(ハルシネーション)^※4です。大規模言語モデル(LLM)においては、事実と異なる内容が、さも正しいかのように生成されることがあるという現象で、日本語では「幻覚」と訳されます。

重要なのは、Hallucinationが「稀に起きる不具合」ではなく、大規模言語モデルの仕組み上、根本的に避けることができない性質であるという理解です。生成AIは、学習した大量の文章データから「次に来る可能性が高い言葉」を統計的に予測して文章を生成する仕組みを持っています。事実データベースを検索して正解を引き出しているわけではないため、もっともらしい文体で、実際には存在しない情報や誤った情報を生成してしまうことがあります。この性質を理解したうえで、利用に際しては出力を鵜呑みにしないという注意が欠かせません。

EXAMPLE ― Hallucinationの具体例

存在しない論文のタイトルや著者名を、いかにも実在するかのように生成して回答する
実際の統計データとは異なる数値を、確信を持った口調で提示する
企業の沿革を尋ねたところ、実際にはない出来事や年号を事実のように織り交ぜて説明する

POINT

Hallucinationは生成AIの「バグ」ではなく「仕組み上の宿命」です。だからこそ、生成AIの回答をそのまま最終成果物として使わないという姿勢が、業務での活用における大前提になります。

さえ

生成AIって自信満々に間違ったことを言うことがあるから、逆にちょっと怖いんだよね…。「賢いけど時々嘘をつく後輩」くらいの距離感で付き合うのがちょうどいいと思う！

3. Hallucinationに気づくためのアクション

Hallucinationが避けられない以上、大切なのは「気づく力」です。Hallucinationが起きていることに気づくための適切なアクションとして、いくつかの具体的な方法を知っておきましょう。

アクション	内容
検索によるリサーチとの比較	生成AIの回答を、実際の検索エンジンや一次資料の情報と突き合わせて確認する
他のLLMの出力結果との比較	複数の生成AIに同じ質問を投げ、回答が一致するか、食い違う部分がないかを確認する
追加情報を付与した際の変化を見る	正確な情報を入力(プロンプト)に追加で与え、出力結果がどう変わるかを比較し、モデルが情報をきちんと踏まえているかを確認する

EXAMPLE

生成AIが答えた統計数値について、公的機関の統計データを検索して照合する
同じ質問を2つの異なる生成AIサービスに投げてみて、回答内容が大きく食い違わないか確認する
「以下の正確なデータをもとに回答してください」と一次資料を貼り付けたうえで再度質問し、回答の変化を確認する

これらのアクションに共通するのは、生成AI単体を「唯一の情報源」にしないという考え方です。複数の情報源、複数のモデル、そして自分自身の一次情報への理解を組み合わせることで、Hallucinationの影響を最小限に抑えることができます。

POINT

「検索での裏取り」「複数モデルでの比較」「追加情報を与えたときの反応の変化」の3つのアクションは、DS検定でも問われやすいポイントです。それぞれ具体的にイメージできるようにしておきましょう。

4. 生成AIの仕組みを理解し、業務に活用する

最後に、リスクだけでなく活用の側面も扱います。生成AIの仕組みを理解し、業務や課題解決に活用できることも、これからのビジネスパーソンに求められる基礎知識です。

生成AIは、大量のテキストデータを学習し、与えられた文脈に対して統計的に「もっともらしい続き」を生成する仕組みを持っています。この特性を理解していれば、生成AIが得意なこと(文章の要約、アイデアの壁打ち、定型文の作成、コードの下書きなど)と、苦手なこと(厳密な数値計算、最新の一次情報の把握、事実確認)を切り分けて活用できるようになります。

EXAMPLE ― 業務での生成AI活用

顧客アンケートの自由記述欄を大量に読み込ませ、意見の傾向を要約させたうえで、自分の目でも重要な回答を確認する
分析レポートの構成案や、分かりやすい説明の言い回しを複数パターン提案してもらう
分析に使うプログラムコードの草案を生成してもらい、実行結果と照らし合わせて自分で検証する
会議の議事録を要約させ、決定事項と論点を整理する

重要なのは、生成AIを「思考停止で丸投げする相手」ではなく、「自分の思考を加速させる壁打ち相手」として位置づけることです。Hallucinationのリスクを理解したうえで、検証のプロセスを自分自身の業務フローに組み込むことができれば、生成AIは非常に強力な武器になります。

POINT

生成AIの活用は「使うか使わないか」ではなく、「仕組みを理解したうえで、どう検証プロセスを組み込みながら使うか」が問われる時代になっています。DS検定でも、この視点での理解が問われます。

さえ

生成AIって怖がって使わないのはもったいないし、逆に信じすぎるのも危ない。「便利な相棒だけど、最後の確認は自分でする」っていうバランス感覚が一番大事なんだと思う！

まとめ

ここまで、DS検定の出題範囲である「行動規範／セキュリティと生成AIの基礎」の内容を見てきました。これで第1章「データサイエンスの世界と行動規範」の全レッスンが完了です。最後に、このレッスンの内容を振り返っておきましょう。

マルウェアのリスク ― データの消失、情報の漏洩、サービスの停止という3種類の深刻なリスクを理解する
Hallucinationの理解 ― 大規模言語モデルが事実と異なる内容を正しいかのように生成することがあり、これが根本的に避けられない性質だと知る
Hallucinationへの気づき方 ― 検索での裏取り、複数モデルの比較、追加情報付与時の変化の確認といったアクションを実践する
生成AIの活用 ― 仕組みを理解したうえで、得意・不得意を見極めて業務や課題解決に活かす

第1章では、データドリブンな考え方から始まり、倫理、論理的思考、データリテラシー、そしてセキュリティと生成AIまで、データサイエンティストの土台となる「行動規範」を一通り見てきました。ここまでの内容は、この後の章で数学・統計・機械学習といった専門知識を学ぶうえでも、常に立ち返るべき基本姿勢になります。章末の確認問題で、理解を定着させましょう。

脚注 ─ 用語解説

マルウェア … コンピュータやネットワークに害を及ぼすことを目的として作られた悪意のあるソフトウェアの総称。ウイルスやランサムウェアなどを含む。↩
ランサムウェア … 感染したコンピュータ内のデータを暗号化するなどして使えなくし、復旧と引き換えに身代金(ランサム)を要求するマルウェアの一種。↩
DDoS攻撃 … 複数のコンピュータから特定のサーバーに対して大量のアクセスを同時に送りつけ、サービスを提供できない状態に追い込む攻撃手法。↩
Hallucination(ハルシネーション) … 大規模言語モデル(LLM)が、事実と異なる内容をもっともらしく生成してしまう現象。「幻覚」と訳される。モデルの仕組み上、根本的に避けることが難しいとされる。↩

CHECK TEST

第1章の内容を確認問題でおさらいしよう

「データドリブン思考」から「セキュリティと生成AI」まで、第1章全体から4択10問。1問ずつ答え合わせをしながら理解度をチェックできます。

第1章確認問題に挑戦する →