第8章 8-9 / データエンジニアリング

AIサービスとコーディング支援

このページで学ぶこと

自分でゼロからAIモデルを作らなくても、他社が提供する学習済みのAI機能を「借りて使う」ことができる時代になりました。このページでは、Web API経由での学習済みモデルの活用、音声認識APIの使い分け、生成AI・LLMを使ったコーディング支援(コード生成・レビュー・テストデータ作成)、そしてAIサービスを選ぶ際の判断軸という4つのテーマを扱います。

「AIを自分で作る」だけでなく「すでにあるAIサービスを賢く組み合わせて使う」という発想は、DS検定でも実務でも重要度が増している分野です。

1. 学習済みモデルをWeb APIで呼び出す

画像認識や自然言語処理といった高度なAI機能を、自社でモデルから開発しなくても、他社サービスが提供するWeb API(REST)^※1を呼び出すだけで利用できます。文章がポジティブかネガティブかを判定する感情分析^※2のような機能も、その代表例です。たとえるなら、自分で工場を建てて部品を作る代わりに、専門メーカーに発注して完成した部品を仕入れるようなイメージです。あらかじめ大量のデータで学習済みのモデルを、必要な分だけ利用料を払って使えるため、開発期間もコストも大きく抑えられます。

POST https://api.example.com/v1/sentiment
Body: { "text": "この商品、期待以上でした！" }

Response: { "sentiment": "positive", "score": 0.92 }

上の例は、文章を送ると感情(ポジティブ/ネガティブ)を判定して返してくれるAPIのイメージです。このように、他サービスが提供する分析機能や学習済み予測モデルをREST APIで呼び出し、その分析結果を自社サービスに組み込んで活用することができます。

EXAMPLE

コールセンターの通話内容をテキスト化し、感情分析APIでクレームの深刻度を自動判定する
ECサイトの商品画像をAPIに送り、画像認識サービスでカテゴリを自動タグ付けする
問い合わせフォームの文章を翻訳APIに通し、海外拠点にそのまま共有する

POINT

「自社でモデルを一から作る」か「既存のAPIサービスを使う」かは、精度・コスト・開発期間・データの機密性などを踏まえて選ぶ経営判断です。DS検定では、この使い分けの発想そのものが問われます。

さえ

「AIを作る人」より「AIサービスを組み合わせて使いこなす人」のほうが実は身近な存在なんだよね。API1本で高度な機能が使える時代だから、まずは活用の発想を身につけよう！

2. 音声認識APIを目的に応じて選ぶ

音声データを扱うAI機能にも、目的別にさまざまなAPIがあります。代表的なものがSpeech to Text^※3で、話した音声をテキストに変換する機能です。逆に、テキストを音声に変換する機能はText to Speechと呼ばれます。目的に応じてどちらの機能、あるいはどのサービスを適用するかを選択できることが求められます。

たとえば、単に「音声を文字に起こしたい」だけなのか、「話者ごとに発言を分けたい」のか、「特定の専門用語(医療用語や業界用語など)を高い精度で認識したい」のかによって、選ぶべきAPIやサービスの設定は変わってきます。目的を明確にしないまま「とりあえず音声認識っぽいAPIを使う」と、実際の業務に必要な精度が得られないことがあります。

EXAMPLE

会議の録音データをSpeech to Text APIでテキスト化し、議事録作成の手間を減らす
コールセンターの通話をリアルタイムでテキスト化し、オペレーターの応対支援に使う
視覚に障害のある利用者向けに、Webサイトの文章をText to SpeechでAudio化する

POINT

音声認識の精度は、話者の数、方言・専門用語の有無、雑音の多さなどによって変わります。目的や利用シーンに合わせて適切なAPIを選ぶ視点が大切です。

3. LLMによるコーディング支援 ― 生成・レビュー・テストデータ作成

近年急速に普及したのが、LLM^※4(大規模言語モデル)を活用したコーディング支援です。代表的な活用場面は3つあります。1つ目はコードの作成・修正・改良です。「〇〇をするPythonコードを書いて」と指示するだけで、たたき台となるコードを生成してくれます。データ分析やシステム開発のコードを一から書く負担を大きく減らせます。

2つ目はソースコードのレビュー・チェックです。AIにコードを読み込ませることで、バグの可能性がある箇所や、処理速度を改善できそうな箇所を指摘してもらい、プログラムのバグ修正や性能改善に役立てることができます。3つ目はテスト用・分析検証用のダミーデータの生成です。本番の個人情報を含むデータをそのままテストに使うのはリスクがあるため、LLMに「架空の顧客データを20件作って」と指示し、実データに近い形式のダミーデータを用意することができます。

# LLMへの指示イメージ
"氏名・年齢・購入金額を持つ、架空の顧客データを
CSV形式で20件生成してください。個人が特定できる
実在の情報は含めないでください。"

活用場面	できること
コード生成・修正・改良	目的を伝えるだけでコードのたたき台を作成できる
コードレビュー・バグチェック	バグの可能性や性能改善のヒントを指摘してもらえる
ダミーデータ生成	実データを使わずにテスト・検証用データを用意できる

EXAMPLE

SQLの副問合せがうまく書けないとき、LLMに目的を伝えて叩き台を作ってもらい、自分で内容を確認・修正する
本番リリース前に、AIレビュー機能を使ってコードの潜在的なバグを事前にチェックする
新機能のテストのために、実在しない架空の注文データをLLMで大量に生成する

POINT

LLMが生成したコードやレビュー結果は、そのまま鵜呑みにせず、必ず人間が内容を確認・検証することが前提です。生成AIは強力な「たたき台作成ツール」であり、最終判断は人間が行います。

さえ

LLMをコーディングの「優秀なアシスタント」として使うのがコツ。コード生成・レビュー・ダミーデータ作成の3つの活用パターン、試験でも実務でもよく出てくるから覚えておいてね！

4. AIサービスを選ぶときの判断軸

ここまで見てきたように、AIサービスは「学習済みモデルのAPI」「音声認識API」「LLMによるコーディング支援」など、目的ごとに数多くの選択肢があります。実際の業務でどのサービスを選ぶかを判断するときは、精度の高さだけでなく、いくつかの観点をあわせて確認することが大切です。

判断軸	確認するポイント
コスト	呼び出し回数やデータ量に応じた従量課金か、月額固定か
データの機密性	顧客の個人情報などをそのまま外部サービスに送ってよいか
精度・対応言語	日本語や業界特有の専門用語にどこまで対応しているか
継続性	サービスの仕様変更や終了リスクにどう備えるか

EXAMPLE

顧客の個人情報を含むデータは、外部APIに送る前に匿名化・マスキング処理を行ってから利用する
小規模な検証段階ではLLMのコード生成をそのまま使い、本番リリース前には必ず人間がレビューする体制にする

さえ

便利なAIサービスほど「本当にこのデータを渡していいんだっけ?」を一呼吸おいて確認する習慣が大事。機密性への配慮は、次のレッスンのセキュリティの話にもつながるよ。

まとめ

このページでは、既存のAIサービスと生成AIをデータエンジニアリングの現場で活用する視点を見てきました。最後に振り返っておきましょう。

学習済みモデルのAPI活用 ― 自社開発ではなく、他社サービスが提供するWeb API(REST)を呼び出して分析結果を活用する
音声認識APIの使い分け ― Speech to Textなど、目的に応じて適切な音声関連APIを選択する
AIによるコードレビュー ― バグ修正・性能改善のためにAIのレビュー・チェック機能を活用する
LLMによるコード作成・改良 ― 開発・分析のためのコードをLLMで作成・修正・改良する
LLMによるダミーデータ生成 ― テストや検証のための架空データをLLMで生成する
AIサービスを選ぶ判断軸 ― コスト・データの機密性・精度・継続性などを踏まえてサービスを選択する

次のレッスンでは、こうした便利なツールを安全に使うための土台となる、ITセキュリティの基礎知識を扱います。

脚注 ─ 用語解説

Web API(REST) … インターネット経由で、決まった手順(URLへのアクセスなど)にもとづきデータや機能をやり取りする仕組み。RESTはその代表的な設計の考え方。↩
感情分析 … 文章がポジティブな内容かネガティブな内容かなど、書き手の感情や評価の傾向をAIが自動で判定する技術。↩
Speech to Text … 話し言葉の音声データを文字(テキスト)に変換する技術。議事録作成やコールセンターの応対記録などに使われる。↩
LLM(大規模言語モデル) … 大量の文章データを学習し、人間のような自然な文章の生成・理解ができるAIモデル。Large Language Modelの略。↩