2021.09.15

COVARIANCE（コバリアンス）関数の使い方

Yujiro Sakaki

関数概要

COVARIANCE（コバリアンス）関数は、データの関係の深さを表す指標（共分散）を出力します。末尾につくのが「P」の場合は母集団データに対して、「S」は標本データに対して使用します。

【構文】

＝COVARIANCE.P(or S)(数値1, 数値2……)

【使用例】

＝COVARIANCE.P(or S)(B2:B100,C2:C100)
セルB2～B100のデータ群と、セルBC～C100までのデータ群の共分散を出力します。
＝COVARIANCE.P(or S)(B:B,C:C)
上記範囲は、セル結合やその他の表がなければ、列単位でも取得が可能です。

[char no=”1″ char=”さえちゃん１”]標準偏差を求めるために説明した VAR（バリアンス）関数のように、通常はこの関数を使う機会はありません。この関数は、２つのデータの関係性を知る「相関係数」という指標を知るうえでは、避けては通れない重要な関数となります。統計解析で用いる関数は、答えを一気に算出してくれますが、計算フローをちゃんと把握することが重要です。[/char]

YouTube説明

関数説明

２つのデータの関係性の深さを示す「共分散」を求めてみましょう。サンプルデータは、架空の店舗「乃木坂デイリーストア」の顧客滞在時間と、売上金額をまとめたものです。

[滞在時間]と[売上金額]に関係性があるのかを調べてみます。画面キャプチャの表示上は、8件しか表示されていませんが、実際は100件あります。

この100件のデータは、無作為に抽出したデータとなりますので、乃木坂デイリーストアの最適化調査に扱う「標本データ」として扱っていきます。

COVARIANCE関数は、[数式]タブ→関数ライブラリの[その他の関数]→[統計]の中にあります。

今回は標本データを扱うため、COVARIANCE.Sを使います。

サンプルデータのワークシートは、[滞在時間]と[売上金額]しかデータが存在していないため、ここは簡素に数式を立てるべく、列単位で範囲を取得しましょう。

２つのデータ配列を選択するだけで、そのデータの共分散の値が出てきました。

このデータが共分散の値で、データ間の関係の深さを示してくれる値なのですが、滞在時間と売上金額の単位が入ってしまっているため、読みづらい値となってしまっています。

実際の業務では、このデータだけでは関係が深いか浅いかを判別できないので、この共分散の値より単位を取り除く作業が発生します。

次のワンポイントアドバイスで、COVARIANCE関数を使った ① 共分散を導くまでの求め方と、② 共分散後の求め方 を記載しましたので、ぜひご確認ください。

さえちゃんのCOVARIANCE関数ワンポイントアドバイス

[char no=”4″ char=”さえちゃん３”]データを分析するためには、データをしっかりと料理しないといけません。そのためには、料理の仕方をしっかり覚えておく必要があります。相関係数は、データをどう料理したら出てくるか？　CORREL関数を使えば一撃で求まりますが、きちんと出力結果までの流れを知っておく必要があります。[/char]