上位・下位を取り除いた調整(トリム)平均
データの中心傾向を把握するためには、平均値がよく使われています。しかし、極端な値や外れ値が含まれる場合、平均値はそのデータの代表値としての精度を歪めてしまいます。
この記事で学習できること
- 調整平均(トリム平均)
できる限り、外れ値に影響されない平均値を出すことはできないだろうか? この記事では、それを可能にする調整平均(トリム平均)について学習していきましょう。
平均値のデメリット
よく引用されている事例でいえば、2021年時点の勤労者世帯(二人以上)の貯蓄残高では、平均値1,880万円という値が出ております。
ご結婚されている方たちの平均貯蓄残高は1,880万円。
100万円未満の世帯が約10%を占めているにも関わらずこの値となっているのは、億単位の貯蓄を持っている方たちが、全体の平均値を引っ張っているということになります。
このように、平均値は外れ値の影響を特に受けやすい代表値です。
調整(トリム)平均とは
少し話が変わりますが、講師である私はもともと競泳選手でした。100m自由形のベストタイムは、53秒3(短水路)で現役生活を終えました。52秒まで行きたかったですね。
日本選手権をはじめ、各全国大会、ジュニアの大会などでは、公式レースでの突破タイムによって出場ができるかどうかの標準タイムがあります。
例えば、100mの標準記録「50秒0」を基準としてみましょう。
このタイムはどのようにして決められているのでしょうか? あくまでタイム設定はブラックボックスなので、日本水泳連盟しか知りえないことですが、こうじゃないかなという推定ができます。
例えば、48秒~52秒まで泳げる選手が30人ぐらいいるとします。もし、いきなり46秒泳げるすごい選手が6人登場したとしましょう。
平均値で参加標準記録を作成していた場合、46秒をたたき出した選手の実績によって、標準記録が一気に上がってしまう恐れがあります。
そうなれば、その6人が引退したあと、誰も大会に出場できなくなる恐れがある、ということが起こりえます。これを解決するのが、調整(トリム)平均です。
そうならないためにも、上位の記録保持者のデータは含めずに平均値を取って、参加標準記録を決めたほうが安定します。
ただし、上位だけのデータを取り除くと、下位のデータが強調されてしまうためバランスが悪くなってしまいます。
そのため、取り除いた上位分、下位データも取り除く必要があるわけです。
このように、上位・下位●個のデータ、または上位・下位●%のデータを取り除いて平均を出すというデータの調理方法があります。
これを調整平均またはトリム平均と言います。この方法により、外れ値の影響を緩和することで、データの中心を効果的に焦点を当てることが可能になります。
調整(トリム)平均が適用されるシーン
調整(トリム)平均は、外れ値によって通常の平均値が歪められる可能性がある、さまざまなシナリオで有効です。
前述ではスポーツを例にしましたが、ほかにも以下のような場面で使用されます
- 給与データの分析
高額な給与をもらっている少数の人々が、平均値を大きく上げてしまう可能性があるため、トリム平均を使用してより代表的な給与水準を把握します。 - 品質管理
製品の品質評価で、極端に悪い製品や良い製品のデータを排除してから平均を取ることで、製造プロセスの一般的な品質をより正確に評価できます。
こういうのが調整(トリム)平均が必要となる一例ですね。
まとめ
調整(トリム)平均の最大の利点は、外れ値の影響を受けにくいことにあります。これにより、データの中心傾向をより正確に反映することができます。しかし、データの一部を無視するため、除外されるデータの選択には注意が必要です。
また、どのデータを除外するかによって結果が大きく変わる可能性があるため、分析の目的に応じて適切な調整(トリム)率を選択することが重要です。
以上、調整(トリム)平均についての内容でした。次は相関のお話に移りましょう。