前回の連載に引き続き、今回も「グループ化」の使い方を紹介していこう。今回は「平均」を自動集計するときの注意点について解説する。各データを平均した集計表の作成は特に難しくないが、その結果は「何を平均したものなのか?」に注意しておく必要がある。具体的な例を紹介していこう。
「グループ化」で平均したときの失敗例
「グループ化」コマンドを使って、各データの「平均」を集計したい場合もあるだろう。このとき、「集計方法に“平均”を選択すればよい」と安易に考えてしまうと、的外れな集計結果を算出してしまう恐れがある。ということで、今回は「平均」を求めるときの注意点を紹介していこう。
今回も、前回と同じデータ表を使って具体的な例を紹介していく。以下の図は、あるハンバーガー店の売上データを「Power Query エディター」に取得したものだ。それぞれのデータは、各日に販売した「数量」と「売上」が提供方法(店内飲食/テイクアウト)や分類(バーガー類/サイドメニューなど)に分けて記録されている。
このデータ表をもとに「分類」で区分した「数量」の平均を求めてみよう。「変換」タブにある「グループ化」をクリックし、以下の図のように設定して「OK」ボタンをクリックする。
すると、「分類」で区分した「数量」の平均を求めることができる。この結果を見ると、“バーガー類”は平均で60.2個、“サイドメニュー”は平均で28.5個、……という結果が得られたことになる。
では、これらの「平均」は何を示しているのだろうか? 「1日あたりの販売数」と考える方もいるかもしれないが、それは大きな間違いだ。もういちどデータをよく見てみよう。
以下の図は、グループ化する前のデータ表をExcelに出力し、“バーガー類”のデータだけをフィルターで抽出したものだ。「数量」のデータは1日に2件ずつ、全部で10件ある。そして、これら10件のデータを平均すると60.2個という値になる。この数値は、先ほどの集計結果と一致している。
とはいえ、10件のデータを合計して10で割る、というのは何か違う気がしないだろうか? 売上データは5日分しかないので、“各日の数量”を合計して5で割る、というのが正しい平均の算出方法になるはずだ。上図に示した例の場合、「店内飲食」と「テイクアウト」について「数量」の平均を求めていることになり、あまり意味のない集計結果になってしまう。
求めたい数値が「1日あたり平均で何個売れているか?」であった場合、最初に“各日の数量”を算出して、それら5件のデータを平均しなければならないはずだ。第31回の連載でも似たような話をしているが、「平均」を求めるときは、その結果が「何を平均したものなのか?」をよく確認しておく必要がある。