これまでの連載で「平均値」を求める方法をいくつか紹介してきたが、単に平均値を求めるだけでは意味をなさないケースもある。実際にデータ分析を行うときは、データを比較しやすい形に加工していくテクニックも求められる。そこで今回は、数式を使って数値データを「意味のあるデータ」に変換していく方法を紹介しよう。
規模が異なるデータを比較可能にするには?
以下に示した図は、各店舗における日々の売上をまとめた表となる。これまでに解説してきたように「売上の平均値」(1日あたりの売上)を算出すれば、とりあえずは各店舗を比較することが可能となる。
この結果を見ると、新宿店が優秀な成績を収めているように見えるが、果たして本当にそうであろうか? 規模や立地条件などが店舗ごとに異なることを考慮すると、単純に平均売上を比較しても「あまり意味がないのでは?」と考えるのが普通であろう。
このような場合は、データを比較可能な形に加工してから検討する必要がある。たとえば、算出された平均値を「各店舗の席数」で割ると「1席あたりの売上」を求めることが可能となり、店舗の規模を考慮したうえで売上を比較できるようになる。
もちろん、こういった計算をExcelで行うには、自分で数式を入力しなければならない。「1席あたりの売上」を求めたい場合は、各店舗の「席数」のデータを追加し、以下のように数式を入力すればよい。
同様の計算を各店舗で行うと、以下のような結果になる。
この結果を見ると、大手町店が最も優秀で、平均売上の多かった新宿店はむしろ最下位の成績であることが判明する。となると、「何らかの対策を行うべき店舗は大手町店ではなく、新宿店ではないか?」という課題が見えてくる。
このようにExcelでデータ分析を行うには、「数式を自在に使いこなせること」が必須のスキルとなる。もちろん、「席数」で割ることが最適な手法であるとは限らない。それよりも「従業員の数」で割った方が理に適っているかもしれないし、立地条件も考慮すれば「店舗の家賃」で割るという案も考えられる。
どのような手法を使うのが最適かは別として、いずれにしても「思い通りに数式を入力できること」がデータ分析の前提になることに変わりはない。データ分析に必要となる数学は必ずしも難解なものではなく、中学生レベルの数学でも十分に対応できるケースが少なくない。そのためにも、数式の入力方法くらいはマスターしておくべきである。
なお、厳密な話をすると、正しく平均値を比較するにはt検定や分散分析などの処理が必要になるケースもある。ただし、これを理解するには理系の大学生でも苦労するほどの数学力が求められる。今回は例を簡単にするために7日分のデータだけを扱っているが、十分なデータ数が揃っていれば、難解な処理をしなくても“それなりに正しい”データの傾向を把握することが可能である。
数式入力の基本
すでにご存じの方も多いかもしれないが、念のため、Excelに数式を入力するときの操作手順を解説しておこう。数式を入力するときは、最初に「=」(イコール)の記号を入力し、「セル参照」や「演算記号」を使って数式を入力していく。
「セル参照」は、列番号と行番号を続けて記述する。たとえば、C列の14行目にあるセルは「C14」と記述する。「演算記号」は、以下の記号で計算方法を指定する決まりになっている。
+(足し算)
-(引き算)
*(掛け算)
/(割り算)
^(べき乗)
このとき、一般的な数学と同様に、「掛け算、割り算」が「足し算、引き算」より優先されることに注意しなければならない。たとえば、「C2セル」と「C3セル」の数値を足し算し、それに1.08を掛け算する場合は、以下の図のようにカッコを付けて計算の順番を明示しておく必要がある。
これを間違って「=C2+C3*1.08」と記してしまうと、「C3セル」×1.08が先に計算され、その結果に「C2セル」が足し算されることになる。当然ながら誤った計算結果になってしまうので、初心者の方は注意しておこう。
前月比を算出してデータを比較しやすくする
いつまでも「数式入力の基本」を紹介していても面白くないので、話を「データの比較」に戻して、別の具体的な例を紹介していこう。
以下は、あるスマホゲームの会員数の推移をまとめた表となる。会員数は順調に増えているが、「どれくらい増えているか?」を調べるには数式の入力が必要となる。
たとえば、「前月と比べてどれくらい増えたか?」を知りたい場合は、以下の図のように数式を入力すればよい。続いて、数式をオートフィルで下方向へコピーしていくと、各月の「会員数の増減」を把握できるようになる。
正の数値に「+」(プラス)の記号を付けて表示したい場合は、表示形式に「ユーザー定義」を選択し、「種類」の項目に「+#,##0;-#,##0」と入力すればよい。
もちろん、前月比を比率で示すことも可能だ。この場合は、(今月のデータ)と(前月のデータ)を割り算し、そこから1(100%)を引き算すればよい。これを数式で記述すると以下のようになる。
さらに、表示形式に「ユーザー定義」を選択し、「種類」の項目に「+0.0%;[赤]-0.0%」と入力すると、前月比の数値を以下の図のように表示できる。
この結果を見ると、増加率は鈍化しているものの、会員数は順調に伸びていることが把握できる。このように数式を使って「単なる数値データ」を「比較しやすい形」に加工していくことがデータ分析の基本となる。
実態に合わせた数値にデータを加工する数式
数式を使って、さらに突っ込んだデータ分析を行うことも可能である。先ほど例として示したスマホゲームの場合、「昔は遊んでいたが、今は遊んでいない・・・」という、いわゆる幽霊会員も数多く存在すると思われる。
そこで「1カ月にわたって1度もログインしていないユーザー」を幽霊会員と仮定し、このデータを追加したのが以下の表となる。
この場合、幽霊会員ではない「実質的な会員数」は、以下の数式で算出できる。
この会員数について、先ほどと同様に前月比(比率の増減)を求めると、以下の図のような結果になる。
この結果を見ると、「数字上の会員数」は増えているが、「実質的な会員数」は減少していたことがわかる。となれば、「新規ユーザーの獲得に躍起になるのではなく、既存ユーザーの呼び戻しに注力した方が・・・」といった戦略が見えてくる。
同じ「既存ユーザーの呼び戻しキャンペーン」をプレゼンするにしても、その裏付けとなるデータを提示できた場合とそうでない場合とでは、説得力に差が出てくるはずだ。「自分に都合がよくなるようにデータを加工する」というのは感心できないが、「状況を理解してもらいやすくするためにデータを加工する」のは、ある意味、一つのビジネススキルになると思われる。そのためのツールとしてExcelを活用できるようになると、よりExcelの魅力が増していくであろう。