今回は、サンプル調査の統計処理について解説する。サンプル調査の結果をもとに平均値などを求めることは可能であるが、その値はあくまで「サンプルデータの平均値」でしかない。母集団のデータ分布を探るには「不偏分散」などの算出方法を学んでおく必要がある。
サンプル調査とは?
調査や実験などから得られるデータは、大きく分けて2種類に分類できる。ひとつめは「全数調査」と呼ばれるもので、テスト結果のように「対象とする集団の全データを集計できる調査」となる。
一方、対象となる集団全体のデータを集めるのが難しい場合もある。このような場合は、集団内の一部についてのみ調査を実施する。このような調査のことを「サンプル調査」または「標本調査」と呼ぶ。
たとえば、サービス内容についてアンケート調査を行う場合を考えてみよう。この場合、そのサービスを利用している全ユーザーからアンケート結果を回収しない限り「全数調査」とはいえない。ただし、ユーザー全員がアンケートに答えてくれる可能性は皆無に近く、実際に得られるデータは、アンケートに答えてくれた「ほんの一部」のデータでしかない。よって、アンケート調査の大半は「サンプル調査」となる。
ほかにも、サンプル調査となる事例は沢山ある。たとえば、成人男性の「靴のサイズ」について調べたいとしよう。このとき、100人程度を対象に調査を行い、その平均値などを算出することは十分に可能であろう。ただし、これらの指標は、あくまで「100人のサンプル(標本)」についての指標でしかない。本当の意味で「靴のサイズ」を調べたいのであれば、日本中のすべての成人男性(母集団)について調査を行う必要がある。しかし、現実的に考えて、それは不可能な場合が多い。
このような場合は、得られた結果(サンプルデータ)をもとに全体像を予測しなければならない。具体的な例を使って紹介していこう。
以下の図は、ある菓子メーカーが新商品を発売する際にサンプル調査を実施した結果となる。
この調査は、「1袋に詰めるスナック菓子の量」を決定するために実施したサンプル調査となる。10名の協力者に新商品を好きなだけ食べてもらい、「十分に満足」と感じるまでに「食べた量」(重さ:g)を調査したものだ。この例を使って、基本的な統計指標の算出方法を紹介していこう。
標本平均の算出
まずは、「標本平均」の算出方法から紹介していこう。標本平均とは、サンプル調査から得たデータの平均値となる。その計算式は以下に示した通りで、一般的な「平均値の求め方」と何ら変わりはない。
このため、関数AVERAGE()を使って「標本平均」を求めることが可能だ。今回の例では、標本平均は81.33(g)という結果になった。
もちろん、この値は「10人の協力者」の平均値でしかなく、母集団の平均値と必ずしも一致するとは限らない。ここでいう母集団とは、スナック菓子を買ってくれそうな客層全体を指す。日本全国でスナック菓子を発売する場合は、日本に住む人全員が母集団となる。
本来であれば「母集団の平均値」を知りたいところであるが、そのためには日本に住む人全員を対象に調査を実施しなければならない。これは、現実問題として考えると無謀な調査といえる。よって、サンプル調査から算出した標本平均を「仮の平均値」として統計処理を進めていく。
「不偏分散」と「標準偏差の推定値」
続いては、データのばらつき具合を示す「分散」について紹介していこう。分散については第54回の連載で詳しく解説しているので、よく知らない方はあわせて参照しておくとよいだろう。
サンプル調査から得たデータの分散は、「母集団の分散」よりも小さくなる傾向がある。そこで、サンプル調査では「不偏分散」と呼ばれる指標を分散値として利用するのが一般的だ。通常の「分散」とあわせて、「不偏分散」の計算式を示しておこう。
不偏分散では、分母を「(データの個数)-1」として計算する。こうすることで、理論上は「母集団の分散」(母分散)に近い値を得ることができる。
Excelには、不偏分散を手軽に求められる関数VAR.S()が用意されている。このため、引数に「データのセル範囲」を指定するだけで不偏分散を求めることが可能だ。
ちなみに、第54回の連載で紹介したVAR.P()は「通常の分散」を求める関数となる。「不偏分散」を求める関数VAR.S()とよく似ているので、間違えないように注意しよう。
不偏分散を求められれば、その平方根を計算することで「標準偏差の推定値」を求めることも可能となる(※)。これを関数SQRT()を使って計算すると、以下の図のようになる。
(※)厳密には「不偏分散の平方根」は不偏標準偏差となりませんが、簡易な計算方法として「不偏分散の平方根」を「標準偏差の推定値」とするのが一般的です。
今回の例では、「標準偏差の推定値」は約18.08となった。なお、Excelには「不偏分散の平方根」を求める関数STDEV.S()も用意されている。よって、以下のように関数を入力して「標準偏差の推定値」を求めても構わない。
データ分布の確認
今回の例では、標本平均は81.33(g)、標準偏差の推定値は18.08(g)という結果を得ることができだ。母集団が正規分布になると仮定すれば、このデータ分布は以下の図のようになると予測できる。
これで、少しは全体像を把握しやすくなったと言えるかもしれない。ただし、Excelには正規分布のグラフを手軽に作成する機能が用意されていないため、グラフを作成するのも一苦労となる。
また、仮にグラフ化できたとしても、「このグラフをどう活用していけばよいのか?」は曖昧なものになってしまう。そこで次回は、サンプル調査により得られた平均値(標本平均)は「どれくらいの信頼性があるか?」を調べる方法を紹介していこう。