2025年3月10日
サンプルサイズが結果に与える影響:少人数サーベイの限界とは
多くの企業で組織サーベイが実施されるようになりました。従業員の声を定量的に把握し、より良い職場づくりに活かそうという動きは素晴らしいものです。しかし、せっかく実施したサーベイも、その結果の解釈を誤ってしまっては本来の価値を引き出すことができません。特に注意が必要なのは、回答者数が少ない場合の結果の扱い方です。
例えば、ある100人の企業で「仕事にやりがいを感じている」という項目に対して、去年は10人中8人が「そう思う」と回答し、今年は10人中6人が「そう思う」と回答したとします。一見すると「社員のやりがいが下がった」と結論づけたくなりますが、これは正しい解釈でしょうか。
また、別の企業で新しい評価制度を導入した後、30人の回答でエンゲージメントスコアが0.5ポイント上昇したとします。これは制度変更の効果と言えるのでしょうか。それとも、自然な変動の範囲内でしょうか。
このような判断を行うためには、サンプルサイズ(回答者数)が持つ意味を理解する必要があります。本コラムでは、サンプルサイズが小さい場合の問題点について解説します。
小さなサンプルサイズがもたらす問題
サンプルサイズが小さい場合、主に四つの問題が生じます[1]。
- 第一に、得られた結果が真の状態を正確に反映していない可能性が高くなります。ここでは、これを推定の不確実性が大きいと表現します。
- 第二に、前回や他部署との比較において、実際には意味のない差異を過大に評価してしまう危険性があります。これを「第一種過誤」と呼びます。
- 第三に、本当は存在する重要な差異を見逃してしまう可能性が高くなります。これは「第二種過誤」と呼ばれる問題です。
- 第四に、サンプルが母集団の特性を適切に代表していない可能性があります。これは「外的妥当性」の問題として知られています。
推定の不確実性
「推定」とは、一部のデータ(サンプル)から、全体の傾向や特徴(母集団の特性)を推し測ることを指します。例えば、1000人の会社で100人にアンケートを取り、その結果から会社全体の傾向を推測することが「推定」にあたります。アンケートに回答した100人のデータを「サンプル(標本)」、そこから推測される会社全体の真の状態を表す集団を「母集団」と呼びます。
推定には不確実性が伴います。1000人の会社から100人を選んでアンケートを取る場合を考えてみましょう。月曜日に選んだ100人と、火曜日に選んだ100人では、少なからず異なる結果になるでしょう。これは、人々の回答には様々な要因が影響するからです。例えば、職種による違い、年齢による違い、勤続年数による違いなどが考えられます。また、その日の気分や直近の出来事による影響、日を変えたことによる回答者の違いもあるかもしれません。
不確実性を把握するための手法の一つとして、「信頼区間」があります。信頼区間とは、母集団における真の値が含まれていると考えられる範囲のことです。
ただし、ここで注意が必要です。例えば、95%信頼区間は、「その区間の中に真の値が95%の確率で含まれている」という意味ではありません。「もし同じような調査を何度も繰り返し実施し、そのたびに信頼区間を計算したとすれば、計算された区間の95%に真の値が含まれる」という意味です。
例えば、「はい・いいえ」の2択で回答したデータについて、95%信頼区間は次のように計算できます。
p±1.96×√(p(1-p)/n)
pはサンプルで観察された割合(例えば、10人中7人が「はい」と答えた場合は、p=0.7)を表し、nはサンプルサイズを表します。√(p(1-p)/n)の部分は標準誤差と呼ばれ、推定値のばらつきの大きさを示します(標準誤差については後述します)。1.96という数値は、正規分布において95%の確率をカバーするために必要な値です。すなわち、この式は、観測された割合を中心に、標準誤差の1.96倍の範囲をとることを意味しています[2]。
例えば、10人中7人(70%)のケースで計算してみましょう。
0.7±1.96×√(0.7×0.3/10)=0.7±0.28
この結果は、母集団における真の割合が42%から98%の間にある可能性が高いことを示しています。今回のサンプルでは70%という結果が得られたが、この条件で算出された信頼区間から推測すると、実際の全体の割合は40%台かもしれないし、90%台かもしれないということです。
この幅の広さは、10人という小さなサンプルサイズに起因しています。サンプルサイズが小さいと、個々の回答が全体に与える影響が大きくなります。例えば、10人のサンプルでは、1人の回答が変わるだけで全体の割合が10%も変動してしまいます。
一方、同じ70%でも100人のサンプルサイズであれば、次のようになります。
0.7±1.96×√(0.7×0.3/100)=0.7±0.09
信頼区間が61%から79%の範囲に収まっているのが分かります。先ほどより正確な推定が可能になったことを示しています。100人のサンプルでは、1人の回答が変わっても全体への影響は1%程度です。「60%を下回ることはまずないだろう」「80%を超えることもまずないだろう」といった推論も可能になります。
差異の過大評価
コインを投げる実験を考えてみましょう。コインを10回投げて表が7回出た場合、表の出る確率は70%のように見えます。しかし、私たちは公平なコインであれば表の出る確率が50%であることを知っています。では、なぜ70%という結果が得られたのでしょうか。これは、10回という限られた試行回数では、本来の確率(50%)から離れた結果が普通に起こり得るからです。
このような性質を定量的に理解するために、「標準誤差」という指標を使います。標準誤差とは、「サンプルから計算される統計量から母集団の特徴を推測する際、その推測にどの程度のブレがあるか」を数値で表したものです。サンプルの平均値に基づく母集団推定を例にとると、標準誤差が大きいほど、真の平均値から離れた値がサンプルで観測される可能性が高いことを意味します。
標準誤差(SE)は次のように表現できます。
SE=σ/√n
この式は、母標準偏差(σ)[3]をサンプルサイズ(n)の平方根で割ることで、サンプル平均のばらつきを計算します[4]。分母に√nがあることから、サンプルサイズが大きくなるほど標準誤差は小さくなることが分かります。大きなサンプルほど安定した推定が可能になることを示しています。
例えば、エンゲージメントスコアの母標準偏差が1.0の場合、10人の標準誤差は次のようになります。
1.0/√10≈0.32
この0.32という値は、次のような意味を持ちます。10人で測定を行うと、その測定値は真の値を中心に、上下約0.32ポイントの範囲でばらつく傾向があります。例えば、ある集団の真の平均値が3.5だったとしても、実際の測定では3.2から3.8の間の様々な値が観察される可能性が高いのです。個々の回答者の持つ特性や、回答時の状況による影響が、小さな集団では相殺されにくいためです。
一方、100人になるとどうでしょうか。
1.0/√100=0.10
標準誤差が大幅に小さくなるのが分かります。これは、測定値が真の値から大きくずれる可能性が低くなることを意味します。真の値が3.5の場合、実際の測定値は3.4から3.6の間に収まる可能性が高くなります。このため、0.3ポイントの変化が観察された場合、それは測定誤差ではなく実質的な変化である可能性が高いと解釈できます。
「実際には差がないのに、差があると判断してしまうこと」を第一種過誤(タイプ1エラー)と呼びます。第一種過誤は、小さなサンプルサイズで特に起こりやすくなります。小さなサンプルでは大きな変動が自然に発生しやすいためです。
例えば、10人の回答で前年比20%の上昇が見られたとしても、それは見かけ上の変化である場合が十分にあります。一方、100人の回答で同じ20%の上昇が見られた場合、それは実質的な変化である可能性がより高くなります。
重要な差異の見落とし
三つ目の問題は、統計的検定力の不足です。実際には意味のある差異や変化が存在するにもかかわらず、それを統計的に検出できないという問題です。これを第二種過誤(タイプ2エラー)と呼びます[5]。第一種過誤が、存在しない差を誤って検出してしまう問題だったのに対し、第二種過誤は、存在する差を検出できないという、いわば逆の問題です。
検定力は、実際に存在する差異を、統計的な分析によって検出できる確率を表します。ある人事施策を実施した結果、エンゲージメントスコアが本当に0.3ポイント向上したとしましょう。この変化を小さいサンプルで測定する場合、その差が「小サンプルだからこそ生じた偶然の産物」である可能性が高いと考えられ、統計的に意味のある変化として検出されにくそうです。
このアイデアは検定力の計算でも取り上げられており、検定力は「サンプルサイズが大きいほど差異をより正確に捉えられ、検定力が高まる」統計的性質があります[6]。逆に言えば、回答が得られた人数が少ない、つまり小さいサンプルであるほど、指標の得点の差異を「この差異は確かな差だ」としっかり検証しにくくなるわけです。
先の例でいえば、同じ0.3ポイントの変化でも、10人で測定する場合より100人で測定する場合のほうが、検定力は上昇します。例えば、効果のある施策を「効果なし」と誤って判断してしまう確率が低下するということです。
代表性の欠如
「外的妥当性」という考え方があります。これは、得られた結果を母集団に一般化できる程度を指します。サンプルサイズが小さい場合、たとえ統計的な不確実性や検定力の問題などをクリアできたとしても、そのサンプルが母集団を適切に代表していない可能性が高くなります。これは、前述の三つの問題とは異なる、独立した課題として認識する必要があります。
外的妥当性の問題は、サンプルの選び方に関係しています。例えば、1000人規模の企業で10人にサーベイを実施する場合を考えてみましょう。この10人が全て同じ部署から選ばれていたり、同じ勤続年数層に偏っていたり、あるいは特定の職種に限定されていたりする可能性があります。このような偏りのあるサンプルからは、企業全体の真の状態を把握することは困難です。職場環境や仕事の満足度は、部署、勤続年数、職種などによって異なる可能性があるからです。
この問題は、サンプルサイズが小さいほど深刻になります。大きなサンプルであれば、自然と様々な属性の従業員が含まれる可能性が高くなります。しかし、10人や20人という小さなサンプルでは、母集団の多様性を反映することが困難になります。例えば、営業部門と技術部門で働き方や課題が異なる企業で、片方の部門からしかサンプルを得られていない場合、その結果を企業全体の状態として解釈することは適切ではありません。
外的妥当性の問題は、時系列での比較においても意味を持ちます。例えば、去年と今年で回答者の属性構成が異なる場合、たとえ同じサンプルサイズであっても、単純な経年比較は意味をなさないかもしれません。
10人という小さなサンプルでは、わずか2、3人の回答者の属性が変わっただけでも、結果が大きく変わってしまいます。観測された変化が実際の組織の変化ではなく、サンプルの構成の違いを反映している可能性があることを意味します。
脚注
[1] 本コラムは、頻度論的な統計手法に基づいて解説を行っています。これは、「同じような調査を何度も繰り返した場合」という考え方を基礎としています。
[2] この信頼区間の計算式は、(説明の分かりやすさを優先して)正規分布による近似を用いています。しかし実際には、サンプルサイズが10人程度と小さい場合、この近似の精度は低下する可能性があります。
[3] 母標準偏差は、母集団全体のデータのばらつきを示す統計量です。母集団におけるデータ全体の各値が、母集団の平均値からどれだけ離れているかを表す指標として使われます。母標準偏差は標準偏差(標本標準偏差)とは異なります。標準偏差は、母集団から抽出された「標本のばらつき」を測る指標です。
[4] この標準誤差の式では母標準偏差σを使用していますが、実務では母標準偏差は未知であることがほとんどです。そのため、実際には標本標準偏差sを代用します。ただし、この代用により推定の不確実性が若干増加することには注意が必要です。
[5] 第二種過誤βは、実際には差があるのに「差がない」と誤って判断してしまう確率を指します。検定力は1-βで表され、真に存在する差を正しく検出できる確率を意味します。例えば、検定力が0.8とは、実際に存在する差を80%の確率で検出できること、言い換えれば20%の確率で見逃してしまう可能性があることを示します。
[6] 他に、「差異に関する効果量が大きいほど、検出力が大きくなる」といった性質もあります。差異の効果量が大きい場合、大きな違いがはっきりあるわけですから、そういったデータに対して統計的な分析をしたとき、差異を検出できる確率は高まるわけです。他に、統計的に有意か否かを判断する有意水準の高さによっても検出力が変わる性質はあります。しかし、経営学などの一般的慣習として有意水準は5%に設定され、この高さを変えることはないため、検定力の実践的な議論に有意水準の問題が挙がることはほとんどありません。
執筆者
伊達 洋駆 株式会社ビジネスリサーチラボ 代表取締役
神戸大学大学院経営学研究科 博士前期課程修了。修士(経営学)。2009年にLLPビジネスリサーチラボ、2011年に株式会社ビジネスリサーチラボを創業。以降、組織・人事領域を中心に、民間企業を対象にした調査・コンサルティング事業を展開。研究知と実践知の両方を活用した「アカデミックリサーチ」をコンセプトに、組織サーベイや人事データ分析のサービスを提供している。著書に『60分でわかる!心理的安全性 超入門』(技術評論社)や『現場でよくある課題への処方箋 人と組織の行動科学』(すばる舎)、『越境学習入門 組織を強くする「冒険人材」の育て方』(共著;日本能率協会マネジメントセンター)などがある。2022年に「日本の人事部 HRアワード2022」書籍部門 最優秀賞を受賞。東京大学大学院情報学環 特任研究員を兼務。