2025年3月18日
第一種過誤と第二種過誤:人事データ分析における誤りの可能性
人事領域においてデータドリブンな意思決定を求められる企業も増えてきています。従業員のエンゲージメント調査、採用プロセスの効率化、離職予測など、人事領域におけるデータ分析の重要性は日々高まっています。
しかし、データ分析には落とし穴があります。その中でも注意すべきなのが、「第一種過誤」と「第二種過誤」と呼ばれるものです。
一見すると難解な統計用語に思えるかもしれません。しかし、実は人事領域で直面している判断の誤りと関連しています。例えば、本当は効果のない施策を効果があると判断してしまったり、逆に効果のある施策を見逃してしまったりすることは、これらの過誤の例です。
本コラムでは、第一種過誤と第二種過誤について順を追って解説していきます。これらの概念が人事領域のデータ分析においてなぜ重要なのか、組織サーベイを例に取り上げて説明します。
第一種過誤と第二種過誤
仮説検定
第一種過誤と第二種過誤を理解するために、「仮説検定」という統計的手法の基本を押さえる必要があります。仮説検定とは、データに基づいて、ある仮説が正しいかどうかを判断するプロセスです[1]。
人事領域での例を挙げてみましょう。「新しい研修は従業員のエンゲージメントを向上させる」という仮説を立てたとします。この仮説を検証するために、研修前後でエンゲージメントスコアを測定し、統計的に有意な差があるかどうかを調べます。
仮説検定では、次の2つの仮説を設定します。
- 帰無仮説(H0):研修はエンゲージメントを高めない
- 対立仮説(H1):研修はエンゲージメントを高める
帰無仮説とは、検証したい効果や関連が「ない」と仮定する仮説です。新しい主張や効果を認めるためには、まずその効果がないという仮説(帰無仮説)を棄却する必要があるという考え方です。
対立仮説は、帰無仮説と対立する仮説で、通常は分析者が検証したいと考えている仮説です。これは、検証したい効果や関係が「ある」と仮定する仮説です。
仮説検定の目的は、データに基づいて帰無仮説を棄却できるかどうかを判断することです。これは、収集したデータが帰無仮説と矛盾する程度が十分に大きいかどうかを統計的に評価することを意味します。もし帰無仮説を棄却できれば、そのデータは対立仮説を支持する証拠を提供します(対立仮説を直接的に証明するわけではありません)。
しかし、この判断プロセスには誤りの可能性が伴います。そして、その誤りには2種類あり、それが「第一種過誤」と「第二種過誤」なのです。
第一種過誤
第一種過誤とは、帰無仮説が実際には正しいにもかかわらず、それを誤って棄却してしまうことを指します。実際には効果や差異がないのに、あると判断してしまうエラーです。効果や差が「ある」という誤った陽性反応を呈する意味で、第一種過誤は「偽陽性」とも呼ばれます。
これを研修の例で考えてみましょう。実際には研修がエンゲージメントを高めていないにもかかわらず、データ分析の結果、「研修はエンゲージメントを高めた」と結論づけてしまうケースです。
第一種過誤の確率はαで表され、有意水準と呼ばれます[2]。有意水準は、分析者が事前に設定する値で、「帰無仮説が正しいにもかかわらず、それを誤って棄却してしまう確率の上限」を意味します。
言い換えると、「偶然によって誤った結論を導き出すことを許容する確率」とも言えます。データの変動によって、実際には効果がないにもかかわらず、効果があると誤って判断してしまうリスクを数値化したものです。
よく使用される有意水準は5%(α=0.05)です。帰無仮説が正しいにもかかわらず、それを誤って棄却してしまう確率が5%であることを意味します。言い換えれば、100回同じ条件で検定を繰り返した場合、5回は誤って帰無仮説を棄却してしまうということです[3]。
5%という値は、誤って効果があると判断してしまうリスク(第一種過誤)と、実際にある効果を見逃してしまうリスク(第二種過誤)のバランスを取ったものです。有意水準を下げれば(例えば1%)、第一種過誤のリスクは減りますが、同時に第二種過誤のリスクは高まります。逆に、有意水準を上げれば(例えば10%)、第一種過誤のリスクは高まりますが、第二種過誤のリスクは減ります。
第二種過誤
第二種過誤は、帰無仮説が実際には誤っているにもかかわらず、それを棄却できないことを指します。実際には効果や差異があるのに、ないと判断してしまうエラーです。効果や差が「ない」という誤った陰性反応を呈する意味で、第二種過誤は「偽陰性」とも呼ばれます。
研修の例で言えば、研修が実際にはエンゲージメントを高めているにもかかわらず、データ分析の結果、「研修はエンゲージメントを高めていない」と結論づけてしまうケースです。
第二種過誤の確率はβで表されます。βは、「帰無仮説が誤っているにもかかわらず、それを棄却できない確率」を意味します。実際には効果があるのに、それを検出できない確率です。
第一種過誤の確率αが分析者によって事前に設定されるのに対し、βの値は通常、調査のデザインや効果の大きさ、サンプルサイズなどによって決まります。例えば、サンプルサイズが小さい場合や、効果が小さい場合には、βの値が大きくなる(第二種過誤の可能性が高くなる)傾向があります。
1-βは検出力(Power)、あるいは検定力と呼ばれ、実際に存在する効果を正しく検出できる確率を表します。検出力は、実際に存在する効果や差異を正しく見つけ出す能力を示します。高い検出力を持つ調査は、実際に存在する効果を見逃す可能性が低くなります。検出力が高ければ高いほど、効果が実際にある場合にそれを正しく検出できる可能性が高くなります。
検出力は、調査の設計段階で重要な役割を果たします。調査を計画する際、分析者は目標とする検出力を設定し、それを達成するために必要なサンプルサイズや測定方法を決定します。適切な検出力を持つ調査をデザインすることで、意味のある効果を見逃すリスクを抑えることができます。
例えば、検出力が0.8(β=0.2)の場合、長期的に見て、同様の研究を多数回行った場合、実際に効果がある場合の80%でそれを正しく検出できることを意味します(これは単一の研究や分析での確率を示すものではありません。100回の同様の研究・分析を行った場合、実際に効果がある場合、そのうち80回は効果を正しく検出できるということです)。この0.8という値は、多くの分野で標準的に目標とされる検出力の値です。
逆に言えば、20%の確率で効果を見逃してしまう可能性があります。100回の研究のうち20回は、実際には効果があるにもかかわらず、それを検出できずに「効果なし」と誤って結論づけてしまうわけです。これは第二種過誤の確率(β)に相当します。
検出力は、サンプルサイズ、効果の大きさ、有意水準などの要因によって影響を受けます。これらの要因は互いに関連しており、一つを変更すると他の要因にも影響を与えます。
- サンプルサイズが大きくなるほど検出力は高くなります。大きなサンプルサイズは、母集団の特性をより正確に反映し、小さな効果でも検出しやすくなります。
- 効果の大きさ:検出したい効果が大きければ大きいほど、それを検出する確率(検出力)は高くなります。逆に、非常に小さな効果を検出するには、高い検出力(大きなサンプルサイズ)が必要となります。
- 有意水準:有意水準を緩める(例えば5%から10%に上げる)と、検出力は高くなります。ただし、これは同時に第一種過誤のリスクも高めることになります。
サンプルサイズを大きくしたり、より大きな効果を想定したり、有意水準を緩めたりすることで、検出力を高めることができます。
例えば、サンプルサイズを2倍にすると、同じ効果量と有意水準の下で検出力が向上します。また、効果量が2倍の指標であれば、同じサンプルサイズでもより高い検出力が得られます。有意水準を5%から10%に緩めることで、検出力を上げることもできますが、これは同時に誤って効果があると判断するリスク(第一種過誤)も高めることになるため、慎重に検討する必要があります。
しかし、これらの調整にはそれぞれトレードオフがあります。サンプルサイズを大きくすることは、時間とコストの増加につながります。効果量を大きく想定することは、小さな(しかし重要かもしれない)効果を見逃すリスクを高めます。有意水準を緩めることは、誤って効果があると判断するリスク(第一種過誤)を高めます。
第一種過誤と第二種過誤の関係
ここまでのお話で気付いた人もいるかもしれません。第一種過誤と第二種過誤は、トレードオフの関係にあります。一方の誤りを減らそうとすると、もう一方の誤りが増える傾向があります。これは、統計的検定の性質上、避けられない関係です。
例えば、第一種過誤を減らすために有意水準を厳しく(例えば、1%)設定すると、実際に存在する効果を見逃してしまう可能性(第二種過誤)が高くなります。「効果がある」と判断するハードルを高くすることで、実際にある効果も「ない」と判断してしまうかもしれないからです。
逆に、第二種過誤を減らすために有意水準を緩く(例えば、10%)設定すると、実際には効果がないのに誤って効果があると判断してしまう可能性(第一種過誤)が高くなります。「効果がある」と判断するハードルを低くすることで、実際にはない効果も「ある」と判断しかねません。
組織サーベイの例
組織サーベイを例に、第一種過誤と第二種過誤が人事にどのような影響を与えるか見ていきましょう。
ある企業がリモートワーク制度を導入し、これが従業員のエンゲージメントに与える影響を調査するとします。導入前後でエンゲージメントスコアを測定し、分析を行いました。
第一種過誤が発生した場合、実際の状況はリモートワーク制度がエンゲージメントに影響を与えていないにもかかわらず、分析結果ではリモートワーク制度がエンゲージメントを向上させたと誤って結論づけてしまいます。
この誤りは、効果のない施策に資源を投入し続けることにつながり、本当に効果のある他の施策を見逃してしまいます。さらに、従業員が実際には効果を感じていないにもかかわらず、会社が「効果がある」と主張し続けることで、人事と従業員の間に認識のギャップが生まれ、信頼関係が損なわれるかもしれません。
一方、第二種過誤が発生した場合、実際の状況はリモートワーク制度がエンゲージメントを向上させているにもかかわらず、分析結果ではリモートワーク制度はエンゲージメントに影響を与えていないと誤って結論づけてしまいます。
この誤りは、効果のある施策を中止または縮小してしまうことにつながり、エンゲージメント向上の機会を逸してしまいます。また、他社が同様の施策を導入して効果を上げている場合、自社が後れを取る可能性も生じます。従業員の中に効果を実感している人がいても、データ分析の結果がそれを支持しないため、その声が無視されます。
これらの例から分かるように、第一種過誤と第二種過誤は統計上の概念で終わるものではなく、実際の経営判断や従業員の働き方やキャリア、さらには組織の競争力にまで影響を及ぼす問題です。そのため、人事データ分析を行う際には、これらの誤りのリスクを十分に理解し、対処することが求められます。
抑制するための方法
サンプルサイズ
サンプルサイズは、統計的検定の精度に影響を与えます。サンプルサイズとは、調査や実験に参加する対象の数のことです。例えば、組織サーベイであれば、回答者の人数がサンプルサイズとなります。
サンプルサイズが大きいほど、第一種過誤と第二種過誤の両方を減らすことができます[4]。これは、大きなサンプルサイズがより正確な推定を可能にするためです。大きなサンプルサイズは、母集団の特性をより正確に反映します。サンプルから得られる統計量(平均値や比率など)が安定し、真の値に近づく傾向があります。
サンプルサイズnが大きくなるほど、標準誤差(SE)は小さくなります。標準誤差は、サンプル統計量(例えば平均値)の推定精度を表します。サンプル統計量とは、サンプルから計算される値のことで、これを用いて母集団の特性を推測します。標準誤差が小さいほど、推定値が母集団における真の値に近いことを意味します。推定の精度が高くなるということです。
適切なサンプルサイズを決定するためには、いくつかの要素を考慮する必要があります。
- 期待する効果量:調査や実験で検出したい効果の大きさです。効果量は、観察された変化や差の大きさを数値化したものです。効果量が小さいほど、それを検出するためにはより大きなサンプルサイズが必要になります。
- 目標とする検出力(1-β):実際に存在する効果を正しく検出できる確率です。例えば、検出力が8の場合、実際に効果がある場合に80%の確率でそれを検出できることを意味します。高い検出力を目指すほど、より大きなサンプルサイズが必要になります。
- 有意水準(α):誤って効果があると判断してしまう確率の上限です。有意水準を厳しくするほど、より大きなサンプルサイズが必要になります。
これらの要素を基に分析を行うことで、必要なサンプルサイズを算出することができます。
効果量
統計的有意性だけでなく、効果量も考慮しましょう。統計的有意性は、観察された差や関連の実質的な大きさを直接示すものではありません。統計的に有意な結果が得られたとしても、それが実務的に意味のある大きさの効果かどうかは別問題なのです。
効果量は、変化や差の大きさを示す指標です。ある要因がどれほど強く結果に影響を与えているかを数値化したものと捉えられます。効果量を考慮することで、統計的に有意な結果が実務的にも意味があるかを判断することができます。
例えば、リモートワーク制度導入後のエンゲージメントスコアの変化が統計的に有意であっても、その変化が0.1ポイント未満であれば、実務的には意味のある差とは言えないかもしれません。一方、1.5ポイントの変化があれば、それは無視できない大きな効果と言えるでしょう。
とはいえ、このようなポイントの変化の大きさは、指標によって得点の幅やデータのばらつきがまちまちなため評価が困難です。それを統計的に一律化した基準で捉えられるようにしたものが効果量となります。
効果量の指標の一つとして、Cohen’s dがあります[5]。Cohen’s dは、2つのグループ間の平均値の差を標準化した指標です。Cohen’s dの値は0.2で小さい効果、0.5で中程度の効果、0.8で大きい効果とよく解釈されます[6]。
例えば、新しい研修の効果を測定する際、プログラム参加者と非参加者のパフォーマンス評価を比較し、Cohen’s dを計算するとします。d=0.7という結果が得られた場合、これは中程度から大きい効果があることを示唆しています。
効果量を考慮することで、「統計的に有意である」という結論を超えて、その効果が実務的にどの程度重要であるかを判断することができます。これは、限られたリソースをどの施策に投入するべきかを決定する際に特に重要です。
頑健性
単一の分析手法に頼るのではなく、複数の手法を組み合わせることも有用です。これは、結果の頑健性を確認するためのアプローチです。
頑健性とは、異なる条件や方法でデータを分析しても、同様の結果が得られるかを意味します。頑健性の高い結果は、特定の分析手法や条件に依存せず、より一般化可能性が高いと考えられます。例えば、定量的な解析のみならず定性的な検討で同様の結論が得られる場合や、別の機会に同じ内容のサーベイを行って分析しても結果が大きく変わらない場合、その結果は頑健性が高いと言えます。
各手法にはそれぞれ強みと弱みがあり、一つの手法では捉えきれない側面を他の手法で補完できる可能性があります。また、複数の手法で一貫した結果が得られることは、その結果が特定の手法の特性や限界に依存していないことを示唆します。
信頼区間
信頼区間は、推定値の不確実性を示す指標であり、効果の大きさについてさらなる情報を提供します。信頼区間は、真の値(例えば、母集団の平均値)が含まれると考えられる範囲を示します。
例えば、95%信頼区間は、同様の方法で多数回サンプリングと区間推定を行った場合、算出された区間の約95%が母集団の真の値を含むことを意味します。これによって、推定値の精度と、効果の可能な範囲を理解することができます。リモートワーク制度導入後のエンゲージメントスコアの変化が+0.5ポイントで、95%信頼区間が[0.3, 0.7]だった場合、真の効果は0.3から0.7の間である可能性が高いと解釈できます。
信頼区間を用いることで、効果の大きさとその精度を同時に評価することができます。信頼区間の幅は、推定の精度を反映しています。信頼区間が狭ければ、推定の精度が高いことを意味し、広ければ、不確実性が大きいことを示します。
脚注
[1] 仮説検定の詳細についてはt検定を取り上げて解説した当社コラムをご確認ください。
[2] p値については、本コラムでは詳細に扱いませんが、帰無仮説が真であると仮定した上で、観測されたデータまたはそれ以上に極端なデータが得られる確率を表します。データが帰無仮説と矛盾する程度を示す指標です。p値が小さいほど、観測されたデータが帰無仮説と矛盾する可能性が高いことを示します。
一般的に、p値が設定された有意水準(例えば、0.05)未満の場合、結果は「統計的に有意」とみなされ、帰無仮説を棄却します。しかし、p値は効果の大きさや実質的な重要性を直接示すものではありません。また、p値が有意水準を下回らなかった場合でも、それは必ずしも効果が存在しないことを意味するわけではありません。
[3] 加えて、多重比較の問題は、複数の統計的検定を同時に行う際に生じる課題です。同じデータセットに対して複数の仮説検定を実施すると、少なくとも1つの検定で偶然に有意な結果が得られる確率が増加します。
これは、個々の検定の有意水準(例えば、5%)が累積し、全体としての第一種過誤の確率が高まるためです。例えば、20の独立した検定を行う場合、少なくとも1つの検定で誤って有意な結果が得られる確率は64%に達します。多重比較の問題は、誤って効果があると結論づける可能性を高め、分析結果の品質を損なう恐れがあります。
[4] サンプルサイズが小さすぎる場合と大きすぎる場合、それぞれ異なるリスクがあります。小さすぎるサンプルサイズでは、統計的検出力が低下し、実際に存在する効果を見逃し得ます。また、得られた結果が母集団を正確に代表していない可能性も高くなり、信頼性の低い結論を導く恐れがあります。
一方、大きすぎるサンプルサイズの場合、統計的に有意な結果が得られやすくなりますが、実践的には意味のない小さな効果も検出しかねません。さらに、不必要に多くの時間とリソースを消費し、調査の効率性が低下する問題もあります。
[5] 差の効果量に関する詳細は当社コラムを参照していただければと思います。なお、効果量には関連の大きさを表すものもあります。
[6] これらの目安はCohenによる広範な分野に適用されるガイドラインに基づいています。特定の目的や状況のもとでは、基準が異なる場合があることに注意が必要です。
執筆者
伊達 洋駆 株式会社ビジネスリサーチラボ 代表取締役
神戸大学大学院経営学研究科 博士前期課程修了。修士(経営学)。2009年にLLPビジネスリサーチラボ、2011年に株式会社ビジネスリサーチラボを創業。以降、組織・人事領域を中心に、民間企業を対象にした調査・コンサルティング事業を展開。研究知と実践知の両方を活用した「アカデミックリサーチ」をコンセプトに、組織サーベイや人事データ分析のサービスを提供している。著書に『60分でわかる!心理的安全性 超入門』(技術評論社)や『現場でよくある課題への処方箋 人と組織の行動科学』(すばる舎)、『越境学習入門 組織を強くする「冒険人材」の育て方』(共著;日本能率協会マネジメントセンター)などがある。2022年に「日本の人事部 HRアワード2022」書籍部門 最優秀賞を受賞。東京大学大学院情報学環 特任研究員を兼務。