ビジネスリサーチラボ

open
読み込み中

コラム

「有意差がない」を深掘りする:解釈のためのヒント

コラム

t検定を行ったときに、「有意差が見られない」という結果が得られたら、どうでしょうか。せっかく分析をしたのに、明確な結果が得られなかったように感じ、がっかりしてしまう人がいるかもしれません。あるいは、「そんなはずはない」と感じる人もいるかもしれません。

しかし、t検定で有意差が出ないケースは珍しくありません。むしろ、適切な分析を行った結果として、しばしば生じるものです。本コラムでは、t検定で有意差が出ない場合について解説します。

t検定の基本的な考え方を押さえた上で、どのような場合に有意差が出にくいのか、その理由は何か、そして有意差が出なかった場合にどう解釈すればよいのかについて見ていきましょう。

t検定とは何か

t検定について簡単におさらいします。t検定は、二つのグループの平均値の差が統計的に意味のあるものかどうかを検討するための手法です[1]。例えば、新しい研修プログラムの効果を測定する際、研修前と研修後のスキルテストの平均点を比較するのにt検定を用いることができます。

t検定においては、データからt値という指標を計算します。t値は、グループ間の差の大きさとデータのばらつきを考慮して、差に統計的な意味があるかを表します。

その後、得られたt値をもとにp値を求めます。p値は、差がないという仮説を正しいとした場合に、観測されたデータと同程度またはそれ以上に極端なデータが得られる確率を意味します。一般的には、p値が.05未満、つまり5%未満であれば、その差は「統計的に有意」であると判断します。

例えば、組織サーベイにおいて、従業員の満足度を5段階評価で測定したとします。新しい評価制度の導入前と導入後で、それぞれ50人の従業員からデータを収集しました。導入前の平均満足度は3.2、導入後の平均満足度は4.0でした。

この平均値の差を検討するために、t検定を行います。データのばらつきやサンプルサイズを考慮してt値を計算し、そのt値に対応するp値を求めます。もしp値が.05未満であれば、導入前後の満足度の差は統計的に有意であると判断できます。

しかし、t検定を行った結果、有意な差がないと示されるケースも少なくありません。これは必ずしも分析の失敗を意味するわけではありません。

t検定で有意差が出ないケース

どのような場合にt検定において有意差が出にくいのでしょうか。本コラムでは、3つの理由を挙げます[2]

サンプルサイズが小さい場合

サンプルサイズ、例えば、組織サーベイにおいて調査対象となる人数が少ない場合、有意差が出にくくなります。小さなサンプルでは個人差の影響が強く出てしまい、制度の効果とそれ以外の要因の影響を区別することが難しくなるからです。t値の計算式を見ると、このことがより明確になります。

t=(平均値の差)/(標準誤差)

このうち、標準誤差は次のように計算されます。

標準誤差=(標準偏差/(サンプルサイズ))[3]

分母にサンプルサイズがあるため、サンプルサイズが小さいほど、分母全体が小さくなります。分母が小さくなると、分数の値(つまり、標準偏差をサンプルサイズで割った値)が大きくなります。

その結果、標準誤差(その分数の平方根)も大きくなります。標準誤差が大きくなると、t値が小さくなって0に近づいていき、結果としてp値が大きくなります。

例えば、テレワーク制度の導入前後で、10人の従業員の満足度を5段階で評価したとします。導入前の平均が3.5、導入後の平均が4.0だったとしても、サンプルサイズが小さいために、この差が統計的に有意であると判断されない可能性があります。

しかし、同じ平均値の差(3.5から4.0)であっても、サンプルサイズが100人だった場合、統計的に有意な差として検出されるかもしれません。大きなサンプルサイズによって、個人差の影響が相対的に小さくなり、より安定した結果が得られるのです[4]

データのばらつきが大きい場合

データのばらつき、要するに個人差が大きい場合も、有意差が出にくくなります。

このこともまた、t値の計算式からも理解できます。特に、先ほどの標準誤差の部分を見ると、その中に、各グループの分散が含まれています。分散が大きいということは、標準偏差が大きくなるということです。

標準誤差=(標準偏差/(サンプルサイズ))

標準偏差が大きくなると、それを含む分数の値も大きくなり、標準誤差(その分数の平方根)も大きくなります。そして、標準誤差が大きくなると、t値が小さくなり、結果としてp値が大きくなるということです。

例えば、組織サーベイを行い、部門間で比較を行ったとします。営業部門と技術部門のエンゲージメントスコアを比較する際、両部門とも、非常に高いエンゲージメントを示す人から非常に低いエンゲージメントを示す人まで、個人差が大きい場合があります。

5段階評価で営業部門の平均が3.8、技術部門の平均が3.5だったとしましょう。一見すると営業部門の方が、エンゲージメントが高いように見えます。しかし、両部門とも1から5まで幅広く分布している場合、この平均の差が統計的に有意であると判断されにくくなります[5]

実際の差が小さい場合

比較する二つのグループ間の実際の差が小さい場合、有意差として検出されにくくなります。実際に差が小さいのですから「有意な差がない」と判断されやすいのは当然ではあります。特に、小さな差を統計的に「意味のある差」として判断するには、より多くの証拠(より大きなサンプルサイズ)が必要になります[6]

t値の計算式において、平均値の差が分子に来ることを思い出してみてください。

t=(平均値の差)/(標準誤差)

平均値の差が小さいと、分子が小さくなり、t値が小さくなります。t値が小さいと、p値は大きくなります。

例えば、新しい社内コミュニケーションツールを導入し、導入前後でチーム内のコミュニケーション満足度を測定したとします。5段階評価で、導入前の平均が3.70、導入後の平均が3.71だったとしましょう。

この0.01ポイントの上昇は、非常に小さな変化です。たとえ100人規模の調査であっても、この程度の差は統計的に有意であると判断されないかもしれません。

有意差が出ない場合の解釈

t検定で有意差が出なかった場合、「帰無仮説(差がないという仮説)を棄却するための十分な証拠が得られなかった」と解釈します。これは「差がない」ことを直接的に示すものではなく、むしろ「得られたデータでは、差があるという主張を統計的に支持できない」ことを意味します。

例えば、新しい研修を導入し、導入前後で従業員のスキルテストのスコアを比較したとします。t検定の結果、p値が.12となり、一般的な基準(p<.05)では「統計的に有意ではない」と判断されたとしましょう。

このとき、「新しい研修には効果がなかった」と即断するのは待ちましょう。「新しい研修に効果があるという仮説を支持するほどの強い証拠は得られなかった」と慎重に解釈することをおすすめします。

ここで重要なのは、「証拠が得られなかった」ことと「効果がない」ことは異なる点です。効果がある可能性は依然として残されています[7]

p値が.12というのは、「帰無仮説(差がないという仮説)が真である場合に、観測されたデータ、またはそれよりも極端なデータが得られる確率が12%である」ことを意味します。これは「効果がある確率が88%である」ことや「帰無仮説が真である確率が12%である」ことを示すものではありません。

要するに、t検定で有意差が出なかった場合の解釈は、「差がない」と結論づけるのではなく、次のような可能性を考慮しながら、慎重に行う必要があります。

  • 統計的に証明するほどの強い証拠が得られなかった可能性
  • サンプルサイズが小さいため、効果の検出が難しかった可能性
  • データのばらつきが大きいため、効果が見えにくくなっている可能性
  • 実際の効果が小さいため、検出が難しかった可能性
  • 測定方法や調査設計に改善の余地がある可能性

このように、「統計的に有意ではない」という結果は、単純に「差がない」ということを意味するのではなく、様々な可能性を含んでいます。そのため、結果の解釈には慎重さが求められます。

まとめ

t検定で有意差が出ないケースは、珍しいものではありません。サンプルサイズ、データのばらつき、実際の差の大きさなど、様々な理由が関係します。

重要なのは、「有意差なし」という結果を単純に「差がない」と解釈するのではなく、データの特性や調査の背景を踏まえて、多角的に考察することです。

また、t検定の結果が「有意ではない」場合でも、それは新たな疑問や仮説を生み出すきっかけとなる可能性もあります。

  • なぜ予想したほどの差が見られなかったのか
  • どのような条件であれば、より明確な効果が見られるのか
  • 測定方法や調査設計に改善の余地はないか

このような問いを立て、さらなる調査や分析を行うことで、より深い洞察を得ることができるでしょう。

脚注

[1] t検定の詳細は当社コラムをご覧ください。

[2] 本コラムでは紹介していない理由もあり得ます。

例えば、t検定を含む多くの統計的仮説検定は、ランダムサンプリングなどの特定の前提条件に基づいています。一方で、組織サーベイなどの実務では、これらの前提条件が必ずしも満たされないことがあります。例えば、全社員を対象としたサーベイでも、回答者が無作為に選ばれているわけではありません。

このような場合、仮説検定の計算結果が偏る可能性があり、それが有意差が出ない一因となることがあります。結果を解釈する際は、このような前提条件の影響も考慮に入れる必要があります。

また、t検定などの統計的手法は、データが特定の確率分布(t検定の場合は正規分布)に従うことを仮定しています。しかし、実際のデータがこの仮定から大きく外れている場合、参照するp値の表が適切に機能しない可能性があります。

例えば、極端に歪んだ分布や、多峰性の分布を持つデータの場合で、特にサンプルサイズが小さければt検定の結果が信頼できないものになる可能性があります。このような場合、ノンパラメトリック検定など、異なる統計手法の使用を検討する必要があるかもしれません。

[3] この標準誤差は、同一人物に2回データを測定する対応ありt検定における式です。後述する部門間比較の場合は対応なしt検定となり、標準誤差の数式がいくらか複雑化しますが、サンプルサイズが分母にあることでt値に影響するプロセスは同一です。

[4] サンプルサイズが小さいがために有意差が得られなかったからと言って、一度分析してから、有意差が得られるまで少しずつサンプルサイズを大きくしていくのは問題です。サンプルサイズを有意差が出るまで増やし続けると、統計的な誤り、特に第I種の過誤(実際には差がないのに有意差があると判断する誤り)のリスクが高まります。

統計的仮説検定では、検定前にサンプルサイズや有意水準を設定し、一度の分析で結果を判断することが前提です。しかし、有意差が出るまで追加のデータ収集を続けると、この前提を破り、偶然による有意差を見つけてしまう可能性が高くなります。

データを繰り返し解析することで誤検出率が累積し、本来存在しない効果を誤って肯定する結果を招きます。このような方法は統計学的にも調査倫理的にも適切ではありません。

[5] データのばらつきが大きい場合、結果に影響を与えている他の要因が存在する可能性があります。ばらつきが大きいということは、部門などの違いが実際にデータの違いに影響していないと捉えることが一般的ですが、個人差や環境要因など、考慮していない変数が結果に影響を及ぼしてデータが一貫性を欠いていることもありえます。

[6] 統計的有意性だけでなく、効果量も考慮することが重要です。効果量は、差の大きさを標準化した指標で、実践的な意味を解釈する上で有用です。例えば、Cohen’s dなどの指標を用いて、効果の大きさを評価することができます。効果量の詳細は当社コラムをご確認ください。

[7] これを第二種の過誤と言います。第二種の過誤とは、実際には効果や差があるにもかかわらず、統計的検定でそれを検出できないことです。

t検定などの統計的検定では、「効果がない」という帰無仮説を棄却できないことと、実際に効果がないこととは同じではありません。検定結果が有意でない場合、それは「効果があるという十分な証拠が得られなかった」ことを意味するだけです。

第二種の過誤のリスクは、サンプルサイズが小さい場合に特に高くなります。そのため、統計的検定の結果を解釈する際には、この可能性を考慮する必要があります。


執筆者

伊達 洋駆 株式会社ビジネスリサーチラボ 代表取締役
神戸大学大学院経営学研究科 博士前期課程修了。修士(経営学)。2009年にLLPビジネスリサーチラボ、2011年に株式会社ビジネスリサーチラボを創業。以降、組織・人事領域を中心に、民間企業を対象にした調査・コンサルティング事業を展開。研究知と実践知の両方を活用した「アカデミックリサーチ」をコンセプトに、組織サーベイや人事データ分析のサービスを提供している。著書に『60分でわかる!心理的安全性 超入門』(技術評論社)や『現場でよくある課題への処方箋 人と組織の行動科学』(すばる舎)、『越境学習入門 組織を強くする「冒険人材」の育て方』(共著;日本能率協会マネジメントセンター)などがある。2022年に「日本の人事部 HRアワード2022」書籍部門 最優秀賞を受賞。東京大学大学院情報学環 特任研究員を兼務。

#伊達洋駆 #人事データ分析

アーカイブ

社内研修(統計分析・組織サーベイ等)
の相談も受け付けています