2025年4月1日
対応ありのt検定:その基礎と応用
人事部門の業務において、データに基づいた意思決定の重要性が増しています。そのような中、本コラムでは「対応ありのt検定」について解説します。
リーダーシップ研修の効果測定を例に挙げながら、対応ありのt検定の使い方や解釈の仕方を学んでいきましょう。
本コラムを読むことによって、t検定とは何か、対応ありのt検定と対応なしのt検定の違い、対応ありのt検定の計算方法と解釈の仕方、効果量の重要性とその算出方法などについて理解が深まるはずです。
t検定とは
まずは、t検定の基本的な考え方を説明します。t検定は、二つのグループの平均値に統計的に有意な差があるかどうかを判断するための手法です[1]。この判断は、帰無仮説(差がないという仮説)を仮定したときに、観測されたデータあるいはそれ以上に極端なデータが得られる確率を算出することで行われます。
そのような確率をp値と呼び、一般的に、p値が5%未満(p<0.05)または1%未満(p < 0.01)の場合に、その差は「統計的に有意」であると評価されます。ただし、これらの基準は慣例的なものであることには注意が必要です。
ここで二つのタイプのt検定を区別しておきたいと思います。
- 対応なしのt検定:異なる二つのグループを比較する場合に使用する
- 対応ありのt検定:同じグループの二つの条件や時点を比較する場合に使用する
今回は主に対応ありのt検定に焦点を当てるコラムですが、先に、対応なしのt検定との違いも説明しておきます。
対応ありと対応なし
対応なしのt検定は、互いに独立した二つのグループを比較する際に使用します。例えば、営業部門と製造部門のリーダーシップ・スキルを比較する場合などです。この場合、二つのグループは異なる人々で構成されているため、データ間に直接の関連性はありません。
他方で、対応ありのt検定は、同じ個人で二つの条件や時点を比較する際に使用します。リーダーシップ研修の効果測定は、このケースの一例です。研修前と研修後の同じ参加者のスコアを比較するため、データ間に直接の関連性があります。
ただし、必ずしも前後の比較に限定されるわけではありません。例えば、同じ参加者に対して異なる二つの条件下で同一のテストを行い、その結果を比較する場合にも、対応ありのt検定を使用することができます。
対応ありのt検定と対応なしのt検定には、いくつかの違いがあります。初めに、データの関連性です。ここでいう「関連性」とは、二つのデータセット間に直接的な対応関係があるかを指します。
対応なしのt検定では、二つのグループのデータに関連性がありません。それぞれのグループは独立した個人から構成されているためです。これに対して、対応ありのt検定では、同じ対象の二つの条件下や時点でのデータを扱うため、データ間に関連性があります。各人の二つの測定値が対応しているのです。
サンプルサイズの違いもあります。対応なしのt検定では、二つのグループのサンプルサイズが異なっていても構いません。ただし、対応ありのt検定では、比較する二つのデータセットのサンプルサイズは基本的に同じになります。これは、同じ個人から二つのデータを取得するためです。
さらに、個人差の扱いも異なります。対応なしのt検定では、個人差は誤差として扱われます。個人間のばらつきは、グループ間の差を見出す際に使います。一方、対応ありのt検定では、個人差を取り除いて分析します。
具体的には、対応ありのt検定では、各個人の二つの測定値の「差」に注目します。例えば、研修前と研修後のスコアの差を各個人で計算し、その差の平均を分析します。
この方法によって、個人のベースラインの違い(例えば、元々スコアが高い人と低い人の違い)を取り除くことができます。研修の効果そのものに焦点を当てることができるのです。同じ個人の二つのデータを比較することで、個人間の変動を取り除けるからです。
これらの違いを通じて、対応ありのt検定は、同じサンプルサイズの場合、対応なしのt検定よりも検出力が高くなる傾向があります。ここでいう検出力とは、効果が実際に存在する場合に、それを統計的に有意と判断できる可能性のことです。
検出力が高いということは、実際に効果がある場合に、それを見逃す可能性が低くなるということです。例えば、研修に本当に効果があるとき、対応ありのt検定を使用することで、その効果を見逃す可能性が低くなり、より正確な判断ができます。
基本的な考え方
対応ありのt検定の基本的な考え方は、「対応する二つの測定値の差」に注目することです。例えば、リーダーシップ研修の前後でスコアがどう異なるかを見ます。
このことは、観測された差の平均値と、その差のばらつき(標準偏差)を考慮して行われます。差の平均値がゼロ(違いなし)という仮説(帰無仮説)のもとで、観測された差がどの程度起こりにくいものかを計算します。
例えば、10人の参加者がリーダーシップ研修を受け、全員のスコアが向上したとします。しかし、この向上が統計的に意味のある差なのかを判断する必要があります。対応ありのt検定では、各参加者の研修前後のスコアの差を計算し、その差の平均と標準偏差、サンプルサイズを用いて、後述するt値と呼ばれる指標を算出します。このt値が十分に大きい場合、「差はゼロではない」と評価します。
計算式
対応ありのt検定では、t値という指標を用いて判断を行います。t値は、観測された差の大きさを、その差のばらつきで標準化したものです。差の平均がどれだけ大きいかを、その差のばらつきを考慮して検討するためにt値を算出します。
t値を求める計算式は次のように表すことができます。
t=差の平均/(差の標準偏差/√サンプルサイズ)
この式は、観測された差の平均を、その差の推定された標準誤差(差の標準偏差/√サンプルサイズ[2])で割ることで得られます。
標準誤差は、同様のサーベイやアンケート調査を繰り返し行ったとして、本来捉えたい母平均に対してサンプルで得られた平均がどれくらいばらつくと考えられるかを示す指標です。標準誤差はサンプルにおける母平均の推定精度を指すものであり、サンプルサイズが大きくなるほど推定の精度が上がって、サンプルの平均が母平均に近い値を取りやすくなり、標準誤差が小さくなります。回答者の人数が多いほど推定精度が高まる状態が、標準誤差の計算に反映されているわけです。
差の平均を標準誤差で割ることで、その差がどれほど標準的な変動から離れているかを数値化できます。この値が大きいほど、観測された差が偶然では説明しにくいことを示します。
この計算式を具体例で説明しましょう。例えば、10人の参加者に対してリーダーシップ研修を行い、研修前後でリーダーシップ・スコアを測定したとします。各参加者の研修前後のスコアの差を計算し、その差の平均が2点、差の標準偏差が1点だったとします。
この場合、t値は次のように計算できます。
t=2/(1/√10)
計算の結果、t値は約6.32となります。
計算式を見ればわかりますが、差の平均が大きいほど、t値は大きくなります。例で言うと、研修の効果が大きいほど、t値が大きくなることを意味します。
また、差の標準偏差が小さいほど、t値は大きくなります。これは、参加者間で研修の効果のばらつきが小さいほど、t値が大きくなることを表しています。
差の標準偏差が小さいほどt値が大きくなるのは、データのばらつきが小さいほど、観測された平均差がより信頼できるものとなるためです。ばらつきが小さいということは、研修の効果が参加者間で一貫していることを示唆します。
例えば、全ての参加者のスコアが同じように2点上昇した場合(標準偏差が0)と、ある参加者は10点上昇し、ある参加者は6点下降したような場合(標準偏差が大きい)を比較してみましょう。平均差が同じ2点であっても、前者の方がより信頼できる結果と言えます。標準偏差が小さいということは、このような一貫性を数値化したものです。
さらに、サンプルサイズが大きいほど、t値は大きくなります。より多くの参加者データがあるほど、結果の信頼性が高まることを反映しています[3]。
ところで、t検定では、算出されたt値を解釈するために「自由度」を用います。対応ありのt検定の場合、自由度は(サンプルサイズ-1)となります。
対応ありのt検定において、自由度は、t分布の形状を決定するパラメータとなります。t分布は、小さなサンプルサイズでも使用できるように設計された確率分布で、自由度によってその形状が変わります。自由度が小さいとき、t分布は裾が厚く、自由度が大きくなるにつれて正規分布に近づいていきます。
自由度を用いてt分布を参照することで、観測されたt値がどの程度珍しいものかを判断し、統計的に有意かどうかを検討します。
手順
先の計算式の説明で部分的に言及しましたが、対応ありのt検定を実施する手順を整理しておきましょう。
- データの収集:同じ人から二つの条件下(例えば、研修前と研修後)でデータを収集します。
- 差の計算:各被験者の二つの測定値の差を計算します。
- 差の平均と標準偏差の計算:全員の差の平均と標準偏差を計算します。
- t値の計算:計算式を用いてt値を算出します。
- 自由度の設定:サンプルサイズから自由度を求めます。
- p値の算出:計算されたt値と自由度を用いて、p値を求めます。
- 結果の解釈:得られたp値が設定した有意水準(通常5%または1%)よりも小さければ、帰無仮説を棄却し、二つの条件間に統計的に有意な差があると判断します。
効果量
統計的有意性は実質的な差の大きさを意味しません。特に、大きなサンプルサイズでは、小さな差でも統計的に有意になる可能性があります。
そこで、統計的有意性を示すp値だけでなく、効果量を確認することが大事です。効果量は、観測された差の大きさを標準化した指標で、実質的な差の大きさを表します。
対応ありのt検定における一般的な効果量の指標は、Cohen’s dです。対応ありデータにおけるCohen’s dは「t値/√サンプルサイズ」で求めます[4]。dが0.2で小さい差、0.5で中程度の差、0.8で大きい差と解釈するという目安があります。
利点と注意点
対応ありのt検定には、いくつかの利点があります。
- 個人差を部分的に制御できます。同じ人の二つの条件下や時点でのデータを比較するため、個人間の変動による影響を減らすことができます。
- 一般的に高い検出力を持ちます。同じサンプルサイズの対応なしのt検定と比較して、小さな差でも検出できる可能性が高くなります。高い検出力は、実際に存在する効果を見逃す可能性を減らすという点で利点となります。
- 対応ありのt検定は、対応なしのt検定と比べて、同じ検出力を得るために必要なサンプルサイズが少なくて済みます。これは、リソースや時間が限られている場合に有用な利点と言えるでしょう。
しかし、対応ありのt検定を使用する際には注意点もあります。
- データの独立性を確保する必要があります。各ペアは互いに独立している必要があり、ある参加者のスコアが別の参加者のスコアに影響を与えていると、解釈には慎重になる必要があります。
- 外部要因の影響も考慮する必要があります。例えば、研修効果を測定する際、研修以外の要因(例えば、業務スキルや経験など)が結果に影響を与えている可能性も考慮しなければなりません。
- 対応ありのt検定は基本的に2時点の比較に適しています。3時点以上の比較を行う場合、この手法では適切に分析を行うことができません。例えば、研修前、研修直後、研修3ヶ月後の3時点でデータを収集した場合、対応ありのt検定だけでは十分な分析ができません。
- 対応ありのt検定はグループ間の比較には適していません。例えば、異なる研修プログラムの効果を比較したい場合、対応ありのt検定だけでは不十分です。
まとめ
対応ありのt検定は、人事領域のデータ分析において有用な手法になり得ます。例えば、研修効果の測定や組織変革の評価など、同じ対象の二つの条件や時点を比較する場面で威力を発揮します。
この手法の主な長所は、個人差を制御しつつ小さな変化も検出できる高い検出力にあります。しかし、正しく使用するためには、データの性質や分析の前提条件をよく理解し、結果の解釈には慎重さが求められます。
また、対応ありのt検定の限界を理解し、必要に応じて他の分析手法も検討することが大事です。3時点以上の比較や非線形的な変化、グループ間の比較などが必要な場合は、反復測定分散分析や潜在成長曲線モデルなど、高度な統計手法の使用を検討する必要があります。
脚注
[1] t検定そのものの詳細な解説は当社コラムを参考にしてください。
[2] ここにおけるサンプルサイズはペアの数です。
[3] この点には注意が必要で、大きなサンプルサイズでは、効果の大きさにかかわらず、非常に小さな差でも統計的に有意になることがあります。このため、サンプルサイズが大きい場合でも、後述の効果量を確認し、実質的な差が存在するかを検討することが重要です。
[4] 差の効果量に関する詳細な解説は当社コラムをご覧ください。
執筆者
伊達 洋駆 株式会社ビジネスリサーチラボ 代表取締役
神戸大学大学院経営学研究科 博士前期課程修了。修士(経営学)。2009年にLLPビジネスリサーチラボ、2011年に株式会社ビジネスリサーチラボを創業。以降、組織・人事領域を中心に、民間企業を対象にした調査・コンサルティング事業を展開。研究知と実践知の両方を活用した「アカデミックリサーチ」をコンセプトに、組織サーベイや人事データ分析のサービスを提供している。著書に『60分でわかる!心理的安全性 超入門』(技術評論社)や『現場でよくある課題への処方箋 人と組織の行動科学』(すばる舎)、『越境学習入門 組織を強くする「冒険人材」の育て方』(共著;日本能率協会マネジメントセンター)などがある。2022年に「日本の人事部 HRアワード2022」書籍部門 最優秀賞を受賞。東京大学大学院情報学環 特任研究員を兼務。