ビジネスリサーチラボ

open
読み込み中

コラム

t検定の種類と使い分け:対応ありと対応なしの違い

コラム

データは、私たちの目には見えない事実を語ってくれます。人事の領域では、例えば、組織サーベイを通じて、組織の状態を可視化することができます。しかし、データを集めるだけでは十分ではありません。データの中に潜む意味を見出すためには、適切な分析手法を選択し、正しく解釈する必要があります。

その中でも重要な分析手法の一つが「t検定」です。t検定は、2つの群の平均値を比較し、その差が有意かを検討する手法です。例えば、新しい人事制度の導入効果を評価したり、部門間のエンゲージメントの違いを分析したりする際に用います。

t検定には「対応なし」と「対応あり」という2つの種類があり、状況に応じて方法を選択する必要があります。間違った方法を選択してしまうと、せっかくの分析が無意味になってしまうだけでなく、誤った判断につながる危険性もあります。

本コラムでは、2つのt検定の違いについて、組織サーベイのデータを例に解説します。手法の説明だけでなく、それぞれの検定方法がなぜ必要なのか、どのような場面で使うと良いのかについても理解を深めていきます。

2つのt検定の考え方

対応なしのt検定は、互いに独立した2つの集団を比較する際に使用します。例えば、営業部門と経理部門のエンゲージメントスコアを比較する場合がこれに当たります。この場合、営業部門の社員と経理部門の社員は別々の人であり、互いのスコアには関連性がありません。「互いに独立」とは、このように比較する2グループの回答者が違っている状態を指します。

対応なしのt検定は、異なる特性や属性を持つグループ間の比較にも適しています。例えば、新卒採用者と中途採用者のエンゲージメントの違いを分析する場合や、異なる職種間でのモチベーションの差を検証する場合などにも使用できます。このように、独立した集団間の差異を統計的に評価する際の手段となります。

他方で、対応ありのt検定は、同じ対象を異なる時点や条件で比較する際に使用します。例えば、新しい人事制度を導入する前と後で、同じ社員グループのエンゲージメントスコアを比較する場合がこれに当たります。この場合、比較する2つのデータは同じ社員から得られたものであり、データが互いに独立しておらず対応関係があります。

対応ありのt検定の特徴は、個人レベルでの変化を検討できる点にあります。例えば、研修の効果を測定する際に、参加者一人ひとりの研修前後のスキルレベルを比較することで、プログラムの有効性を評価することができます。このように、時系列での変化や介入効果を検証する際に強力な手段となります。

データ収集と構造の特徴

対応なしのt検定では、2つの独立した集団からデータを収集します。例えば、新入社員100名と中堅社員100名のエンゲージメントスコアを比較する場合、これらは別々の集団となります。この場合、各群のデータは互いに影響を与えることなく、独立して存在します。

データの構造としては、「グループA(新入社員)のスコア」と「グループB(中堅社員)のスコア」という2つの独立した列でデータを管理します。各社員は、どちらか一方のグループにのみ属することになります。

調査デザインとしては、1回の調査で2つの異なる集団からデータを収集することが多いでしょう。例えば、ある時点で全社員に組織サーベイを実施し、その結果を部門別や役職別に比較するような場合です。

対応なしのt検定では、各グループのサンプルサイズが異なっていても分析が可能です。例えば、営業部門が80名、経理部門が50名といった場合でも、統計的調整を行うことで比較することができます。

対して、対応ありのt検定においては、同じ対象から2回データを収集します。例えば、新しい福利厚生制度を導入する前と後で、同じ社員グループのエンゲージメントスコアを比較する場合がこれに当たります。

データの構造としては、「社員ID」「導入前のスコア」「導入後のスコア」という形で、各社員につき2つの測定値が対応づけられた形になります。この場合、各社員の導入前と導入後のスコアには対応関係があります。

この対応関係は重要な意味を持っており、なぜなら、同じ個人から得られた2つの測定値には、その個人特有の傾向や特性が反映されているからです。

例えば、普段から物事を肯定的に捉える傾向のある社員は、制度導入の前後どちらの時点でも比較的高いスコアをつける可能性が高く、逆に批判的な視点を持つ社員は、両時点で比較的低いスコアをつける傾向があるかもしれません。対応ありのt検定では、このような個人差の影響を統計的に制御することができ、より純粋な「変化」を検討することが可能となります。

調査デザインとしては、同じ対象に対して時間をおいて2回調査を実施するか、または同じタイミングで関連する2つの指標を測定することになります。例えば、同じ社員に対して半年間隔で組織サーベイを実施し、その変化を見る場合などが該当します。

対応ありのデザインでは、測定タイミングを考えることが大事です。例えば、制度導入前後の比較を行う場合、全ての対象者で同じような時間間隔を確保することが望ましいです。これによって、時間経過による影響を均一に制御することができます。

具体的な分析手順

対応なしのt検定では、2つの独立した集団の平均値を直接比較します[1]。例えば、営業部門のエンゲージメントスコアの平均値が3.8、経理部門の平均値が4.2だった場合、これらの差が統計的に意味のある差なのかを検証します。

この比較において、各部門内でのばらつきを考慮します。平均値が異なっていても、そのばらつきが大きければ、その差は偶然による可能性が高くなるからです。例えば、営業部門のスコアが2.5から5.0まで大きくばらついており、経理部門も3.0から5.5まで同様にばらついているような場合、平均値の差0.4は、このばらつきと比べて十分に大きいとは言えない可能性があります。

検定の手順としては、初めに各集団の平均値と標準偏差を計算します。続いて、2つの集団の分散(ばらつき)を考慮しながら、平均値の差が統計的に有意なものかを判断します。

このとき、2つの集団は独立しているため、それぞれの集団の分散を別々に扱う必要があります。各部門には固有の特徴があり、それによってデータのばらつき方が異なる可能性があります。例えば、営業部門では個人の裁量が大きく、意見やスコアにばらつきが出やすい一方で、経理部門では業務が標準化されており、比較的均一な回答が得られやすいかもしれません。

例えば、営業部門50名、経理部門45名のデータがある場合、それぞれの部門で平均値と標準偏差を計算し、これらの値を使って検定を行います。このとき、2つの部門のデータは独立したものとして扱われます。

これに対して、対応ありのt検定では、対応するデータの差を基に分析を行います。例えば、新制度導入前の各社員のエンゲージメントスコアから、導入後のスコアを引いた「差分」を計算し、この差分の平均が0と異なるかどうかを検証します。

具体的には、各社員について「導入後のスコア-導入前のスコア」という差分を計算します。例えば、ある社員の導入前スコアが3.5で導入後が4.0だった場合、この社員の差分は+0.5となります。もし別の社員が導入前に4.2で導入後に4.5だった場合、その差分は+0.3となります。このように、すべての社員について差分を計算し、これらの差分の平均値が統計的に見て0より大きいか(つまり、全体として前よりも後の方が高くなっているか)を検証します。

対応ありのt検定の特徴は、個人内での変化に着目する点です。この特徴によって、個人差による影響をうまく制御することができます。

例えば、もともとエンゲージメントスコアが高い傾向にある社員(例えば常に4.0以上をつける社員)と、低い傾向にある社員(例えば常に3.0前後をつける社員)がいたとしても、差分を取ることでこの個人の傾向を相殺することができます。「その人にとって」スコアが上がったのか下がったのかを、その人の元々の回答傾向に関係なく評価できるのです。

対応ありのt検定では、個人の傾向を相殺するために、計算において測定値間の相関が考慮されます。一般的に、同一個人から得られた2つの測定値の間には正の相関があることが多いでしょう。1回目の測定で高い値を示した人は2回目でも比較的高い値を示し、1回目で低い値を示した人は2回目でも比較的低い値を示す傾向があります。

例えば、研修前のスキル評価が高かった社員は、研修後の評価も比較的高くなります。これは、その人の基本的な能力や特性が両方の測定値に影響を与えているためです。対応ありのt検定は、このような相関を考慮に入れた分析を行うことで、より正確に「変化」を検出することができます。

統計的検出力と分散の関係

分析において、データのばらつき(分散)をどのように扱うかは、結果の信頼性に影響します。対応なしと対応ありのt検定では、分散の扱い方が異なります。

対応なしのt検定では、2つの集団それぞれの分散を独立して考えます。例えば、営業部門と経理部門のエンゲージメントスコアを比較する場合、各部門内での個人差や、部門特有の要因による分散が含まれます。この場合、全体的な分散が大きくなりやすく、その結果として、実際の差を検出しにくくなる可能性があります。

さらに、各群の特性による影響も分散に含まれます。例えば、部門による文化の違いや、業務特性の違いなども、データのばらつきの一部となります。これらの要因によって、検定の感度(検定力)が低下する可能性があります。

サンプルサイズの違いも分散の評価に影響を与えます。例えば、一方の部門の人数が極端に少ない場合、その部門の分散の推定精度が低下し、検定結果の信頼性に影響を与える可能性があります。

一方、対応ありのt検定では、同じ人の測定値の差を使用することで、個人差による分散をうまく取り除くことができます。例えば、ある施策の前後で同じ社員のエンゲージメントスコアを比較する場合を考えてみましょう。

仮に、ある社員が普段から物事を肯定的に評価する傾向があり、別の社員が批判的に評価する傾向があるとします。このような個人の特性は、施策の前後どちらの測定でも同じように影響します。

対応ありのt検定では差分を取ることで、このような個人固有の傾向を相殺することができます。「その人にとって」どれだけスコアが変化したのかを評価することができるのです。

この特徴によって、対応ありのt検定は一般的に高い検定力を持つことになります。検定力とは、実際に存在する差を正しく検出できる能力のことです。同じサンプルサイズであっても、より小さな変化を統計的に検出できる可能性が高くなります。

例えば、新しい制度の導入効果を評価する場合、劇的な変化だけでなく、小さな改善も見逃さずに検出できるかもしれません[2]。エンゲージメントスコアが5点満点で0.2点程度の微細な改善であっても、それが一貫した傾向として現れていれば、統計的に意味のある変化として検出できる可能性があります[3]

対応ありのt検定では、測定値間の相関の強さが検定力に影響します。同一個人から得られた2つの測定値の間には強い相関関係が存在するものです。例えば、短期間(例えば1ヶ月程度)での前後比較の場合、個人の基本的な性格や考え方は大きく変化しないため、2つの測定値の間には相関が見られます。このような場合、対応ありのt検定の検定力は高くなります。個人の基本的な特性による変動を制御できるからです。

誤用がもたらすリスク

適切でない検定方法を選択した場合、分析結果の信頼性が損なわれる可能性があります。これは統計的な問題にとどまらず、実務上の意思決定にも影響を与える可能性がある問題です。

対応なしのt検定を使うべき場面で、対応ありのt検定を使用した場合のリスクを考えてみましょう。例えば、営業部門と経理部門のエンゲージメントスコアを比較する際に、測定順(データの並び順)で対応付けて分析してしまうケースを考えます。

営業部門の1番目のデータと経理部門の1番目のデータ、営業部門の2番目のデータと経理部門の2番目のデータというように、意味のない対応付けを行ってしまう場合です。このような対応付けには根拠もなく、全くの偶然による組み合わせに過ぎません。

こうした誤用は、統計的な誤差を過小評価することにつながります。その結果、実際には意味のない差であっても、それを誤って「統計的に有意な差がある」と判断してしまう可能性が高まります。

例えば、実際には部門間で実質的な差がないにもかかわらず、あたかも「経理部門の方が営業部門よりも明らかにエンゲージメントが高い」というような誤った結論を導き出してしまうかもしれません。誤った分析結果に基づいて施策を立案すると、社員と組織にとって不適切な意思決定につながります。

逆に、対応ありのt検定を使うべき場面で対応なしのt検定を使用した場合も問題が生じます。データ間の重要な関連性を無視することになるためです。

例えば、新しい評価制度の導入効果を測定する際に、同じ社員の導入前と導入後のスコアを、まったく別々のデータとして扱ってしまうケースを考えてみましょう。この場合、「AさんのスコアがXから Y に変化した」という重要な情報を無視し、「導入前の全体平均」と「導入後の全体平均」を比較することになってしまいます。

これでは、個人レベルでの変化を正確に評価することができません。個人の基本的な傾向(例えば、常に高めに評価する傾向や低めに評価する傾向)による影響を制御することができなくなります。

こうした誤用は、検定力の低下をもたらします。実際には効果のある施策であっても、その効果を検出できない可能性が高まります。具体例として、研修の効果測定を考えてみましょう。

参加者の多くがスキルを向上させている場合でも、個人差による変動が大きく、その改善を統計的に検出できない可能性があります。「研修は効果がなかった」という誤った結論を導き出してしまうかもしれないのです。その結果、効果的な施策の中止や、必要な投資の見送りなど、不適切な意思決定をもたらしかねません。

適切な方法の選び方

適切な検定方法を選択するためには、データの収集方法と分析の目的を検討することが重要です。まず、データの収集方法を確認します。

同じ社員から2度データを収集する場合(例えば、半年ごとに組織サーベイを実施して比較)は、対応ありのt検定が適切です。この方法によって、時間経過に伴う変化を捉えることができます。組織変革や新制度の導入効果を測定する際には、この手法が有効でしょう。

継続的なモニタリングが必要な場合も、対応ありのt検定がおすすめです。例えば、研修の効果測定や、働き方改革の影響評価など、同一対象の経時的な変化を追跡する必要がある場合です。この場合、2回測定したデータの差を検証することで、個人レベルの変化を詳細に分析することが可能となります[4]

それに対して、異なる2つの集団を一度に比較する場合(例えば、部門間比較、職位間比較)は、対応なしのt検定を選択します。この方法は、組織の横断的な分析に適しています。例えば、異なる雇用形態間でのエンゲージメントの違いや、部門間での満足度の差異を評価する際に効果的です。

分析の目的も判断基準となります。時間の経過による変化や施策の効果を見たい場合は対応ありのt検定、異なる集団の特徴を比較したい場合は対応なしのt検定が適しています。こうした選択を通じて、目的に応じた分析ができます。

人事データの分析では、個人の変化と集団間の差異を区別することが重要でしょう。例えば、新しい評価制度の導入効果を測定する場合、同じ社員の変化を追跡することで、より正確な効果測定が可能となります。部門間の文化の違いを分析する場合は、独立した集団として扱うことで、より適切な比較が可能となります。

脚注

[1] 対応なしt検定を行う際、古典的な計算手法では比較する群の分散が等しいという仮定(等分散性)を置きます。しかし、多くの場合はこの仮定が満たされません。そのため、計算式を改良したWelcht検定を使用します。これは等分散性を仮定せずt検定の自由度計算を調整して対処する方法です。近年では、等分散の仮定を考慮せず常にWelcht検定を用いることが推奨されています。

[2] p値は統計的有意性を示す指標ですが、その解釈には注意が必要です。p<.05という基準を満たしたからといって、必ずしもその差が実務的に意味のある差とは限りません。とりわけ大規模なサンプルでは、わずかな差でも統計的に有意になりやすいものです。そのため、p値と併せて効果量を確認することが重要です。

[3] だからこそ、その差が十分に大きいものかをあわせて検討する必要があり、効果量も算出する必要があります。

[4] 同じ社員から3回以上データを測定して比較する場合、対応ありt検定を何度も繰り返さず、参加者内計画の分散分析を行います。


執筆者

伊達 洋駆 株式会社ビジネスリサーチラボ 代表取締役
神戸大学大学院経営学研究科 博士前期課程修了。修士(経営学)。2009年にLLPビジネスリサーチラボ、2011年に株式会社ビジネスリサーチラボを創業。以降、組織・人事領域を中心に、民間企業を対象にした調査・コンサルティング事業を展開。研究知と実践知の両方を活用した「アカデミックリサーチ」をコンセプトに、組織サーベイや人事データ分析のサービスを提供している。著書に『60分でわかる!心理的安全性 超入門』(技術評論社)や『現場でよくある課題への処方箋 人と組織の行動科学』(すばる舎)、『越境学習入門 組織を強くする「冒険人材」の育て方』(共著;日本能率協会マネジメントセンター)などがある。2022年に「日本の人事部 HRアワード2022」書籍部門 最優秀賞を受賞。東京大学大学院情報学環 特任研究員を兼務。

#伊達洋駆 #人事データ分析

アーカイブ

社内研修(統計分析・組織サーベイ等)
の相談も受け付けています