2025年3月13日
偏相関分析:第三の変数の影響を取り除く
組織サーベイを実施する企業が増えました。結果を分析する際に、「相関分析」を用いるケースもあるかもしれません。相関分析は、二つの変数間の関係性を見る手法として広く知られていますが、相関分析だけでは十分に現象を理解できない場合があります。
そこで注目すると良いのが「偏相関分析」という手法です。偏相関分析は、相関分析を一歩進めた手法で、より正確に変数間の関係を把握することができます。しかし、その考え方や計算方法は一見複雑に見え、敬遠されがちです。
本コラムでは、偏相関分析について解説していきます。組織サーベイのデータを例に挙げながら、偏相関分析の意義、手順、解釈の仕方を説明します。皆さんのデータに関する理解が深まり、効果的な施策立案につながることを願っています。
相関分析の基本
初めに、偏相関分析を理解するための前提となる相関分析について簡単におさらいします[1]。
相関分析とは、二つの変数の間にどのような関係があるかを調べる手法です。例えば、「従業員満足度」と「生産性」の間に関係があるかを知りたい場合に用いることができます。
相関分析の結果は「相関係数」という値で表されます。相関係数は-1から+1の間の値をとり、次のように解釈します。
- 正の値:一方が高いと、もう一方も高い関係
- 負の値:一方が高いと、もう一方は低い関係
- 0に近い値:二つの変数にあまり関係がない
従業員満足度と生産性の相関係数が0.7だった場合、「従業員満足度が高い人ほど、生産性も高い傾向がある」と解釈できます[2]。
しかし、相関分析には落とし穴があります。それは「見せかけの相関」と呼ばれるものです。
見せかけの相関と第三の変数
「見せかけの相関」とは、実際には直接的な関係がないにもかかわらず、相関があるように見えてしまうことです。これは例えば「第三の変数」の影響によって起こります。
ある会社で「従業員満足度」と「生産性」の相関を調べたところ、強い正の相関(相関係数0.7)が見られたとします。一見すると「従業員満足度と生産性は関連している」と考えたくなりますが、ここに落とし穴があるかもしれません。
というのも、この二つの変数の関係に影響を与える「第三の変数」が存在する可能性があります。例えば「勤続年数」という変数を考えてみましょう。
- 勤続年数が長い従業員ほど、仕事に慣れて満足度が高くなるかもしれません。長年の経験によってスキルが向上し、自信を持って仕事に取り組めるようになるためです。職場風土や人間関係にも慣れ、ストレスが減少することで満足度が上がる可能性もあります。
- 勤続年数が長い従業員ほど、経験を積んで生産性が高くなるかもしれません。長年の業務経験によって効率的な仕事の進め方を身につけ、迅速に業務をこなせるようになり得ます。業界や会社特有の知識が蓄積され、複雑な問題にも対応できるようになることで、生産性が向上します。
仮に、このような関係があった場合、実際には「勤続年数」が「従業員満足度」と「生産性」の両方に影響を与えているにもかかわらず、相関分析では「従業員満足度」と「生産性」に直接的な関係があるように見えてしまいます。
こうした「見せかけの相関」を見抜き、より正確に変数間の関係を把握するための手法が「偏相関分析」です。
偏相関分析とは
偏相関分析は、二つの変数の関係を見る際に、他の変数(第三の変数)の影響を取り除いた上で相関を計算する手法です。「もし第三の変数の程度が一定だったら、二つの変数の間にどのくらいの相関があるか」を示すものです[3]。
まるで実験室で条件を統制するように、データ上で特定の変数の程度を一定に保つことでその影響を取り除きます。例えば、年齢や性別、学歴などの影響を取り除いて、本当に知りたい二つの変数の関係を抽出します。
先ほどの例では「勤続年数」の影響を取り除いた上で、「従業員満足度」と「生産性」の関係を見ることができます。そのことによって、勤続年数に関係なく、従業員満足度と生産性の間にどれくらいの関連があるのかを知ることができます。
「もし勤続年数が同じであれば、満足度の高い人は生産性も高い傾向にあるのか」という問いを模索するイメージです。勤続年数という要因を考慮に入れた上で、従業員満足度と生産性の間に関係があるのかを理解できます。
統制の考え方
偏相関分析を理解する上で重要なのが「統制」という考え方です。統制とは、ある特定の変数の影響を取り除くことを意味します。
日常生活の例で考えてみましょう。例えば、「運動時間」と「体重減少量」の関係を調べたいとします。単純に相関を見ると、運動時間が長い人ほど体重減少量が多いという結果が得られそうです。
しかし、ここで「摂取カロリー」という第三の変数を考えてみましょう。運動をよくする人は食事にも気をつけている可能性が高く、それが体重減少に影響しているかもしれません。この場合、「摂取カロリー」の影響を統制することで、純粋に運動時間が体重減少に与える影響を見ることができます。
「同じカロリーの食事を摂っている人たちの中で、運動時間が長い人ほど体重減少量が多いのか」という関係を見ることができるのです。統制によって、運動時間と体重減少量のより正確な関係を把握できます。
組織サーベイのデータでも同様のことが言えます。例えば、「従業員満足度」と「生産性」の関係を見る際に、「勤続年数」の影響を統制することで、より正確な関係を把握できるということです。
偏相関分析の手順
偏相関分析はどのように行うのでしょうか。計算方法を簡単に紹介しましょう。
初めに、関係を調べたい二つの変数(変数A、変数B)と、統制したい変数(変数C)の間で、それぞれ相関係数を計算します。
- r_AB:変数Aと変数Bの相関係数
- r_AC:変数Aと変数Cの相関係数
- r_BC:変数Bと変数Cの相関係数
続いて、これらの相関係数を用いて偏相関係数を計算します。偏相関係数の計算式は次のように表すことができます。
(r_AB-r_AC*r_BC)/√[(1-r_AC^2)*(1-r_BC^2)]
この計算式によって「変数Cの影響を統制した上での、変数Aと変数Bの偏相関係数」を出すことができます。式は一見複雑に見えますが、それぞれの項には意味があります。
分子ですが、「r_AB」は変数AとBの元の相関、「r_AC*r_BC」は変数Cを介したAとBの間接的な相関を指します。これらの差分は、Cの影響を除いたAとBの直接的な関係を表します。
他方、分母において、「1-r_AC^2」は変数Aの、Cで説明できない部分(変動)、「1-r_BC^2」は変数Bの、Cで説明できない部分(変動)を表しています。これらの積の平方根は、Cで統制されていないAとBの変動の程度です。
分子を分母で割ることによって、Cの影響を除いたAとBの関係の強さを標準化しています。この式により、第三の変数(C)の影響を取り除いた上で、AとBの関係の強さを-1から+1の範囲で表現できます。
組織サーベイの例示
少し抽象的な説明になったので、組織サーベイの例を用いて、偏相関分析の手順を見てみたいと思います。例えば、ある会社で100人の従業員を対象にデータを収集したとします。
A:従業員満足度(10点満点)
B:生産性(1日あたりの処理タスク数)
C:勤続年数(年)
それぞれの相関係数を計算したところ、次の結果が得られました。
r_AB(従業員満足度と生産性)=0.70
r_AC(従業員満足度と勤続年数)=0.80
r_BC(生産性と勤続年数)=0.75
これらの値を偏相関係数の式に当てはめると・・・
(0.70-0.80*0.75)/√[(1-0.80^2)*(1-0.75^2)]
=(0.70-0.60)/√[(1-0.64)*(1-0.5625)]
=0.10/√(0.36*0.4375)
=0.10/0.3969
=約0.25
計算の結果、勤続年数の影響を統制した後の従業員満足度と生産性の偏相関係数は約0.25となりました。
偏相関係数の解釈
偏相関係数の解釈は、基本的には相関係数と同様です。-1から+1の間の値をとり、絶対値が大きいほど強い関係を示します。ただし、偏相関係数は通常の相関係数よりも小さくなります。他の変数の影響を取り除いているからです。
先ほどの例で言えば、従業員満足度と生産性の相関係数は0.70でしたが、勤続年数の影響を統制すると0.25に下がりました。これは、見かけ上の相関の多くが勤続年数の影響によるものだったことを表しています。
偏相関係数においては、一般的な相関係数の評価基準(例:0.1-0.3を弱い相関、0.3-0.5を中程度の相関とするなど)を参考にしつつも、これらをそのまま適用することは適切ではない場面もあります。
絶対的な大きさよりも、統制前の相関係数からの変化の程度が重要な情報となります。先ほどの例では、勤続年数の影響を統制すると、従業員満足度と生産性の間の相関は大幅に弱まりましたが、それでもわずかながら正の相関が残っています。
勤続年数に関係なく、従業員満足度が高い人はやや生産性も高い傾向にあると言えるでしょう。しかし、その関係は当初考えていたほど強くないことが分かります。
偏相関分析を用いる場合
どのような場合に偏相関分析を用いると良いでしょうか。それは、二つの変数間の相関が予想以上に高い、または低い場合です。そうした場合、もしかすると、背後に第三の変数の影響がある可能性があります。「見せかけの相関」を疑う理由がある場合、偏相関分析が有効です。
例えば、ある企業で「社員食堂の利用頻度」と「生産性」の間に強い正の相関が見られたとします。一見すると「社員食堂をよく利用する人ほど生産性が高い」と解釈できますが、これは本当でしょうか。
ここで、「勤務時間」という第三の変数を考えてみましょう。長時間勤務の社員ほど社員食堂を利用する機会が多く、また長時間勤務によって生産性(総量)も高くなっているかもしれません。この場合、「勤務時間」の影響を統制した偏相関分析を行うことで、社員食堂の利用と生産性の関係をきちんと見ることができます。
結果的に、偏相関係数が小さくなれば、当初の強い相関は「見せかけ」だったと判断できます。「社員食堂の利用を促進すれば生産性が上がる」といった誤った推論を避けることができます。
偏相関分析の限界
偏相関分析は他の手法と同じく完ぺきな手法ではなく、いくつかの限界があります。限界を踏まえた上で偏相関分析を用いることが大事です。
- 偏相関分析は、ある要因の影響を取り除いた上で、二つの変数の関係を見る方法です。二つの変数間の関連性を示すことはできますが、どちらが原因でどちらが結果なのかを明らかにすることはできません。偏相関分析で強い関連性が見られたとしても、それだけでは因果関係を断定することはできないということです。
- 偏相関分析は、二つの変数間の関係が直線的であることを前提としています。しかし、現実の組織ではもっと複雑な関係がしばしば見られます。例えば、ある要因が増加すると最初は良い効果があるものの、ある点を超えると逆に悪影響を及ぼすといった「逆U字型」の関係などがあります。
- 偏相関分析は、通常の相関分析と同様に、極端な値を持つデータ(外れ値)の影響を受けやすいという特性があります。大勢のデータとは傾向が異なる非常に特殊なデータが数個あると、全体の分析結果に大きな影響を与えることがあります。外れ値の影響で、偏相関係数が大きく変化し、実際の傾向とは異なる結果が導き出される恐れがあるのです。
標準的な偏相関分析では、変数間の交互作用(相乗効果)が考慮されていません。例えば、二つの要因が組み合わさることで初めて強い効果を発揮する場合や、逆に一方の要因が高いレベルにある時にのみ、他方の要因が効果を持つような場合があります。このような複雑な関係性は、標準的な偏相関分析では捉えることができません。
脚注
[1] 相関分析の詳細は当社コラム(https://www.business-research-lab.com/230619-2/)をご確認ください。
[2] 相関係数は線形関係を示し、因果関係を意味するものではありません。
[3] 偏相関分析も相関分析と同じく線形関係を扱い、非線形の関係や交互作用は考慮されないことに注意が必要です。
執筆者
伊達 洋駆 株式会社ビジネスリサーチラボ 代表取締役
神戸大学大学院経営学研究科 博士前期課程修了。修士(経営学)。2009年にLLPビジネスリサーチラボ、2011年に株式会社ビジネスリサーチラボを創業。以降、組織・人事領域を中心に、民間企業を対象にした調査・コンサルティング事業を展開。研究知と実践知の両方を活用した「アカデミックリサーチ」をコンセプトに、組織サーベイや人事データ分析のサービスを提供している。著書に『60分でわかる!心理的安全性 超入門』(技術評論社)や『現場でよくある課題への処方箋 人と組織の行動科学』(すばる舎)、『越境学習入門 組織を強くする「冒険人材」の育て方』(共著;日本能率協会マネジメントセンター)などがある。2022年に「日本の人事部 HRアワード2022」書籍部門 最優秀賞を受賞。東京大学大学院情報学環 特任研究員を兼務。