2025年4月2日
多重共線性の確認と対策:人事データ分析の落とし穴を回避する
「多重共線性」という言葉を耳にしたことはありますか。これは統計学の専門用語ではありますが、人事領域のデータ分析において重要な概念です。
例えば、組織サーベイでは、「上司からの信頼」「権限委譲」「成長機会」など、様々な影響指標を測定します。これらの影響指標がどのようにエンゲージメントなどの成果指標と関連しているかを正確に把握することが求められます。
しかし、影響指標が互いに強く関連している場合、各影響指標の個別の影響をうまく把握できなくなります。これが多重共線性の問題です。
本コラムでは、多重共線性とは何かを簡単に触れたうえで、多重共線性の評価、および、どのように対処すべきかについて解説します。
多重共線性とは
多重共線性とは、分析に用いる複数の影響指標の間に強い相関関係がある状態を指します。組織サーベイの例で考えてみましょう。
「上司からの信頼」と「権限委譲」という2つの影響指標が強く関連していたとします。上司から信頼されている従業員ほど、権限を委譲されやすいわけですから、そんなに無理のある仮定ではないでしょう。
このような状況では、「上司からの信頼」と「権限委譲」のそれぞれが、エンゲージメントにどの程度影響を与えているのかを個別に評価することが難しくなります。一方の要因の変化が他方の要因の変化を伴うからです。
多重共線性が存在すると、分析結果の解釈が困難になったり、結果の精度が低下したりする可能性があります。例えば、実際には両方の影響指標が重要であるにもかかわらず、分析結果では一方だけが重要に見えたり、逆に両方とも重要でないように見えたりすることがあります[2]。複数の影響指標のうち、それぞれが成果指標にどの程度影響しているかを検証した分析結果に、誤りが生じやすくなるのです。
したがって、信頼できる分析結果を得るためには、多重共線性の有無を確認し、適切に対処することが重要です。本コラムでは、この問題について掘り下げていきます。
VIF
VIF(Variance Inflation Factor)は、各影響指標の多重共線性の程度を個別に評価する指標です[3]。この指標は、ある影響指標が他の影響指標とどれほど線形関係にあるかを示します。ある影響指標の変動が他の影響指標によってどの程度説明されるかを表すということです。VIF は次の式で表すことができます。
VIF(Xj)=1/(1-R²j)
この式において、R²jが1に近づくほど(要するに、他の影響指標でXjをよく説明できるほど)、分母が0に近づき、VIFが大きくなります。例えば、R²jが0.9の場合、VIFは10になります(1/(1-0.9)=10)。これは、多重共線性によって推定値の分散が10倍に拡大されることを表現しています。
ここで、R²jは、影響指標Xjを他のすべての影響指標で回帰させた際の決定係数です。決定係数は、ある変数の変動がどの程度他の変数によって説明されるかを示すもので、0から1の値をとります。この項があるのは、ある影響指標が他の影響指標でどの程度説明できるかを測るためです。R²jが大きいほど、その影響指標は他の影響指標と強い関連があることを意味します。
1からR²jを引いているのは、説明されない部分(すなわち、その影響指標の独自性)の割合を求めているためです。VIFはこの独自性の逆数として定義されています。これによって、独自性が小さいほど(他の影響指標との関連が強いほど)VIFが大きくなるという直感的な解釈が可能になります。
例えば、「上司からの信頼」という影響指標についてVIFを計算する場合、まず「上司からの信頼」を従属変数、他のすべての影響指標を独立変数とする(重)回帰分析を行います。その結果得られた決定係数がR²jです。
この過程を通じて、「上司からの信頼」が他の影響指標とどの程度関連しているかを定量的に評価することができます。具体的には、このR²jが「上司からの信頼」の変動のうち、他の影響指標で説明できる割合を示しています。
VIFの値が1に近いということは、その影響指標が他の影響指標とほとんど相関がないことを意味します。これは、R²jが0に近い、つまり他の影響指標でその影響指標をほとんど説明できない状態です。
例えば、VIF=1.1はR²j=0.09に相当します。VIF=1.1とすると、1.1=1/(1-R²j)となり、1-R²j=1/1.1≈0.91と展開でき、R²j=1-0.91=0.09と導き出すことができます。この影響指標の変動の9%しか他の影響指標で説明できないことを示しています。
換言すれば、この影響指標の変動の91%は他の影響指標では説明できない独自の変動であることを意味します。これは、この影響指標が他の影響指標とほとんど関連がなく、独自の情報を提供しているということです。したがって、この影響指標は多重共線性の問題をほとんど引き起こさないと考えられます。
一方、VIFの値が大きくなるほど、その影響指標が他の影響指標と強い相関関係にあることを表します。VIF>10の場合、多重共線性が問題となる可能性があると言われる場合があります[4]。
VIF=10はR²j=0.9に相当します。というのも、VIF=10とすれば、10=1/(1-R²j)となり、1/10=1-R²jにすることができ、R²j=1-1/10=0.9と算出できます。
この場合、90%の変動が他の影響指標で説明されることになり、つまるところ、この影響指標の変動の90%は他の影響指標によって説明でき、独自の変動は10%しかないことを意味します。このような状況では、その影響指標の独自の寄与を正確に評価することが難しくなるかもしれません。
なぜなら、この影響指標の情報の大部分が他の影響指標によって既に説明されているため、この影響指標固有の効果を分離することが困難になるからです。この影響指標の効果と他の影響指標の効果を区別することが難しくなり、推定された偏回帰係数の解釈が不安定になります。
VIFが多重共線性を評価する際に用いられるのは、それが回帰係数の分散の増加を表しているからです。多重共線性が存在する場合、回帰係数の分散が増加します。ある影響指標の偏回帰係数の分散は、多重共線性がない場合の分散のVIF倍になります。
VIFが10の場合、その影響指標の偏回帰係数の分散は、多重共線性がない場合の10倍になります。これは、推定の不確実性がかなり大きくなることを意味します。その結果、偏回帰係数の推定値の信頼性が大きく低下します[5]。
このように、VIFは多重共線性の程度を直接的に分散の増加として表現するため、多重共線性の問題の深刻さを評価するのに適した指標となっています。
多重共線性への対処
多重共線性に対処するために、いくつかのアプローチがあります[6]。第一に、変数選択の方法があります。強い相関関係にある影響指標のうち、一方を分析から除外する方法です。例えば、「上司からの信頼」と「権限委譲」の相関が非常に高い場合、理論的根拠や過去の調査結果を参考に、より重要と考えられる影響指標を選択し、もう一方を除外します。
この方法の利点は、モデルが簡潔になり、解釈がしやすくなることです。また、残った影響指標の効果をより正確に推定できる可能性があります。例えば、「上司からの信頼」を残し「権限委譲」を除外した場合、「上司からの信頼」の効果をより明確に把握できるかもしれません。
しかし、この方法には注意点もあります。除外した影響指標の情報が完全に失われてしまうため、モデルの説明力が低下し得ます。また、どの影響指標を除外するかの判断が難しい場合もあります。特に、両方の影響指標が重要である場合、一方を除外することで、知りたかった情報を得られなくなります。
第二に、主成分分析を用いる方法があります。主成分分析は、相関のある多数の影響指標から、互いに無相関な少数の新しい変数(主成分)を作成する手法です。この手法は、元のデータの変動を最大限保持しつつ、次元を削減することができます。
次元を削減するというのは、多数の影響指標を少数の主成分に集約することを意味します。これによって、データの複雑性を減らしつつ、重要な情報を保持することができます。例えば、10個の影響指標を3つの主成分に集約することで、データの「次元」を10から3に減らすことができます。
組織サーベイの例では、様々な影響指標のうち「上司からの信頼」「権限委譲」「1on1ミーティングの頻度」という3つの影響指標があった際、これらが1つの主成分「上司との関係性の質」と解釈できるものに分析でまとめられ、それを用いて回帰分析がされます。この新しい主成分は、元の3つの影響指標の情報を集約したものとなります。具体的には、各影響指標に重みをつけて足し合わせたものになります。
例えば、次のようなイメージです(ここでの数値は例示であり、実際の値はデータに基づいて計算されます)。
上司との関係性の質=0.6*上司からの信頼+0.5*権限委譲+0.4*1on1ミーティングの頻度
主成分分析を用いる利点は、元の影響指標間の相関を取り除きつつ、できるだけ多くの情報を保持できることです。主成分分析は元のデータの変動を最大化する方向(第一主成分)を見つけ、次にそれと直交する方向で残りの変動を最大化する方向(第二主成分)を見つけ、というプロセスを繰り返します。
もう少し詳しく説明しましょう。
- 第一主成分は、元のデータの変動を最もよく説明する方向です。この方向に沿ってデータを投影したときに、データの散らばりが最大になる方向です。
- 第二主成分は、第一主成分と直交(垂直)し、残りの変動を最大化する方向です。第一主成分で説明できなかった変動のうち、最も大きな部分を説明する方向です。
- 以降の主成分でも、同様のプロセスを繰り返します。各主成分は前の主成分と直交し、残りの変動を最大化します。
こうした分析によって、元のデータの主要な特徴を失うことなく、次元を削減することができます。
主成分は、元の3つの影響指標の情報をできるだけ多く含んでいますが、それぞれの影響指標間の相関による問題を回避することができます。主成分は互いに直交(無相関)するように構成されるからです。したがって、多重共線性の問題を解決しつつ、元のデータの情報をできるだけ保持することができます。
ただし、主成分分析には注意点があります。主成分の解釈が難しくなる可能性があります。元の影響指標は具体的な意味を持っていましたが、主成分は複数の影響指標の組み合わせであるため、その意味を直感的に理解することが難しいことがあります[7]。また、主成分の数をいくつにするかという判断も必要になるでしょう。加えて、主成分分析で抽出される主成分はデータドリブンに定まるものであり、分析者が影響指標の組み合わせを指定できません。先の例「上司からの信頼」「権限委譲」「1on1ミーティングの頻度」の3指標が1つの主成分「上司との関係性の質」と解釈できるものにまとまったのは、分析モデルでそのような主成分が抽出されるよう指定したわけでなく、分析によってそういった主成分が結果的に抽出されたことを表します。
脚注
[1] 多重共線性の詳細な解説は当社コラムを参考にしてください。
[2] 多重共線性が回帰分析に与える影響として、回帰係数の分散は(X’X)^(-1)σ^2の対角要素で表されます(Xは各回答者n名、影響指標m個としたときのn行m列の影響指標データの行列、σ^2は残差分散)。多重共線性が存在すると(X’X)^(-1)の対角要素が大きくなり、結果として回帰係数の分散が増大します。これによって、推定値の不安定性が増し、サンプルの小さな変化で係数の符号が反転するなどの問題が生じる可能性があります。より詳細な説明は、当社コラムをご覧ください。
[3] 多重共線性を確認する他の方法として、相関行列や分散共分散行列の条件数(condition number)が挙げられます。条件数はデータを標準化した影響指標の行列の最大固有値を最小固有値で割った値として定義されます。この値が大きいほど、多重共線性の問題が深刻であることを示します。具体的には、条件数が30を超えると中程度の多重共線性が、100を超えると深刻な多重共線性があると考えられます。
また、相関行列の行列式を調べることも有効な方法です。行列式の値が0に近いほど、多重共線性の問題が大きいことを示します。これらの指標を用いることで、個々の変数間の関係だけでなく、指標群全体の線形従属性を評価することができます。
[4] ここで示したVIFのしきい値(10)は絶対的な基準ではありません。領域や目的によって異なります。例えば、より厳格な分析では5や4を基準とすることもあります。他方で、10より大きい値を許容する場合や、そもそもVIFを重要な判断基準として用いない場合もあります。いずれにせよ重要なのは、VIFの値だけでなく、理論的背景や他の指標、サンプルサイズ、そして回帰分析の結果も考慮し、総合的に判断することです。
[5] VIFが10の場合、偏回帰係数の推定値の標準誤差が√10(約3.16)倍に増加します。これによって、係数の95%信頼区間が約3.16倍広くなり、推定の精度が低下します。さらに、t値(係数を標準誤差で割った値)が1/√10(約0.316)倍に減少します。
その結果、実際には重要な影響を持つ変数が統計的に有意でないと判断されてしまう可能性が高まります。さらに、推定値自体も不安定になり、サンプルが少し変わっただけで大きく変動する可能性があります。
[6] 本コラムでは変数選択と主成分分析を紹介していますが、これら以外にも、多重共線性に対処するための方法はあります。
例えば、リッジ回帰やラッソ回帰などの手法は、回帰係数に制約を加えることで多重共線性の影響を軽減します。これらの手法は、係数の推定値を若干偏らせる代わりに、その分散を大幅に減少させる効果があります。また部分最小二乗法(PLS回帰)は、影響指標と成果指標の両方を考慮して新しい合成変数を作成し、多重共線性を回避しつつ予測精度を高めます。
[7] 厳密に言えば、抽出された各主成分の概念的な意味合いは積極的に解釈すべきではありません。主成分分析は各指標に共通する概念を捉えるよう重みづけ係数を計算したものでなく、「変動を最大化する」目的で重みづけ係数を決めているため、抽出された主成分の意味は正確にはわからないためです。
執筆者
伊達 洋駆 株式会社ビジネスリサーチラボ 代表取締役
神戸大学大学院経営学研究科 博士前期課程修了。修士(経営学)。2009年にLLPビジネスリサーチラボ、2011年に株式会社ビジネスリサーチラボを創業。以降、組織・人事領域を中心に、民間企業を対象にした調査・コンサルティング事業を展開。研究知と実践知の両方を活用した「アカデミックリサーチ」をコンセプトに、組織サーベイや人事データ分析のサービスを提供している。著書に『60分でわかる!心理的安全性 超入門』(技術評論社)や『現場でよくある課題への処方箋 人と組織の行動科学』(すばる舎)、『越境学習入門 組織を強くする「冒険人材」の育て方』(共著;日本能率協会マネジメントセンター)などがある。2022年に「日本の人事部 HRアワード2022」書籍部門 最優秀賞を受賞。東京大学大学院情報学環 特任研究員を兼務。