2025年3月31日
多重共線性:人事データ分析における落とし穴
ピープル・アナリティクスという言葉に現れているように、人事領域において、様々なデータを収集・分析し、その結果に基づいて施策を検討する企業が増えてきています。しかし、データ分析の世界には、一見して分かりにくい落とし穴が存在します。その一つが「多重共線性」です。
多重共線性とは、統計分析において複数の影響指標(予測に使用する要因)の間に強い相関関係がある状態を指します。例えば組織サーベイの結果を分析する際に、「上司からの信頼」と「上司からの権限委譲」といった項目が互いに強く関連している状況などで発生します。
これらの要因が互いに関連していることは当然のように思えるかもしれません。しかし、統計分析の観点からは、この状況が予想外の問題を引き起こす可能性があります。
本コラムでは、人事の皆さんに向けて、多重共線性について解説します。まず、多重共線性とは何を意味するのか、なぜそれが問題となるのか、どのような状況で発生しやすいのかを概念的に説明します。その上で、より技術的な側面からも、多重共線性について詳述します。
多重共線性とは何か
多重共線性とは、統計分析、特に重回帰分析において発生する現象です[1]。簡単に言えば、分析に使用する複数の影響指標の間に強い相関関係がある状態を指します。組織サーベイを例に考えてみましょう。
組織サーベイでは、従業員のエンゲージメントなどに影響を与える様々な要因を調査します。例えば、「上司からの信頼」「上司からの権限委譲」「上司との1on1ミーティングの頻度」「上司からのフィードバックの質」「上司のリーダーシップスキル」などの項目があるかもしれません。これらの項目は、従業員のエンゲージメントを予測するための影響指標として使用されます。
多重共線性が発生するのは、これらの影響指標の中で、2つ以上の変数が互いに強く関連している場合です。例えば、「上司からの信頼」と「上司からの権限委譲」が非常に強い相関関係にあるケースを考えてみましょう。上司から信頼されている従業員は同時に多くの権限を委譲されている傾向にあり、逆も然りという状況です。
多重共線性が問題となる理由
多重共線性が存在すると、モデルのパラメータの推定が不安定になります。これは、相関の強い変数間で、どちらがどの程度エンゲージメントに影響を与えているのかを区別することが難しくなるためです。
具体的な問題として、データにわずかな変化があっただけで、推定されるパラメータが大きく変動する可能性があります。例えば、サンプルからいくつかのデータを除外したり、新しいデータを追加したりしただけで、「上司からの信頼」の係数が正の値から負の値に変わってしまうかもしれません。このような不安定さは、分析結果の品質を損ねます。
さらに、推定の不安定性によって、どの要因がエンゲージメントに本当に関連しているのかを把握することが困難になります。例えば、実際には「上司からの信頼」がエンゲージメントに強い正の関連があるにもかかわらず、多重共線性の影響で、その関連が過小評価されたり、場合によっては負の関連があるという結果が導き出されたりする可能性があります。
多重共線性が発生する状況
人事データ分析の文脈で考えると、多重共線性は様々な状況で発生し得ます。
典型的には、類似した概念を別々の影響指標として扱う場合に多重共線性が生じやすくなります。例えば、「上司からの信頼」と「上司からの権限委譲」は、上司と部下の関係性という観点から見ると非常に近い概念です。これらを別々の影響指標として扱うと、強い相関関係が生じる可能性があります。
派生変数を使用する場合も多重共線性のリスクがあります。例えば、「総労働時間」と「残業時間」を別々の影響指標として扱う場合を考えてみましょう。残業時間は総労働時間から派生した変数です。そのため、強い相関関係が生じます。具体的には、総労働時間が増えれば残業時間も増える傾向にあり、逆も然りです。
ただし、ここで重要なことがあります。それは、多重共線性について特に気にするべきなのは、自分たちが関心を持っている影響指標に多重共線性がある場合だということです。重回帰分析の主な目的の一つが、関心のある複数の影響指標が成果指標(例えば、エンゲージメント)とどのように関連しているかを理解することだからです。
例えば、「上司からの信頼」と「上司からの権限委譲」が両方とも重要な影響指標だと考えているときに、これらの間に強い相関があると、それぞれの独自の効果をきちんと把握することが難しくなります。
一方で、統制変数(その変数による影響を取り除くことが目的の変数)の間に多重共線性がある場合は、相対的に問題の深刻さは低いと言えます。統制変数は、主な関心のある影響指標と成果指標の関係をより正確に把握するために使用されます。
例えば、従業員の年齢や勤続年数などを統制変数として用いることがあります。これらの変数間に多重共線性があっても、主な関心事である「上司からの信頼」や「権限委譲」の効果を推定する能力に対しては直接的な影響を大きく与えるものではありません。
というのも、統制変数については、その偏回帰係数の推定値が正確かどうかは実のところ、そこまで重要ではないからです。換言すれば、統制変数の役割は「ノイズ」を取り除くことであり、その効果の大きさ自体が重回帰分析の主な関心事というわけではありません。例えば、年齢と勤続年数の間に強い相関があっても、これらの変数が成果指標に与える個別の効果を正確に知ることは、分析の主目的ではないことが多いでしょう。
したがって、統制変数自体の係数が正確に推定されなくても、重回帰分析の実践的な目的を達成するうえで、大きな問題にはなりません[2]。重要なのは、これらの指標を含めることで、主な関心のある影響指標(例えば「上司からの信頼」)の効果をより正確に推定できることです。
多重共線性の掘り下げ
ここからは、多重共線性について技術的な観点から掘り下げていきます。組織サーベイの例を用いながら説明します。
重回帰分析の基本
初めに、重回帰分析について紹介します。重回帰分析は、ある指標(成果指標)を他の指標(影響指標)から予測しようとする手法です。組織サーベイの文脈では、例えば、従業員のエンゲージメントスコアを成果指標とし、様々な要因(上司からの信頼、権限委譲など)を影響指標として扱うことがあるでしょう。
重回帰分析は、次のように式で表すことができます。
Y=β₀+β₁X₁+β₂X₂+…+βₖXₖ+ε
この式において、Yは成果指標(例えば、エンゲージメントスコア)、X₁, X₂, Xₖは影響指標(例えば、上司からの信頼、権限委譲など)、β₀, β₁, β₂, βₖは偏回帰係数(成果指標と各影響指標の関連度)、εは誤差項(モデルで説明できない部分)を指します。
重回帰分析では、これらの偏回帰係数(β)を推定します。本コラムにおいては、最小二乗法を用いる場合を前提に説明を進めていきます。
多重共線性と偏回帰係数の推定
偏回帰係数の推定過程において多重共線性が問題となります。偏回帰係数の推定式は、行列を用いると、次のように表すことができます。
β=(X’X)⁻¹X’Y (以降、式a)
この式aは、最小二乗法による推定の結果として導出されます。最小二乗法は、実際のYの値と予測値の差(残差)の二乗和を最小化することでβを求める方法です。この方法では、残差の二乗和をβで微分してゼロとおくことで、上記の式が得られます。
式aの各要素の詳細は後述しますが、X’Yは影響指標と成果指標の関係を表す項であるのに対して、X’Xは影響指標同士の関係を表す項です。(X’X)⁻¹は、この影響指標間の関係を「逆転」させる役割を果たし、これによって、各影響指標の純粋な効果を取り出します。
要するに、この式aとは「成果指標との関係」から「影響指標間の関係」を取り除くことで、各影響指標の独自の効果を推定しているのです。
それでは、式aの各要素について詳しく見ていきましょう。その前に、念の為、行列とベクトルについて簡単に説明します。
式a「Y」について
Yは成果指標のベクトルであり、全ての回答者のエンゲージメントスコアを並べたリストです。例えば、100人の従業員がいる場合、Yは100個の数値からなるベクトルになります。例えば、次のようなイメージです。
[ 75 // 1人目の従業員のエンゲージメントスコア
82 // 2人目の従業員のエンゲージメントスコア
68 // 3人目の従業員のエンゲージメントスコア
…
79 // 100人目の従業員のエンゲージメントスコア]
ベクトルを用いることで、従業員のエンゲージメントスコアを一度に扱うことができます。例えば、このYベクトルに含まれる各要素(個々のデータ)の平均を取れば、組織全体の平均エンゲージメントスコアを計算できます。
式a「X」について
Xは影響指標の行列であり、全ての回答者の全ての影響指標のスコアを並べた表です。例えば、100人の従業員に対して3つの影響指標(「上司からの信頼」「権限委譲」「1on1ミーティングの頻度」)がある場合、Xは100行3列の行列になります。次のようなイメージです。
[[80 75 3] // 1人目の従業員の各影響指標のスコア
[65 70 2] // 2人目の従業員の各影響指標のスコア
[90 85 4] // 3人目の従業員の各影響指標のスコア
…
[75 80 3] // 100人目の従業員の各影響指標のスコア]
これによって、全ての従業員の全ての影響指標のスコアを一度に扱えます。例えば、このX行列の各列の平均を取ることで、組織全体での各影響指標の平均スコアを計算できます。
式a「β」について
βは偏回帰係数のベクトルであり、各影響指標がエンゲージメントスコアに与える影響の大きさを表す数値のリストです。例えば、3つの影響指標がある場合、βは3つの数値からなるベクトルになります。次のようなイメージです。
[2.5 // 「上司からの信頼」の偏回帰係数
1.8 // 「権限委譲」の偏回帰係数
3.2 // 「1on1ミーティングの頻度」の偏回帰係数]
全ての影響指標の効果を一度に扱うことができます。例えば、このβベクトルの値を比較することで、どの影響指標がエンゲージメントに最も強い影響を与えているかを判断できます。
式a「X’」「(X’X)」について
X’はXの転置行列であり、Xの行と列を入れ替えたものです。例えば、Xが100行3列だった場合、X’は3行100列になります。
続けて、X’XはX’とXの行列積です。この計算によって、影響指標間の関係性を表す行列が得られます。この行列の対角要素は各影響指標で算出した二乗和、非対角要素は影響指標間の積和になります[4][5]。
例えば、3つの影響指標がある場合、X’Xは次のような3×3の行列になります。
[ [Σ(X1i^2) Σ(X1i*X2i) Σ(X1i*X3i)]
[Σ(X2i*X1i) Σ(X2i^2) Σ(X2i*X3i)]
[Σ(X3i*X1i) Σ(X3i*X2i) Σ(X3i^2) ]]
Σは合計を表し、X1i, X2i, X3iはそれぞれ「上司からの信頼」「権限委譲」「1on1ミーティングの頻度」の各従業員のスコアです。例えば、Σ(X1i^2)は全従業員の「上司からの信頼」スコアを二乗して合計したものです。これは、「上司からの信頼」スコアの全体的な変動の大きさを表します。
対角要素(例えば、Σ(X1i^2))は、各影響指標の二乗和を表しており、その影響指標の変動の大きさを示します。変動が大きいほど、その影響指標がより多様な値を取っていることを意味します。対角要素とは、行列の左上から右下に並ぶ要素のことで、行番号と列番号が同じ要素を指します。
非対角要素(例えば、Σ(X1i*X2i))は、2つの影響指標間の関係性の強さを示します。これらの値が大きいほど、2つの影響指標が強く関連していることを意味します。非対角要素とは、対角要素以外の要素のことです。例えば、Σ(X1i*X2i)は「上司からの信頼」と「権限委譲」の関係性の強さを示しています。この値が大きいほど、上司からの信頼が高い人ほど権限委譲も多く受けていることを意味します。
式a「(X’X)⁻¹」について
上記を踏まえたうえで、(X’X)⁻¹とは逆行列であり、元の行列に掛けると単位行列になる行列です。単位行列とは、対角要素が全て1で、それ以外の要素が0の行列のことです。例えば、2×2の単位行列は次のようになります。
[1 0]
[0 1]
この逆行列を計算することで、各影響指標の純粋な効果を取り出すことができます[6]。他の影響指標の影響を取り除いた上で、各影響指標がエンゲージメントに与える独自の効果を推定することができます。これは、各影響指標の効果を他の影響指標の効果から「分離」する操作と考えることができます。
逆行列の計算の不安定さ
しかし、多重共線性が存在する場合、この計算が不安定になります。これは、影響指標間の関係が強すぎると、それぞれの独自の効果を分離することが難しくなるためです。例えば、「上司からの信頼」と「権限委譲」が非常に強く相関している場合、これらの指標の個別の効果を正確に分離することが困難になります。というのも、一方の指標の変化が他方の指標の変化を強く伴うため、どちらの指標がエンゲージメントに影響を与えているのかを区別することが難しくなるからです。
テクニカルには、(X’X)行列がほぼ特異になるということです。特異とは、行列に含まれる情報が重複していて、独立した情報が不足している状態を指します。例えば、「上司からの信頼」と「権限委譲」がほぼ同じ情報を提供している場合、(X’X)行列は特異に近い状態になります。
これは、2つの列(または行)がほぼ同じ情報を持っているため、行列全体としての「次元」が減少しているような状態です。換言すれば、2つの変数が非常に似た情報を提供しているため、実質的には1つの変数と同じような働きしかしていないということです。
このとき、行列式(行列の「体積」的な情報を表す値)がゼロに近くなり、逆行列の計算が不安定になります。行列式は行列の特性を表す重要な指標で、行列の変換による空間の拡大や縮小の度合いを示します。行列式がゼロに近いということは、言ってみれば、行列が「つぶれた」ような状態になっていることを意味し、逆行列の計算が極めて困難になります。
偏回帰係数の推定式β=(X’X)⁻¹X’Yにおいて、行列式は(X’X)⁻¹の計算に関わってきます。行列式がゼロに近いと、逆行列である(X’X)⁻¹の計算が非常に不安定になります。
逆行列の計算には行列式の逆数を用いるため、行列式がゼロに近づくと、その逆数が非常に大きくなってしまうからです。例えば、行列式が0.0001だとすると、その逆数は10000になります。このような大きな数値が計算に含まれると、結果が非常に不安定になります。
行列式がゼロに近い場合、逆行列の要素の一部が非常に大きな値になる可能性があります。これは、小さな入力の変化(例えば、データのわずかな変動)が、出力(推定される偏回帰係数)の大きな変化を引き起こす可能性があることを表します。
このような理由により、計算結果が不安定になり、わずかなデータの変化で大きく異なる結果が得られることになりかねません。例えば、サンプルからいくつかのデータを除外したり、新しいデータを追加したりしただけで、推定される偏回帰係数が大きく変動し得ます。これは、分析結果の品質を著しく損なう問題です。
大きくなる標準誤差
多重共線性の影響によって、標準誤差が大きくなる点も深刻です。標準誤差は、推定された偏回帰係数の不確実性を表します。推定値がどの程度ばらつく可能性があるかを示す指標です。
多重共線性が存在すると、この標準誤差が大きくなり、偏回帰係数の信頼区間が広くなります。信頼区間とは、真の値がある範囲に含まれる確率が一定以上(例えば95%)である区間のことです。
標準誤差は(X’X)⁻¹の対角要素の平方根に比例するため、(X’X)⁻¹の要素が大きくなると標準誤差も大きくなります[7]。これは、多重共線性によって(X’X)⁻¹の要素が大きくなるためです。具体的には、影響指標間の相関が強くなると、(X’X)行列の行列式がゼロに近づき、その結果、先ほどの理屈によって、(X’X)⁻¹の要素が大きくなります。
標準誤差と信頼区間には密接な関係があります。一般的に、95%信頼区間は「推定値±1.96×標準誤差」で計算されます。したがって、標準誤差が大きくなれば、それに比例して信頼区間も広くなります。
その結果、偏回帰係数の統計的有意性の判断が困難になります。標準誤差が大きくなると、推定された効果が本当に存在するのかを評価することが難しくなります。信頼区間が広いということは、真の効果が非常に小さい可能性もあれば、非常に大きい可能性もあることを意味します。
入れ替わる符号
多重共線性の影響により、回帰係数の符号が直感に反する結果になることもあり得ます。多重共線性によって推定が歪み、本来の関係が正確に捉えられなくなるからです。(X’X)⁻¹の非対角要素が大きくなることで、ある指標の効果が他の指標の効果と混ざり合ってしまい、個々の効果を正確に分離できなくなることが原因です。
掘り下げて説明すると、(X’X)⁻¹の非対角要素が大きくなると、ある指標の係数の推定値が他の指標の係数の推定値に強く依存するようになります。これによって、指標間の複雑な相互作用が生じ、個々の指標の純粋な効果を推定することが困難になります。
例えば、実際には「上司からの信頼」がエンゲージメントと正の関連があるにもかかわらず、推定結果では負の係数が得られてしまうかもしれません。「上司からの信頼」と強い相関がある「権限委譲」の効果が「上司からの信頼」の効果と混ざり合ってしまい、見かけ上、負の関係として現れてしまうのです。
「権限委譲」の効果が非常に強く、「上司からの信頼」との相関も高い場合、統計モデルは「権限委譲」の効果を過大評価し、その結果「上司からの信頼」の効果を負に推定してしまう可能性があります。これは、モデルが「権限委譲」の効果を考慮した上で、残りの変動を説明しようとするためです。このような結果は、現実の関係性を反映しておらず、誤った解釈や意思決定につながる危険性があります。
多重共線性が生み出す問題のまとめ
このように、重回帰分析における統計処理が含む計算過程において、多重共線性が影響して様々な問題が生じます。ここまで数式を含めて難しい解説が続いたため、問題の所在を見失ってしまったかもしれません。
そこで、以下に多重共線性が生み出す問題について整理しまとめます。計算過程に基づく理由が理解しきれなくても、実践のうえでは以下を押さえておけば、ひとまず問題はありません。人事データの分析において多重共線性を意識して問題に気づけるよう、まずは下記の内容を覚えておくのが良いでしょう。
- 多重共線性とは、「影響指標の間に強い相関関係がある状態」を指す
- 多重共線性があると、回帰分析における回帰係数の推定が不安定になり(標準誤差の増加)、主に下記2つの問題が生じる危険が高まる
(1) 回帰係数(関連性の強さの指標)の信頼区間が広がったり、統計的に有意かの検定に誤りが生じやすくなる
(2) 回帰係数の正負が実態と異なる真逆の値で計算される
脚注
[1] 重回帰分析の基本的な解説として当社コラムをご参照ください。
[2] なお別観点として、「回帰分析で推定する回帰係数の個数を減らすことで、検証精度を高める」という目的では、多重共線性が見られる統制変数を除外することも一考です。統制変数間で多重共線性があるということは、強く相関するとても似通った統制変数がモデルに含まれていることを意味します。似通った統制変数同士は統計的な特徴が同じなため、それらを統制変数として同時にモデルに含める意味が薄いと言えます。回帰分析は分析に含める指標が少ないと内部の計算が少なくなって推定精度が高まるため、その目的で多重共線性のある(相関がとても強い)統制変数の一方を除外することが有効と考えることができます。
[3] 偏回帰係数の推定式の中に行列とベクトルが登場していますが、これらの考え方を振り返っておきます。行列とは、数値を縦と横に並べたものです。例えば、次のようなものが行列です。
[1 2 3]
[4 5 6]
[7 8 9]
この行列は3行3列からなっています。行列を用いることで、多数のデータを整理し、それらに対して一括で計算を行うことができます。
一方で、ベクトルは1列(または1行)の行列と考えることができます。
[1]
[2]
[3]
これは3行1列のベクトルです。ベクトルは、複数の関連する値をまとめて扱うのに便利です。
[4] 行列の対角要素とは、正方行列において左上から右下へと斜めに並ぶ要素のことを指します。これらの要素は、行番号と列番号が一致する位置にあります。例えば、1行1列目、2行2列目、3行3列目といった具合です。対角要素は多くの場合、行列の主要な特性や、表現している系の重要な情報を担っています。
対して、非対角要素は対角要素以外のすべての要素を指します。これらは行番号と列番号が異なる位置にある要素です。非対角要素は要素間の相互作用や関係性を表現するのに用いられることがあります。例えば、3×3の行列を考えてみましょう。
[5 2 1]
[3 8 4]
[0 6 7]
この行列では、対角要素は5, 8, 7です。これらは左上から右下への対角線上に位置しています。一方、非対角要素は2, 1, 3, 4, 0, 6です。これらは対角線上以外の位置にあります。
[5] 行列の乗算(行列積)では、左側の行列の各行と右側の行列の各列を組み合わせて新しい要素を作ります。具体的には、左側の行列の一つの行から要素を順に取り、右側の行列の一つの列から対応する位置の要素を取り、それらを掛けて足し合わせます。これを全ての行と列の組み合わせで行います。
X’Xを計算する際、結果の各要素はX’の行とXの列の要素同士の掛け算の合計になります。これは、X’の一つの行から順番に要素を取り出し、同時にXの一つの列から同じ順番で要素を取り出し、それらを一つずつ掛け合わせ、最後にその結果をすべて足し合わせるという操作です。簡単に言えば、二つのデータ(ここではX’の行とXの列)の対応する位置の要素をそれぞれ掛け合わせ、それらをすべて足し合わせて決まった要素の位置に結果を入れる操作となります。
行列積の計算結果における対角要素には、同じ影響指標の値同士を掛けて足し合わせたデータを入れることになります。というのも、X’はXの転置行列なので、X’のi行目はXのi列目と同じです。したがって、X’Xの対角要素(i行i列目の要素)を計算する際、X’のi行目とXのi列目の内積を取ることになります。これは結果的に、Xのi列目(i番目の影響指標)の要素を自分自身と掛け合わせて(二乗して)足し合わせることになります。この操作によって、その影響指標の全体的な大きさや変動の程度を表すような数値が得られます。
例えば、ある影響指標の値が[2, 3, 4]だとすると、2×2+3×3+4×4=4+9+16=29という計算になります。この例では、3人の回答者がいると仮定しています。1人目の回答者の値は2で、これを二乗すると4になります。2人目の回答者の値は3で、これを二乗すると9になります。3人目の回答者の値は4で、これを二乗すると16になります。これらの二乗値を全て足し合わせると、4+9+16=29となります。
この二乗和は、その影響指標の値がゼロからどれだけ離れているか(どれだけばらついているか)を表します。各値を二乗することで、ゼロからの距離を強調し、正負の符号に関係なく大きさだけを考慮することができます。
また非対角要素の場合、異なる影響指標の対応する値同士を掛けて足し合わせます。というのも、X’Xの非対角要素(i行j列目の要素、ただしi≠jです)を計算する際、X’のi行目と Xのj列目の内積を取ります。X’のi 行目はXのi列目と同じなので、これは結果的にXのi列目とj列目の要素を対応する位置で掛け合わせて足し合わせることになります。つ要するに、i番目の影響指標とj番目の影響指標の値を回答者ごとに掛け合わせて合計する操作になります。この操作を通じて、二つの影響指標がどの程度関連しているか(同じような傾向を示すか)を大まかに意味する値が得られます。
例えば、影響指標1の値が[2, 3, 4]、影響指標2の値が[1, 2, 3]だとすると、2×1+3×2+4×3=2+6+12=20という計算になります。この例でも、3人の回答者がいると仮定しています。1人目の回答者の影響指標1の値は2で、影響指標2の値は1です。これらを掛けると2×1=2になります。2人目の回答者の影響指標1の値は3で、影響指標2の値は2です。これらを掛けると3×2=6になります。3人目の回答者の影響指標1の値は4で、影響指標2の値は3です。これらを掛けると4×3=12になります。これらの積を全て足し合わせると、2+6+12=20となります。
これらの値を掛けて合計することで、2つの影響指標の積和が得られます。積和は、二つの影響指標の値を回答者ごとに掛け合わせ、その結果を全回答者分、合計したものです。この操作によって、二つの影響指標が全体としてどのような関係にあるかを一つの数値で表現することができます。
[6] 重回帰分析において逆行列の計算が影響指標の純粋な効果を取り出すことができるのは、影響指標間の相互関係を解きほぐすからです。
β=(X’X)⁻¹X’Yという式において、X’Xは影響指標間の関係性を表す行列です。この行列の対角要素は各影響指標の二乗和を、非対角要素は影響指標間の積和を表しています。すなわち、この行列は影響指標間の相関関係を捉えたものと言えます。
ここで重要なのは、このX’X行列の逆行列(X’X)⁻¹を計算することです。逆行列を計算するということは、元の行列の効果を「打ち消す」操作を行うことを意味します。(X’X)⁻¹を計算することで、X’Xに含まれていた影響指標間の相関関係の効果を打ち消すような計算処理を行うのです。
この操作によって、各影響指標の効果を他の影響指標の効果から分離することができます。例えば、「上司からの信頼」と「権限委譲」が強く相関している場合、X’Xにはこの相関関係の情報が含まれています。そこから (X’X)⁻¹を計算することで、この相関関係の効果を打ち消し、「上司からの信頼」の純粋な効果と「権限委譲」の純粋な効果を分離して取り出すことができるものとして機能するのです。
さらに、(X’X)⁻¹にX’Yをかけることで、各影響指標とエンゲージメント(Y)との関係性を、他の影響指標の効果を制御した上で推定することができます。X’Yは影響指標とエンゲージメントの関係を表す項ですが、これに(X’X)⁻¹をかけることで、その関係性から他の影響指標の影響を取り除いた、純粋な関係性を抽出することができます。
[7] 標準誤差が(X’X)⁻¹の対角要素の平方根に比例する理由を理解するには、重回帰分析の前提から始める必要があります。重回帰分析では、観測されたデータが、真の関係性に確率的な変動が加わったものだと仮定します。
この仮定は、現実世界の複雑さを反映しています。例えば、従業員のエンゲージメントを予測する場合、様々な要因(上司からの信頼、権限委譲など)が影響を与えますが、これらの要因だけでは完全に説明できない部分があります。この説明できない部分が誤差として扱われます。
この誤差は、平均が0で一定の分散を持つ正規分布に従うと考えます。平均が0というのは、誤差が正の方向にも負の方向にも同じくらい起こりうることを意味します。一定の分散を持つというのは、誤差の大きさにある程度の一貫性があることを示しています。
重回帰分析で得られる推定値には、ある程度の不確実性が伴います。これは、私たちが手に入れられるデータが限られているためです。もし全ての可能なデータを集められれば、真の値を知ることができるかもしれませんが、現実にはそれは不可能です。そのため、私たちの推定には常に「これより少し上かもしれないし、少し下かもしれない」という不確実性が存在します。
標準誤差は、この推定値の不確実性を数値化したものです。具体的には、もし同じ母集団から多数のサンプルを取って推定を繰り返した場合、その推定値がどの程度ばらつくかを示す指標です。標準誤差が小さいほど、推定値の精度が高いことを表します。
ここにおいて、重回帰分析における回帰係数の分散共分散行列が重要になります。分散共分散行列は、各回帰係数の推定値がどの程度不確実かを示すだけでなく、回帰係数間の関係性も表現します。例えば、「上司からの信頼」の係数と「権限委譲」の係数がどの程度関連しているかといった情報もこの行列に含まれています。
分散共分散行列は、誤差項の分散に(X’X)⁻¹を掛けたものとして定義されます。このような定義になる理由は、最小二乗法の性質に基づいています。最小二乗法では、残差(観測値と予測値の差)の二乗和を最小化することで偏回帰係数を推定します。この過程で、(X’X)⁻¹が現れます。誤差項の分散を掛けるのは、モデル全体の不確実性を反映させるためです。要するに、分散共分散行列は「データのばらつき」と「説明変数間の関係性」の両方を考慮して、回帰係数の不確実性を表現しているのです。
分散共分散行列の対角要素が、各回帰係数の分散を表します。これは、分散共分散行列の定義から直接導かれます。分散共分散行列は、その名前が示す通り、各指標の分散(対角要素)と指標間の共分散(非対角要素)を含んでいます。
対角要素が分散を表すのは、それが同じ指標の値同士の関係を表しているためです。分散は不確実性の大きさを示す指標で、値が大きいほど不確実性が高いことを意味します。例えば、「上司からの信頼」の係数の分散が大きければ、この係数の推定値の信頼性が低いことを示唆します。
標準誤差は、この分散の平方根として定義されます。平方根を取るのは、分散が値の「二乗」の平均的なばらつきを表すのに対し、標準誤差は元の値と同じ単位でばらつきを表現するためです。この操作によって、推定値と同じスケールで不確実性を評価することができます。
以上をまとめると、標準誤差は回帰係数の分散共分散行列の対角要素の平方根を算出し、その値に誤差項の標準偏差を掛けたものとして計算ができます。このように、標準誤差が(X’X)⁻¹の対角要素の平方根のかけ算を含んでいる、つまりに比例関係にあるのは、回帰係数の推定値の不確実性が(X’X)⁻¹に直接関係しているからです。(X’X)⁻¹は影響指標間の関係性を反映しており、この行列の要素が大きいほど、回帰係数の推定値の不確実性も大きくなります。
執筆者
伊達 洋駆 株式会社ビジネスリサーチラボ 代表取締役
神戸大学大学院経営学研究科 博士前期課程修了。修士(経営学)。2009年にLLPビジネスリサーチラボ、2011年に株式会社ビジネスリサーチラボを創業。以降、組織・人事領域を中心に、民間企業を対象にした調査・コンサルティング事業を展開。研究知と実践知の両方を活用した「アカデミックリサーチ」をコンセプトに、組織サーベイや人事データ分析のサービスを提供している。著書に『60分でわかる!心理的安全性 超入門』(技術評論社)や『現場でよくある課題への処方箋 人と組織の行動科学』(すばる舎)、『越境学習入門 組織を強くする「冒険人材」の育て方』(共著;日本能率協会マネジメントセンター)などがある。2022年に「日本の人事部 HRアワード2022」書籍部門 最優秀賞を受賞。東京大学大学院情報学環 特任研究員を兼務。