2024年9月25日
確認的因子分析の読み方:適合度と因子負荷量を中心に
本コラムでは、組織サーベイのデータの信頼性を高めるために用いられる「確認的因子分析」について解説します。確認的因子分析は、サーベイの質問項目が本当に測定したい概念を捉えているかを検証する手法の一つです。
本コラムを読むことで、確認的因子分析の基本的な考え方や活用方法を理解し、より信頼性の高い組織サーベイの実施と分析ができるようになるでしょう。
確認的因子分析とは
確認的因子分析(Confirmatory Factor Analysis)は、複数の質問項目が想定通りの概念を測定できているかを統計的に検証する手法です。この手法は、事前に設定した項目と概念の対応(どの質問項目がどの概念を測定しているか)が、実際のデータによって支持されるかどうかを確認するために用いられます。
例えば、「職務満足」という概念を測定するために、複数の質問項目を用意したとします。確認的因子分析を使うことで、これらの質問項目が本当に「職務満足」という一つの概念を測定しているのか、それとも複数の異なる概念を測定しているのかを統計的に検証します。
確認的因子分析では、質問項目への回答データを用いて、事前に想定した因子構造(質問項目と測定したい概念の関係)が適切かどうかを評価します。具体的には、測定したい概念を統計的に仮定し、データに基づいて各質問項目と測定したい概念との関連の強さを推定し、その結果が事前の対応想定と一致しているかを確認します。
確認的因子分析は、質問項目間の関連を探索的に調べるのではなく、理論などに基づいて事前に設定した因子構造の妥当性を検証する点が特徴です。これによって、組織サーベイの質問項目が本当に測定したい概念を適切に捉えているかを評価することができます。
確認的因子分析の基本的な考え方
確認的因子分析においては、測定したい概念を「因子」として仮定します。因子とは、直接観測することはできないものの、複数の観測可能な変数(質問項目への回答)を通じて間接的に測定できる概念のことです。例えば、「仕事の自律性」という概念は直接目で見たり手で触れたりすることはできませんが、関連する質問項目への回答を通じてその程度を推測することができます。
各質問項目への回答は、この因子の影響を受けて決まると考えます。例えば、ある人の「仕事の自律性」の程度が高ければ、関連する質問項目(例えば、「自分のペースで仕事を進められる」)に対して肯定的な回答を行い、逆に「仕事の自律性」の程度が低ければ、否定的な回答をすると考えます。
こうした仮定のもと、統計的な手法を用いて、各質問項目がどれほど因子の影響を受けているかを推定します。具体的には、因子と各質問項目の回答との関係の強さを数値化します。この関係の強さを表す指標が「因子負荷量」です。
この過程では、複雑な数学的計算が行われますが、計算は通常、専用の統計ソフトウェアを用いて行います。分析者は、事前に設定した因子構造(どの質問項目がどの因子に関連しているか)をモデルとして指定し、ソフトウェアがデータに基づいて最適なパラメータを推定します。
その結果を基に、質問項目が本当に意図した概念を測定できているかを判断します。因子負荷量や(後述する)モデル適合度などの指標を確認し、設定した因子構造(どの質問項目がどの因子に関連しているか)が適切かどうかを評価します。もし適切でない場合は、質問項目の修正や削除、因子構造の見直しなどを検討します。
2つの主要な指標
確認的因子分析において特に注目すると良いのは、「モデル適合度」と「因子負荷量」という2つの指標です。それぞれの意味するところ、そして、読み方を紹介しましょう。
モデル適合度
モデル適合度は、設定した因子モデル(質問項目と因子の関係を表したモデル)が実際のデータとどれほど一致しているかを表します。私たちが想定した「質問項目と因子の関係」が、実際に収集したデータとどれくらい合っているかを数値で表したものです。
モデル適合度は、実際のデータから計算された分散共分散行列と、モデルから推定された分散共分散行列の差異を評価することで算出されます。両者の差異が小さいほど、モデルの適合度が高いと判断されます。
ただし、モデル適合度を評価する際は、単一の指標だけでなく、複数の指標を総合的に判断することが重要です。例えば、確認すると良い適合度の指標として、次の2つが挙げられます。
- CFI (Comparative Fit Index):CFIは、設定したモデルが、すべての変数間に関連がないと仮定したモデルと比べてどれほど改善されているかを意味します。0から1の間の値をとり、1に近いほど良いモデルであることを示します。一つの目安として、0.90以上であれば、そのモデルは許容可能だと判断することができます。
- RMSEA (Root Mean Square Error of Approximation):RMSEAは、モデルの複雑さを考慮に入れた上で、モデルと実際のデータのずれを評価する指標です。0に近いほど良いモデルであることを表し、一つの目安として、0.10以下であれば許容できるモデルだと判断することができます[1]。
因子負荷量
因子負荷量は、各質問項目が因子にどれほど関連しているかを表します。具体的には、因子が1単位変化したときに、各質問項目の回答がどの程度変化するかを指します。因子負荷量は基本的に-1から1の間の値をとり、絶対値が大きいほど因子との関連が強いと言えます。
因子負荷量の符号も重要な情報を提供します。正の因子負荷量の場合、因子の値が高いほど、質問項目の得点も高くなる傾向、負の因子負荷量の場合、因子の値が高いほど、質問項目の得点は低くなる傾向を意味します。
因子負荷量の解釈の目安は、領域や目的によって異なりますが、ここでは0.4以上としておきましょう。因子負荷量の絶対値が0.4以上であれば、その質問項目は因子をよく測定できていると判断することができます。例えば、「職務満足」という因子に対して、ある質問項目の因子負荷量が0.65だった場合、その質問項目は「職務満足」を良く測定できていると解釈できます[2]。
具体例による確認
「職務満足」という概念を測定する、次の5つの質問項目を用いた確認的因子分析の例を見てみましょう(この例は、数値も質問項目も架空のものであることに注意してください)。
- 現在の仕事にやりがいを感じている
- 自分の能力を十分に発揮できている
- 仕事を通じて成長を実感している
- 給与に満足している
- 職場の飲み会によく参加する
これらの質問項目に対する回答データを用いて確認的因子分析を行いました。その結果、次の結果が得られたとします。
モデル適合度:CFI=0.98, RMSEA=0.05
因子負荷量:質問項目1=0.65, 質問項目2=0.62, 質問項目3=0.60, 質問項目4=0.58, 質問項目5=0.10
この結果を見る限り、モデル適合度は基準値を満たしており、設定したモデルは適切であると判断できます。CFIは0.98で基準値の0.90を上回っており、RMSEAも0.05で基準値の0.10を下回っています。これは、「職務満足」という因子と5つの質問項目の関係を表したモデルが、実際のデータとよく一致しているということです。
私たちが想定した「これらの質問項目は職務満足を測定している」という仮説が、データによって支持されていると解釈できます。ただし、この結果はモデル全体の適合度を示すものであり、個々の質問項目の適切さについては、因子負荷量を確認する必要があります。
因子負荷量を見ると、質問項目1-4は高い値(0.5以上)を示しており、「職務満足」という概念をよく測定していると言えます。これらの質問項目は、「職務満足」の程度が高い人ほど高得点になる傾向が強いでしょう。
例えば、質問項目1「現在の仕事にやりがいを感じている」の因子負荷量が0.65ということは、「職務満足」の程度が高い人ほど、この質問に対して肯定的な回答をすることを意味します[3]。
しかし、質問項目5「職場の飲み会によく参加する」は因子負荷量が0.10で、基準値である0.4を下回っています。この項目は「職務満足」という概念をうまく測定できていない可能性があります。「職場の飲み会によく参加する」という行動が、必ずしも職務満足度を反映しているとは限らないのです。
この結果を踏まえ、質問項目5を削除するか、この項目のみ別の概念として扱うことを検討する必要があります。質問項目5を削除した場合、残りの4項目で「職務満足」を測定することになります。この場合、4項目だけで職務満足度を十分に測定できるかどうかを再度検討する必要があります。
確認的因子分析の活用方法
確認的因子分析は、組織サーベイの質を高めるために様々な場面で活用できます。ここでは、3つの活用方法を紹介します。
サーベイ設計の妥当性検証
新しく設計した組織サーベイや、既存のサーベイを自社用にカスタマイズした場合、確認的因子分析を用いて質問項目の妥当性を検証できます。各質問項目が意図した概念を測定できているかを確認し、必要に応じて質問項目の改善や削除を行うことができます。
例えば、「エンゲージメント」を測定するために5個の質問項目を作成したとします。確認的因子分析を行うことで、これらの質問項目が本当に「エンゲージメント」という一つの概念を測定しているのか、それとも複数の異なる概念を測定しているのかを確認できます。
概念間の関係性の検証
組織サーベイでは、「周囲からの支援」「仕事の自律性」「リーダーシップ」など、複数の概念を同時に測定することがあります。確認的因子分析を用いることで、これらの概念がそれぞれ異なる概念として測定できているかを検証することができます[4]。
複数の概念を同時に分析モデルに組み込み、それぞれの概念が異なる因子として識別されるかを確認します。この過程では、各概念を測定する質問項目群が、想定通りの因子と強く関連し、かつ他の因子とはあまり関連しないことを確認します。
例えば、「職務満足」と「組織コミットメント」という2つの概念を測定する質問項目がある場合、2つの概念を別々の因子として設定したモデルと、1つの因子として設定したモデルを比較します。モデル適合度を比較し、2つの因子を別々に扱うモデルの方が、適合度が高ければ、これらの概念は区別して測定できていると判断できます[5]。
確認的因子分析を用いることで、サーベイで測定しようとしている複数の概念が、実際に区別して測定できているかを統計的に確認することができます。各概念の独自性を確保し、精緻な分析や解釈が可能になります。
経年変化の分析
毎年実施する組織サーベイの結果を比較する際、確認的因子分析を用いることで、各年の測定結果の構造が同じであるかを確認できます。これを測定不変性と呼び、測定不変性を検証することで、年ごとの比較が妥当であるかを統計的に判断することができます。
測定不変性とは、異なる集団や時点間で、測定している概念の構造や意味が同じであることを指します[6]。組織サーベイの文脈では、例えば「職務満足」という概念が、毎年同じ方法で測定され、同じ意味を持っていることを確認しなければなりません。
逆に言えば、測定不変性がないアンケートでは、データを毎年測定しても各年で違った概念を測定している可能性があります。定期的にデータを測定し比較しても、違った概念の得点を比べていることになり、意味がありません。この懸念を払しょくすることにも、確認的因子分析が役立ちます。
確認的因子分析を行う上での注意点
ここまで説明してきた通り、確認的因子分析は有用ではありますが、サンプルサイズと理論的根拠には注意を払う必要があります。
サンプルサイズ
確認的因子分析を行うには、ある程度のサンプルサイズが必要です[7]。サンプルサイズが小さいと、分析結果が不正確になる可能性があります[8]。
例えば、サンプルサイズが小さい場合、因子負荷量などの推定値の精度が低下します。実際の因子負荷量が0.5であるのに、サンプルサイズが小さいために0.3や0.7といった値が推定されてしまう可能性があるということです。
また、モデル適合度の指標が不安定になり、適切なモデルを選択することが困難になります。実際には適合度が低いモデルでも、サンプルサイズが小さいために高い適合度を示してしまうことがあります。
理論的根拠
確認的因子分析は、事前に設定した因子構造の妥当性を検証する手法です。そのため、質問項目と測定したい概念の関係について、理論的な根拠に基づいた仮説が必要です。統計的な結果だけでなく、理論的な裏付けも重要になります。
測定したい概念を適切に反映する質問項目を選ぶためには、その概念に関する深い理解が必要です。例えば、「職務満足」を測定する場合、職務満足に関する先行研究を参照し、職務満足を構成する要素を理解した上で質問項目を選定しなければなりません。
脚注
[1] 本コラムで提示した適合度指標の基準値(CFIが0.90以上、RMSEAが0.10以下など)は、絶対的な基準ではありません。例えば、より厳しい基準としてCFIが0.95以上、RMSEAが0.05以下というものを用いる場合もあります。
[2] 因子負荷量が0.65の質問項目は、因子の分散の約42%(0.65^2=0.4225)を説明していることになります。この質問項目の回答の違いの42%は、因子の違いによって説明できるということです。
[3] この場合、職務満足度が1標準偏差上昇すると、この質問項目の得点は平均して0.65標準偏差上昇すると予測されます。
[4] これを弁別的妥当性と呼びます。弁別的妥当性は、異なる構成概念を測定する尺度が、実際に別個の概念を測定できているかを意味します。組織サーベイなどで複数の概念を同時に測定する際、それぞれの尺度が他の概念と十分に区別できているかを確認することが重要です。
[5] 因子間の相関も確認しておいたほうが良いでしょう。相関が高すぎる場合、2つの概念が実質的に同じものを測定している可能性があります。
[6] 測定不変性の検証には段階的アプローチが用いられます。例えば、構成概念不変性は因子構造が同じであること、因子負荷量不変性は各項目と因子の関係が同じであること、切片不変性は観測変数の切片が同じであることを意味しますが、これらを検証するということです。
[7] 例えば、サンプルサイズに関する指針として、「質問項目の数の10倍以上」や「200以上」といった目安があります。しかし、これらは絶対的な基準ではありません。
[8] 必要なサンプルサイズは、モデルの複雑さ、推定方法、期待される効果の大きさなどによって異なります。複雑なモデルでは大きなサンプルサイズが必要になります。
執筆者
伊達 洋駆 株式会社ビジネスリサーチラボ 代表取締役
神戸大学大学院経営学研究科 博士前期課程修了。修士(経営学)。2009年にLLPビジネスリサーチラボ、2011年に株式会社ビジネスリサーチラボを創業。以降、組織・人事領域を中心に、民間企業を対象にした調査・コンサルティング事業を展開。研究知と実践知の両方を活用した「アカデミックリサーチ」をコンセプトに、組織サーベイや人事データ分析のサービスを提供している。著書に『60分でわかる!心理的安全性 超入門』(技術評論社)や『現場でよくある課題への処方箋 人と組織の行動科学』(すばる舎)、『越境学習入門 組織を強くする「冒険人材」の育て方』(共著;日本能率協会マネジメントセンター)などがある。2022年に「日本の人事部 HRアワード2022」書籍部門 最優秀賞を受賞。東京大学大学院情報学環 特任研究員を兼務。