2025年4月18日
ロジスティック回帰分析:離職リスクを探る
多くの企業が直面している課題の一つに人材流出があります。優秀な社員の離職は、知識やスキルの喪失だけでなく、チームのモチベーション低下や採用コストの増加など、組織全体に影響を及ぼします。
どうすれば離職のリスクを把握し、良い対策を講じることができるでしょうか。そのためのアプローチになり得るのが、本コラムで紹介する「ロジスティック回帰分析」です。
本コラムでは、ロジスティック回帰分析の基本概念から実践的な活用方法まで解説していきます。組織サーベイのデータを例に、社員の離職リスクを予測する方法を見ていきましょう。
ロジスティック回帰分析とは
ロジスティック回帰分析は、ある事象が起こるかどうかという二者択一の結果(本コラムでは「離職するか否か」)を予測するのに適しています[1]。人事の文脈で言えば、「どのような要因が社員の離職に影響を与えるのか」「ある社員が近い将来離職する確率はどのくらいか」といった問いに答えるのに役立ちます。
ロジスティック回帰分析の名前の由来は、この分析で使用される「ロジスティック関数」にあります。ロジスティック関数は、入力値が大きくなるにつれてゆるやかなS字カーブを描きながら0から1に近づいていく性質を持っています。
これは確率を表現するのに適しており、ロジスティック回帰分析ではロジスティック関数を使って、様々な要因(影響指標)と結果(成果指標)の関連を確率の情報を用いて表現します。
ロジスティック回帰分析の特徴は、複数の影響指標を同時に考慮できることです。社員の行動は単一の要因だけで決まるわけではありません。給与に不満があっても、職場の人間関係が良好であれば離職を思いとどまるかもしれません。逆に、給与は満足していても、キャリアの将来性に不安を感じれば離職を考えるかもしれません。ロジスティック回帰分析は、総合的に離職の確率を算出することができます。
ロジスティック回帰分析のもう一つの利点は、各影響指標と成果指標の関連の大きさや方向性を定量的に評価できることです。「どの要因が最も離職に影響しているのか」「ある要因が改善されたとき、離職確率がどの程度下がるのか」といった示唆を得ることができます。
ロジスティック回帰分析の掘り下げ
ロジスティック回帰の基本的な式は次のように表されます。
ln(p/(1-p))=β₀+β₁x₁+β₂x₂+…+βₙxₙ
この式の左辺は「ロジット」と呼ばれ、右辺は線形予測子と呼ばれます。この式の意味を解説していきます。
初めに、左辺の「ロジット」ですが、pは事象(例えば、離職)が起こる確率を表します。 (1-p)はその事象が起こらない確率を表します。p/(1-p)は、事象が起こる確率と起こらない確率の比を表しており、これは「オッズ」と呼ばれます。
オッズは、ある事象が起こる可能性と起こらない可能性を比較する方法です。例えば、ある社員の離職確率が0.8(80%)だとすると、離職しない確率は0.2(20%)になります。この場合のオッズは0.8/0.2=4となります。これは、この社員が離職する可能性が、離職しない可能性の4倍であることを意味します。
オッズは、確率を別の角度から見る方法として有用です。確率が0.5(50%)の場合、オッズは1となります。これは、事象が起こる可能性と起こらない可能性が等しいことを示しています。
確率が0.5より大きい場合、オッズは1より大きくなり、事象が起こる可能性の方が高いことを示します。逆に、確率が0.5より小さい場合、オッズは1より小さくなり、事象が起こらない可能性の方が高いことを示します。
このオッズに対して自然対数(ln(a)=loge(a) [2]、eはネイピア数)をとったものが「ロジット」です。自然対数を使用する理由は、確率を無限大まで拡張できるようにするためです。確率そのものは0から1の間の値しかとりませんが、ロジットは理論上、マイナス無限大からプラス無限大までの値をとることができます[3]。
続いて、右辺の線形予測子ですが、β₀は切片で、全ての影響指標がゼロの時のロジットの値を表します。β₁, β₂, …, βₙは各影響指標の係数で、それぞれの影響指標がロジットにどれだけ影響を与えるかを示します。x₁, x₂, …, xₙは各影響指標の値です。
例えば、x₁が「職務満足度」を表すとすると、β₁はその係数となり、職務満足度がロジットとどれほど関連するかを示します。β₁が正の値であれば、職務満足度が高いほどロジットが大きくなる(離職確率が高くなる)ことを意味し、負の値であれば、職務満足度が高いほどロジットが小さくなる(離職確率が低くなる)ことを意味します。
ロジスティック回帰の式は、複数の影響指標がどのように組み合わさって最終的な結果(ロジット)に影響を与えるかを表現しています。しかし、この式では確率pが直接出てきません。確率を求めるには、この式を変形する必要があります。変形すると次のようになります。
p=1/(1+e^-(β₀+β₁x₁+β₂x₂+…+βₙxₙ))
この式「1/(1+e^-x)」こそが、冒頭で触れたロジスティック関数です。eは自然対数の底(約2.718)を表します。
分母の(1+e^-(β₀+β₁x₁+β₂x₂+…+βₙxₙ))に注目してください。これは、指数関数e^-xの性質を利用して確率を0から1の間に収めるための工夫です。eの指数部分が大きな負の値になると、この項全体は大きな値になります。例えば、-10を指数部分に入れると、e^10≈22026となり、分母は22027になります。この場合、pの値は1/22027 ≈ 0.000045、すなわち0に近づきます。影響指標の値が非常に小さい(または係数が大きな負の値である)場合、事象が起こる確率がほぼ0になることを表しています。
逆に、指数部分が大きな正の値になると、e^-(大きな正の値)はほぼ0に近づくため、分母はほぼ1になります。この場合、pの値は1/1 = 1、すなわち1に近づきます。これは、影響指標の値が非常に大きい(または係数が大きな正の値である)場合、事象が起こる確率がほぼ1(100%)になることを表しています。
そして、指数部分が0の場合、e^0=1なので、分母は2になります。この時、pの値は1/2=0.5となります。これは、影響指標の総合的な効果がちょうど中立である場合、事象が起こる確率が50%になることを表しています。
このように、ロジスティック関数は、入力値(β₀+β₁x₁+β₂x₂+…+βₙxₙ)がどのような値であっても、0から1の間の値を出力します。これは確率を表現するのに適しています。確率は0以上1以下でなければならないからです。
具体例を用いて見ていきましょう。ある企業で1000人の社員を対象に組織サーベイを実施し、次の影響指標を用いてロジスティック回帰分析を行ったとします。
x₁:職務満足度(0-4の尺度)
x₂:上司との関係性(0-4の尺度)
x₃:給与満足度(0-4の尺度)
x₄:キャリア展望(0-4の尺度)
x₅:ワークライフバランス(0-4の尺度)
分析の結果、次のようなモデルが得られたとしましょう。
log(p/(1-p))=2.5-0.8x₁-0.5x₂-0.3x₃-0.6x₄-0.4x₅
この結果から、まず「すべての係数がマイナスであることから、これらの要因のスコアが高いほど、離職確率は下がる傾向にある」ことがわかります。加えて、このモデルを用いて個々の社員の離職確率を計算することもできます。例えば、ある社員のスコアが以下のようだったとします。
職務満足度:3
上司との関係性:4
給与満足度:2
キャリア展望:2
ワークライフバランス:3
これらの値をモデルの式に代入しましょう。
log(p/(1-p))=2.5-0.8×3-0.5×4-0.3×2-0.6×2-0.4×3
これを解いていくと2.5-2.4-2.0-0.6-1.2-1.2となり、-4.9となります。この値から離職確率を計算することが可能です。
p=1/(1+e^4.9)≈0.0073
計算の結果、この社員の離職確率は約0.73%と予測されます。この確率は低いですが、もし多くの社員でこのような計算を行えば、相対的にリスクの高い社員を特定することができるでしょう。
加えて、先の数式で示されたx1からx5の係数は確率計算のための非標準化係数です。この係数を標準化によって-1~+1の範囲に収まる値に調整すると、各影響指標が離職に対してどの程度影響力が大きいかを相対比較できます。標準化した係数が下記のように算出されたとしましょう。
職務満足度:.33
上司との関係性:.21
給与満足度:.12
キャリア展望:.28
ワークライフバランス:.18
このような結果が得られたら、影響力の相対的な大きさについて下記のような解釈ができます。
- 標準化係数の絶対値が最も大きいのは職務満足度の.33。離職を防ぐには職務満足度を高めることが最も効果的だと考えられる
- 次いで関連が大きいのはキャリア展望の.28。社員のキャリア展望を明確にすることも、離職防止に重要だと言える
- 給与満足度の係数は比較的小さく、他の要因よりも離職との関連が小さいことが示唆される
このように、ロジスティック回帰分析を用いることで、離職リスクを把握することができます。さらに、各要因の影響度も定量的に評価できるため、効果的な離職防止策を立案する際の指針となります。
ロジスティック回帰分析の限界
ロジスティック回帰分析は有効な手法ではありますが、どのような手法にも限界があるように、ロジスティック回帰分析にも注意すべき点があります。ロジスティック回帰分析を人事データ分析に活用する際に留意すべき主なポイントについて紹介します。
第一に、因果関係に関する注意点です。ロジスティック回帰分析は、変数間の関連性を示すものであり、因果関係を示すものではありません。例えば、給与満足度と離職の間に強い関連が見られたとしても、それが「給与満足度が低いから離職する」ということを直接的に意味するわけではありません。逆に「離職を考えているから給与に不満を感じている」という可能性も考えられます。
第二に、モデルの過適合に関するものです。過適合とは、分析に用いるデータに特有の特徴を数式が過度に学習してしまい、そのデータのみにうまくあてはまる数式となってしまい、新しいデータに対する予測精度が低下することを指します。いわば汎用性を失ってしまう状態です。
例えば、ある部署で特殊な事情により離職率が高かった期間のデータを用いてモデルを構築すると、そのモデルは特殊な状況にのみ適合し、通常の状況下では正確な予測ができない可能性があります。
第三に、指標間の多重共線性に関する注意点です。多重共線性とは、影響指標間に強い相関がある状態を指します。例えば、「働きがい」と「仕事のやりがい」という二つの指標があった場合、これらは強く関連している可能性が高いでしょう。
多重共線性が存在する場合、推定結果が不安定になり、モデルの解釈が難しくなる可能性があります。個々の指標の影響を正確に分離することが困難になり、係数の推定値が不安定になるのです。
第四に、データの質と量に関する注意点です。きちんとした分析結果を得るためには、十分な量の質の高いデータが必要不可欠です。サンプルサイズが小さい場合、統計的に有意な結果を得られにくくなります[4]。加えて、離職などある状態に該当するか否かの二者択一な指標や概念を成果指標にして分析することがロジスティック回帰分析の特徴ですが、2つのうち少ない方の選択肢の該当者数は、影響指標の個数の10倍いると分析が安定するとされています[5]。精度の高い分析をするなら、単純に人数を集めるだけでなく、分析したい影響指標の個数に応じて離職者のデータもそれなりに必要になるということに注意が必要です。また、データに偏りがある場合、そのモデルの予測結果は組織全体に一般化できない可能性があります。
このように、ロジスティック回帰分析を用いれば、離職するか否かについて確率的な予測ができ、離職に影響を及ぼしうる指標の把握にもつながります。特にロジスティック回帰分析は、離職するか否かのような「AかBか」のデータ(2値データ)を成果指標とする分析であり、離職の予測以外にも有効に使える場面は多くあります。
例えば、「ある施策への参加を高めるにはどうすれば良いか」の分析では「参加か不参加か」を成果指標とする分析ができたり、「幹部候補になる社員の特徴は何か」の分析では「幹部候補か否か」を成果指標にして分析ができます。人事の関心に向けて様々な観点で検証できる、有用な分析手法です。
脚注
[1] このような二者択一の結果を成果指標に取るものを、特に二項ロジスティック回帰分析と呼びます。それに対して、結果が3種類以上の複数種類ある場合は、多項ロジスティック回帰分析と呼ばれる別の方法で分析が行われます。本コラムは、実務において有効性の高い二項ロジスティック回帰分析に絞って解説をしています。
[2] 自然対数の場合、対数の底のネイピア数eを省略してlog(a)と表すことが多いです。
[3] ロジットを使用することの利点は、連続的な値を扱えるようになることです。確率は0と1の間に制限されていますが、ロジットにはそのような制限がありません。これによって、線形回帰のような手法を適用することが可能になります。
また、ロジットは確率の変化を、確率が極端に低い場合や高い場合でも敏感に捉えることができます。例えば、確率が0.01から0.02に変化した場合と、0.50から0.51に変化した場合では、確率の差は同じ0.01ですが、ロジットの変化量は前者の方が大きくなります。これは、低確率の事象の変化をより敏感に捉えられることを意味します。
[4] サンプルサイズと統計的有意性の関係には注意が必要です。サンプルサイズが小さいと統計的に有意な結果を得にくい一方で、サンプルサイズが非常に大きい場合、実質的には意味のない小さな差異でも統計的に有意になる可能性があります。例えば、10万人規模の調査で、ある要因が離職率を0.1%だけ上げると統計的に有意な結果になるかもしれません。しかし、この0.1%の差が実務上重要かどうかは別問題です。
[5] これは下記の論文で示された目安の数字であり、二者択一の成果指標における少ない方のカテゴリ数は、「EPV(Events Per Variable)=影響指標(変数)に対するイベント発生数の多さ」と呼ばれます。
Peduzzi, P., Concato, J., Kemper, E., Holford, T. R., & Feinstein, A. R. (1996). A simulation study of the number of events per variable in logistic regression analysis. Journal of clinical epidemiology, 49(12), 1373-1379.
執筆者
伊達 洋駆 株式会社ビジネスリサーチラボ 代表取締役
神戸大学大学院経営学研究科 博士前期課程修了。修士(経営学)。2009年にLLPビジネスリサーチラボ、2011年に株式会社ビジネスリサーチラボを創業。以降、組織・人事領域を中心に、民間企業を対象にした調査・コンサルティング事業を展開。研究知と実践知の両方を活用した「アカデミックリサーチ」をコンセプトに、組織サーベイや人事データ分析のサービスを提供している。著書に『60分でわかる!心理的安全性 超入門』(技術評論社)や『現場でよくある課題への処方箋 人と組織の行動科学』(すばる舎)、『越境学習入門 組織を強くする「冒険人材」の育て方』(共著;日本能率協会マネジメントセンター)などがある。2022年に「日本の人事部 HRアワード2022」書籍部門 最優秀賞を受賞。東京大学大学院情報学環 特任研究員を兼務。