2025年3月25日
ダミー変数:重回帰分析において質的変数を導入する
重回帰分析は、複数の要因が結果にどのように影響しているかを同時に分析する統計手法です。しかし、重回帰分析を行う際、「部署」や「職位」といった数値では表せない情報をどのように扱えばよいのでしょうか。
ここで役に立つのが「ダミー変数」です。ダミー変数を用いることで、これらの質的な情報も重回帰分析に組み込むことができ、より豊かな洞察を得ることができます。
例えば、新入社員の離職率分析において、「配属部署」という情報をダミー変数として組み込むことで、部署ごとの離職リスクの違いを定量的に評価できるようになります。また、「役職」をダミー変数として扱うことで、役職による生産性の差異を他の要因(年齢や経験年数など)の影響を制御した上で推定することができます。
本コラムでは、特に重回帰分析の文脈におけるダミー変数について解説します。少し難しそうに聞こえるかもしれませんが、基本を押さえれば有効な手法になり得ます。
ダミー変数とは何か
ダミー変数は、質的変数(カテゴリカル変数)を数量的なデータとして扱うために用いられます。重回帰分析において、影響指標として質的変数を導入する際に有効な手法です[1]。
通常、重回帰分析では連続的な数値データを扱います[2]。例えば、従業員の年齢や勤続年数、給与などは数値として扱うことができます。しかし、部署や学歴といった質的な情報は、そのままでは重回帰分析に組み込むことができません。
そこで登場するのがダミー変数です。ダミー変数は、質的変数の各カテゴリーに対して0か1の値を割り当てることで、質的情報を数量化します。例えば、部署をダミー変数化する場合、「営業部門=1、それ以外=0」というように割り当てることができます。
ダミー変数は、特定のカテゴリーに属するか否かを二値的に表現します。これにより、数学的に扱いやすい形に変換することが可能となります。0と1という値自体に特別な意味はなく、あくまでカテゴリーの所属性を表します。
どういう場合にダミー変数を用いるのか
ダミー変数は、質的変数を含む多様なデータセットを分析する際に用いられます。人事分野における使用場面を考えてみましょう。
初めに、カテゴリカルな属性の影響を検討する場合に、ダミー変数が活用されます。例えば、従業員の部署、役職、学歴などの属性がエンゲージメントスコアにどのような影響を与えているかを分析する際に、ダミー変数を用います。「営業部門に所属していることが、エンゲージメントスコアにプラスの影響を与えているか」といった仮説を検証することができます。
続いて、特定のイベントや施策の効果を測定する場合にもダミー変数が有用です。新しい研修プログラムや働き方改革などの施策が、エンゲージメントに与える影響を分析するケースです。施策の対象グループと非対象グループの差異を、ダミー変数を用いて表現し分析することができます。
こうした場面でダミー変数を活用することで、量的データだけでは捉えきれない複雑な関係性や影響を、統計的な方法で分析することが可能となります[3]。人事データ分析において、ダミー変数の使用は、より豊かで正確な洞察を得るために重要です。
ダミー変数の作り方
ダミー変数の作成は、一見シンプルに見えて実は注意すべき点のあるプロセスです。基本的な作成方法と、陥りやすい罠について紹介します。
基本的なダミー変数の作成に際しては、まず、対象となる質的変数のカテゴリーを特定します。次に、各カテゴリーに対して、新しい変数(列)を作成します。そして、各観測値(行)について、該当するカテゴリーの列に1を、それ以外の列に0を割り当てます。
例えば、「部署」という変数があり、「営業」「人事」「経理」の3つのカテゴリーがある場合、営業ダミーは営業部署の従業員は1、それ以外は0となります。人事ダミーは人事部署の従業員は1、それ以外は0となります。経理ダミーは経理部署の従業員は1、それ以外は0となります。
しかし、ここで注意すべき点があります。全てのカテゴリーに対してダミー変数を作成してしまうと、問題が生じます。上記の例で言えば、3つ全てのダミー変数を重回帰モデルに含めてしまうと、完全な多重共線性が発生し、モデルの推定が不可能になります[4]。
従業員ごとに3つのダミー変数(営業ダミー、人事ダミー、経理ダミー)の和を取ると、その値は常に1になります。どの従業員も必ずいずれかの部署に所属しているからです。2つのダミー変数の値がわかれば、残りの1つのダミー変数の値は自動的に決まります。
例えば、ある従業員の営業ダミーが0、人事ダミーが0だとわかれば、その従業員の経理ダミーは必ず1になります。このような関係を、完全な線形従属と呼びます。
重回帰分析では、影響指標(この場合はダミー変数)同士が独立していることが前提です。しかし、3つ全てのダミー変数を含めると、この条件が満たされなくなってしまいます。
重回帰分析の本質は、複数の影響指標が成果指標に与える影響を個別に推定することです。他の影響指標の値を固定したまま、ある影響指標だけを変化させたときの成果指標の変化を見ることで実現されます。
しかし、完全な線形従属関係にある変数群では、一つの変数を変化させると、必ず他の変数も完全に連動して変化してしまいます。「他の影響指標を固定したまま、ある影響指標だけを変化させる」ということが不可能になるということです。
これによって、偏回帰係数の推定自体が不可能になります。回帰分析では最小二乗法を用いて回帰係数を推定しますが、偏回帰分析の計算過程で行列の逆行列を求める必要があります。その際、完全な線形従属関係がある場合、この行列が正則行列でなくなり、逆行列が存在しなくなってしまいます。すると、最小二乗法における「誤差の二乗和を最小化する回帰係数を求める」計算ができなくなり、回帰係数の推定が不可能になります。
こうした問題を避けるために、「基準カテゴリー」を設定し、そのカテゴリーに対応するダミー変数を除外します。上記の例では、例えば「営業」を基準カテゴリーとして、「人事ダミー」と「経理ダミー」のみをモデルに含めます。この場合、「営業」は全てのダミー変数が0の状態として表現されます。
基準カテゴリーの選択は、分析の目的や解釈のしやすさを考慮して決定します。例えば、最も頻度の高いカテゴリーや、比較の基準としてふさわしいカテゴリーを選びます。
他方で、2値のカテゴリカル変数の場合は、1つのダミー変数のみで表現可能です。例えば、「管理職=1、非管理職=0」というダミー変数を作成すれば十分です。
重回帰モデルにおけるダミー変数の導入
エンゲージメントサーベイの分析を例に、ダミー変数を含む重回帰モデルの構築方法を解説します。基本的な重回帰モデルの一般形は次のように表されます。
Y=β₀+β₁X₁+β₂X₂+…+βₖXₖ+ε
この式において、Yは成果指標(例えば、エンゲージメントスコア)、X₁, X₂, …, Xₖは影響指標、β₀, β₁, …, βₖはそれぞれの係数、εは誤差項です。
ダミー変数を導入する場合、この一般形に質的変数を表すダミー変数を追加します。例えば、部署(営業、人事、経理)の影響を検証するためダミー変数を導入する場合、モデルは次のようになります。
Y=β₀+β₁X₁+β₂X₂+β₃D₁+β₄D₂+ε
この式におけるX₁, X₂は連続変数(例えば、年齢、勤続年数)、D₁は人事ダミー(人事部署=1、それ以外=0)、D₂は経理ダミー(経理部署=1、それ以外=0)です。
部署ダミーは2つしか導入していません。これは前述の多重共線性の問題を避けるためです。営業部署が基準カテゴリーとなり、D₁とD₂がともに0の場合が営業部署を表します。
このモデルでは、β₃は人事部署であることの効果、β₄は経理部署であることの効果を表します。これらの係数は、他の変数の影響を制御した上での、各カテゴリーの独立した効果を意味します。
ダミー変数の係数の解釈
ダミー変数を含む重回帰分析の結果を理解するためには、ダミー変数の係数の適切な解釈が不可欠です。ダミー変数の係数は、その変数が1の場合と0の場合の成果指標の予測値の差を表します。すなわち、他の全ての影響指標を一定に保った場合に、そのカテゴリーに属することによる成果指標への影響を示しています。
例えば、先ほどのモデルにおいて、β₃=0.5の場合を考えてみましょう。この係数は、他の全ての条件(年齢、勤続年数など)が同じであれば、人事部署の従業員は営業部署の従業員よりもエンゲージメントスコアが平均して0.5ポイント高いことを指します。
ここで重要なのは、この解釈は「他の全ての影響指標を一定に保った場合」という条件付きのものだということです。現実世界では、様々な要因が複雑に絡み合っています。例えば、人事部署の従業員は営業部署の従業員よりも平均年齢が高いかもしれません。また、勤続年数も異なる可能性があります。単純に人事部署と営業部署のエンゲージメントスコアの平均値を比較すると、そうした要因の影響も含まれてしまいます。
しかし、重回帰分析では、これらの他の要因の影響を統計的に統制した上で、純粋に部署の違いがもたらす影響を推定することができます[5]。ダミー変数の係数は、年齢や勤続年数などの他の要因の影響を取り除いた上で、部署の違いだけがエンゲージメントスコアに与える影響を表しているのです。
ダミー変数の係数を解釈する際は、「他の条件が同じであれば」という前提を常に念頭に置く必要があります。単純にこの数値だけで判断を下すのは適切ではありません。例えば、人事部署のエンゲージメントスコアが高いからといって、すぐに他の部署の従業員を人事部署に異動させればエンゲージメントが上がるという結論を出すのは早計です。
ダミー変数の係数の解釈には、もう一つ注意点があります。それは、相対的な影響を示しているということです。ダミー変数の係数は、基準カテゴリーとの相対的な差を示しています。
先ほどの例で、人事ダミーの係数β₃が0.5、経理ダミーの係数β₄が0.3だったとします。これは、営業部署(基準カテゴリー)と比較して、人事部署は0.5ポイント、経理部署は0.3ポイント、エンゲージメントスコアが高いことを意味します。
例えば、営業部署の平均エンゲージメントスコアが3.0だった場合、人事部署は3.5、経理部署は3.3と予測されます。しかし、営業部署の平均が4.0だった場合、人事部署は4.5、経理部署は4.3となります。ダミー変数の係数は、基準カテゴリーからの相対的な差を示しているのであって、絶対的な水準を示しているわけではありません。
ダミー変数の係数を解釈する際は、基準カテゴリーの選択によって解釈が変わる可能性があることを理解しておく必要があります。例えば、基準カテゴリーを営業部署ではなく人事部署にした場合、係数の値や解釈が変わってきます。
さらに、因果関係と相関関係の区別を忘れてはいけません。重回帰分析の結果は相関関係を示すものであり、因果関係を意味するわけではありません。例えば、ある部署のエンゲージメントスコアが高いからといって、その部署に配属することで自動的にエンゲージメントが向上するわけではありません。部署の特性や業務内容、組織文化など、様々な要因が複雑に絡み合っている可能性があります。
ダミー変数の制約
ダミー変数は重回帰分析において非常に有用ですが、その使用には一定の制約があります[6]。
ダミー変数の最も基本的な制約は、完全な多重共線性の問題です。既述の通り、ある質的変数のすべてのカテゴリーに対してダミー変数を作成すると、それらの和が常に1になるため、線形従属の関係が生じることを指します。この問題は、モデルの推定を不可能にし、係数の解釈を困難にします。
この制約に対処するために、ある質的変数のカテゴリー数が K の場合、K-1 個のダミー変数のみをモデルに含めます。除外されたカテゴリーが基準となり、他のカテゴリーの効果はこの基準との相対的な差として解釈されます。先の例では営業・人事・経理のダミー変数を作成しましたが、部署のカテゴリ数3個に対して、2個のダミー変数を作成したのはこのルールに則っています。
ダミー変数の使用に関するもう一つの制約は、カテゴリー数が多い質的変数の扱いです。例えば、「職種」のように多数のカテゴリーを持つ変数をダミー変数化すると、モデルのパラメータ数が急増し、自由度の損失や過適合のリスクが高まります[7]。
ダミー変数の使用における、さらなる制約として、カテゴリー間の順序や距離の情報の損失があります。例えば、「勤続年数」を「0-5年」「6-10年」「11年以上」といったカテゴリーに分けてダミー変数化すると、連続的な時間の経過に伴う変化の情報が失われてしまいます。
脚注
[1] 重回帰分析そのものの解説は当社コラムを参考にしてください。
[2] 数量的データ(量的変数)や先に述べた質的変数(カテゴリカル変数)といったデータの性質は、尺度水準と呼ばれます。これについては、当社コラムでくわしく解説しています。
[3] ダミー変数を含む重回帰分析では、変数間の交互作用も考慮することが可能です。交互作用とは、ある変数の効果が他の変数の値によって変化することを指します。交互作用の詳細は当社コラムを参考にしてください。
例えば、部署(ダミー変数)と年齢(連続変数)の交互作用を考えると、部署の効果が年齢によって異なる可能性があります。交互作用を含めることで、より複雑な関係性を捉えることができますが、解釈が難しくなる点には注意が必要です。
[4] 多重共線性には、完全な多重共線性と不完全な多重共線性があります。
完全な多重共線性は、ある説明変数が他の説明変数の完全な線形結合で表される場合に生じます。例えば、全てのカテゴリーにダミー変数を割り当てた場合がこれに該当します。この場合、モデルの推定が不可能になります。
一方、不完全な多重共線性は、説明変数間に強い相関関係がある場合に生じます。これは推定を不可能にはしませんが、係数の推定値が不安定になり、標準誤差が大きくなる問題を引き起こします。
[5] 統計的な統制の意味するところについては、当社コラムをご覧ください。
[6] ダミー変数を用いた重回帰分析には、線形性の仮定という限界もあります。すなわち、カテゴリー間の関係が線形であることを前提としています。
しかし、実際のデータでは、カテゴリー間の関係が非線形である可能性もあります。例えば、年齢をカテゴリー化してダミー変数として扱う場合、年齢とエンゲージメントスコアの関係が単純な直線ではなく、曲線的である可能性があります。非線形性を捉えるためには、別のモデルを検討する必要があります。
[7] ダミー変数を含む重回帰分析を行う際は、サンプルサイズと変数の数の関係に注意しなければなりません。変数の数に対して十分大きなサンプルサイズが必要です。サンプルサイズが小さい場合、モデルの推定精度が低下します。また、ダミー変数を作成する質的変数のカテゴリー数が数十個と膨大にある場合は、ハイレベルになりますがマルチレベル分析も考慮することが有効です。マルチレベル分析については、当社コラムで概説しています。
執筆者
伊達 洋駆 株式会社ビジネスリサーチラボ 代表取締役
神戸大学大学院経営学研究科 博士前期課程修了。修士(経営学)。2009年にLLPビジネスリサーチラボ、2011年に株式会社ビジネスリサーチラボを創業。以降、組織・人事領域を中心に、民間企業を対象にした調査・コンサルティング事業を展開。研究知と実践知の両方を活用した「アカデミックリサーチ」をコンセプトに、組織サーベイや人事データ分析のサービスを提供している。著書に『60分でわかる!心理的安全性 超入門』(技術評論社)や『現場でよくある課題への処方箋 人と組織の行動科学』(すばる舎)、『越境学習入門 組織を強くする「冒険人材」の育て方』(共著;日本能率協会マネジメントセンター)などがある。2022年に「日本の人事部 HRアワード2022」書籍部門 最優秀賞を受賞。東京大学大学院情報学環 特任研究員を兼務。