2019年4月25日
重回帰分析とは何か(前編)
本コラムでは「重回帰分析」について解説します。近年、HR業界に関する書籍の中で重回帰分析の結果が登場する機会が増えています。弊社の組織診断(サーベイ)サービスにおいても、重回帰分析を行うことは少なくありません。前編と後編に分けて、重回帰分析の概要を説明します。
サマリー:重回帰分析とは?
重回帰分析とは、簡単にいえば、手元にあるデータをもとにして、「ある要因を高めるには、他のどの要因を高めればいいか?」に関する方程式を計算する方法です。
例えば、過去1年分の営業スタッフ100人の売上のデータと、それぞれの社員の性格や学歴、転職経験などのデータがあったとします。このデータをもとにして「平均的にいえば、どんな性格で、どんな学歴で、どんな転職経験を持つ社員が売上を多くあげているのか」を計算する方法が重回帰分析です。
重回帰分析の理解の前提:独立変数と従属変数
重回帰分析について理解をするには、まず「変数」という考え方を理解する必要があります。変数とは、それぞれの回答者の何らかの特徴を数字で表した指標のことを指します。例えば、ある会社の営業スタッフのデータが、次の表のようにまとまっていたとします。それぞれの「列」がスタッフの何らかの特徴を表しており、これら1つ1つを「変数」と呼びます (注1)。
ID1番の社員は営業売上が1,000で、外向性の得点が10点で……ということを指す、架空のデータ
統計分析を用いる際の一つの重要なポイントが、変数間の関係性についてあらかじめ「仮説」を持つことです。つまり「要因Aが要因Bに影響を与えているのではないか」(例:転職経験が多い社員ほど、営業売上が高いのではないか)など、あらかじめ自分が検証したい仮説を設定し、それに沿ったモデル(いわば数式)を指定して、統計ソフトやExcelで分析を行う必要があります。
このとき、影響を与えられる側(予測される対象)の変数のことを「従属変数」と呼び、影響を与える側(予測に活用するためのもの)の変数のことを「独立変数」と呼びます(注2)。
非常に重要なことに、統計ソフトは、こうした仮説の生成まで自動的に行ってくれるものではありません。そのため、どの変数とどの変数の関係を分析するのか、また、どのような因果関係を想定するのか(例:転職経験が多い社員ほど売上が大きいのか、売上が大きいほど転職経験が多いのか)、分析者が自分で試行錯誤する必要があります。
重回帰分析の詳細:回帰式とその意味
それでは、引き続き営業スタッフの売上予測のデータを例に取って、重回帰分析について詳細な説明を進めます。まず分析をする人の過去の経験や、今回のデータに含まれている変数の種類に基づいて、次のような仮説を立てたとします。
「転職経験が多い社員ほど、性格が外向的なほど、営業売上が高いのではないか」
この仮説を「変数」という言葉を使って置き換えると、次のようになります。
- 独立変数1: 転職経験(転職回数を数値で入力した変数)
- 独立変数2: 外向性(明るい性格かどうかを10点満点で評価した変数)
- 従属変数: 営業売上(過去1年間の総売上金額が何万円かを入力した変数)
上記仮説を数式に置き換えると、次のようになります。ここでは「y」が従属変数、「x」が独立変数(添え字は何個目の独立変数かを表す)を指しており、「a」は定数、「b」はそれぞれの独立変数の係数(yを計算するためにはxを何倍する必要があるか)を示しています。この「仮説を表現した数式」のことを「回帰式」と呼びます。
y=a+(b1×x1)+(b2×x2)
(営業売上)=(定数)+(係数1×転職経験)+(係数2×外向性)
この数式で表現されている内容を文章に置き換えると、次のようになります。
「ある人の転職経験に『係数1』を掛け算して、外向性に『係数2』を掛け算して、「定数」を足せば、その人の営業売上が大体予測できる」
この数式でいうところの「係数1」と「係数2」(つまり転職経験と外向性を何倍すれば営業売上が予測できるのか)、および「定数」を、既存のデータをもとに計算する方法が「重回帰分析」です。
この例でいえば、営業スタッフ100人分の、①営業売上、②転職経験、③外向性の具体的な数字をもとに、最もうまく既存の営業売上を説明できるような「係数1」「係数2」を自動的に計算することが分析のゴールです。この「回帰式を導出する分析」が重回帰分析だといえます。
分析者がするべきことは、適切な仮説を考えたうえで、上記式のx1とx2に何が入るのか、指定することです。また本稿では2つだけ独立変数を用いましたが、実際には3つ以上の独立変数を同時に用いることも可能です (注3)。
(注1)変数には様々な種類があり、連続的に変化する上に数字の大小と意味の大小に関連がある「量的変数」(例:身長、体重、売上)、数値の大きさに意味はなく、数字の大小と意味の大小に必ずしも関係がない「質的変数」(例:性別を0と1で表現する)等があります。
(注2)名称は分野によって異なり、独立変数には「説明変数」、従属変数には「目的変数」「被説明変数」等の様々な別称があります。
(注3)ただしデータの総数に応じて、あまりにも多くの独立変数を同時に使うことは推奨されません。あくまでも筆者の経験則にとどまりますが、一般的には「データの総数÷10」が独立変数の総数の限界といわれているように感じます。つまり今回の「営業スタッフ100名分のデータ」の例でいえば、どんなに多くても、最大で10個の独立変数を使うことが限界だと考えられます。
執筆者
正木 郁太郎
2017年東京大学大学院人文社会系研究科博士後期課程修了。博士(社会心理学)。2020年現在、同研究科研究員として在籍。人事・組織に関する研究やHRTech、さらに中等教育などの領域で、民間企業からの業務委託や、アドバイザーなどを複数兼務。組織のダイバーシティに関する研究を中心として、社会心理学や産業・組織心理学を主たる研究領域としており、企業や学校現場の問題関心と学術研究の橋渡しとなることを目指している。著書に『職場における性別ダイバーシティの心理的影響』(東京大学出版会)がある。