ビジネスリサーチラボ

open
読み込み中

コラム

相関係数の読み方:関係の強さと方向性を解釈する

コラム

データ分析が人事領域でも重要性を増す中、「相関」という言葉を耳にする機会が増えてきたのではないでしょうか。例えば、組織サーベイの結果を見る際に、「相関係数」が登場することがあります。

しかし、相関係数とは何を意味するのか、どのように解釈すればよいのかと尋ねられると、答えに窮する人もいるかもしれません。「正の相関」「負の相関」といった言葉の意味は分かるものの、実際の数値を見たときにどう読み取ればよいのか悩むこともあるでしょう。

本コラムでは、相関係数の基本的な考え方から実践的な読み方まで解説していきます。人事実務で遭遇しそうな具体例も交えながら説明します。

相関係数を理解することで、データに基づいた効果的な人事施策の立案が可能になります。また、外部コンサルタントの分析結果を評価し、建設的な議論ができます。

相関係数とは何か

相関係数は、2つの変数(指標)の間にどのような関係があるのかを示す指標です。2つの数値データの組み合わせにおいて、一方の値が変化したときに、もう一方の値がどのように変化する傾向があるのかを表します。

例を挙げて説明しましょう。「従業員満足度」と「生産性」の関係を知りたいとします。従業員満足度を10点満点で測定し、生産性を1日あたりの処理タスク数で測定したとしましょう。100人の従業員からこの2つのデータを集めました。

このとき、次のような疑問が生じるかもしれません。

  • 従業員満足度が高い人ほど、生産性も高い傾向にあるのか
  • それとも、満足度と生産性には特に関係がないのか
  • あるいは、満足度が高い人ほど生産性が低いという逆の関係があるのか

相関係数は、このような疑問に対して示唆を提供します。相関係数を算出することで、2つの指標の関係性の強さと方向を同時に把握することができます。

相関係数は通常「r」で表され、-1から+1の間の値をとります。

  • +1に近いほど、強い正の相関(一方が高いと、もう一方も高い関係)
  • -1に近いほど、強い負の相関(一方が高いと、もう一方は低い関係)
  • 0に近いほど、相関が弱い2つの指標にあまり関連がない)

相関係数を確認することで、2つの指標がどの程度関連しているか、そしてその関連の方向性(正か負か)を理解することができます。

ただし、ここで注意点があります。相関係数はあくまで2つの指標の関連の強さを示すものであり、因果関係(原因と結果の関係)を示すものではありません。例えば、従業員満足度と生産性に強い正の相関があったとしても、「満足度が高いから生産性が上がる」とは限りませんし、「生産性が高いから満足度が上がる」とも限りません。第三の要因(例:仕事へのモチベーション)が両方に影響している可能性もあります。

相関係数は2つの指標の関連を示す有用な指標ですが、その解釈には慎重さが求められます。以降、より詳しく相関係数の読み方と注意点を説明していきます。

相関係数の具体例

組織サーベイを例に、相関係数の理解を深めましょう。例えば、ある会社で従業員100人を対象に、「仕事への満足度」(10点満点)と「1日の平均残業時間」を調査したとします。結果は次のようになりました。

仕事への満足度と1日の平均残業時間の相関係数:r=-0.43

この相関係数をどう読み取ればよいでしょうか。

  • まず、負の値(-0.43)なので、「負の相関」があることがわかります。残業時間が長い人ほど、仕事への満足度は低いということです。
  • 次に、その強さを見ます。詳細は後述しますが、±0.4から±0.6の間は「ほどほど」の相関とされます。この場合、-0.43なので、ほどほどの負の相関があると言えます。
  • 要するに、この会社では「残業時間が長い人ほど、仕事への満足度が低い」という関係がある程度見られます。

ただし、この結果だけでは「残業が多いから満足度が下がる」とは断言できないことに注意が必要です。例えば、「満足度が低い人ほど仕事の効率が悪く、結果として残業が増える」という可能性もあります。あるいは、「仕事量が多すぎる部署では満足度が低く、かつ残業も多い」という第三の要因の影響かもしれません。

相関係数はあくまで2つの指標の関連を示すものであり、因果関係を示すものではありません。しかし、この結果から「残業時間と仕事の満足度には一定の関連がありそう」ということは言えるでしょう。

もう一つ例を見てみましょう。同じ会社で「チームの一体感」(10点満点)と「個人の業績評価」(5段階)の相関を調べたところ、次のような結果が得られました

チームの一体感と個人の業績評価の相関係数:r=0.35

この結果はどのように解釈できるでしょうか。

  • 相関係数は正の値(35)なので、「正の相関」があります。チームの一体感が強いと感じる人ほど、個人の業績評価も高いということです。
  • 相関係数の強さについては、±0.2から±0.4の間は「弱い」相関とされます。今回は35なので、弱い正の相関があると言えます。
  • この会社では「チームの一体感が強いと感じる人ほど、個人の業績評価が高い」という関係が弱いながらも見られることがわかります。

この結果をもとにすれば、チームの一体感を高めることが個人の業績向上につながる可能性が示唆されます。ただし、相関は強くないため、他の要因も同時に考慮する必要があるでしょう。

そして、ここでも因果関係については慎重に検討しなければなりません。「チームの一体感が高まったから個人の業績が上がった」のか、「業績の高い個人がいるチームほど一体感が高まった」のか、あるいは別の要因が影響しているのか、相関係数だけでは判断できません。

これらの例から分かるように、相関係数は2つの指標の関連を簡潔に表現できる指標です。しかし、繰り返しになりますが、その解釈には注意が必要で、他の要因や可能性を考慮しなければなりません。

詳細な読み方

相関係数をより深く理解し、適切に解釈するために、いくつかのポイントを詳しく見ていきましょう。

相関の方向

相関係数の正負で、2つの指標がどのような関係にあるかがわかります。

  • 正の相関(+:一方の指標が高いと、もう一方の指標も高い関係
  • 負の相関(:一方の指標が高いと、もう一方の指標は低い関係

2つ例を挙げてみます。

「従業員の成長実感」と「仕事への意欲」:r=0.40

これは、成長を実感している人ほど、仕事への意欲も高い傾向にあります。

「職場のストレス度」と「仕事の生産性」:r=-0.38

職場のストレスが高いと感じる人ほど、生産性が低い傾向にあります。

相関の強さ

相関係数の絶対値の大きさで、関係の強さを判断します。強さを評価する基準については、例えば、次のような目安があります[1]

|r|0.2:非常に弱い相関

0.2|r|0.4:弱い相関

0.4|r|0.6:ほどほどの相関

0.6|r|< 0.8:強い相関

0.8|r|:非常に強い相関

ただし、これはあくまで目安であり、目的や状況によって異なる場合もあります。

相関係数を評価する際の例を挙げてみます。

「上司からのフィードバック頻度」と「仕事の満足度」:r=0.35

弱い正の相関です。フィードバック頻度が高い人ほど満足度も少し高いのですが、その関係はそこまで強くないという塩梅です。

「勤続年数」と「業務スキルレベル」:r=0.65

これは、強い正の相関です。勤続年数が長い人ほど、業務スキルレベルも高い傾向が認められます。

散布図との関係

相関係数は、2つの指標の関係を1つの数字で表したものですが、実際のデータの分布を視覚的に確認するためには「散布図」が役立ちます。

散布図は、2つの指標の値をそれぞれx軸とy軸にとり、各データをプロットしたグラフです。相関係数と散布図の関係を理解することによって、データの全体像を理解しやすくなります。

例えば、次のようなケースを考えてみましょう。

  • 強い正の相関(r=0.85:データが右上がりの傾向を示し、直線に近い形で分布します。
  • 中程度の負の相関(r=-0.50:データが右下がりの傾向を示しますが、少しばらつきがあります。
  • 弱い正の相関(r=0.30:全体的な傾向としては右上がりですが、それなりにばらつきがあります。
  • ほとんど相関なし(r=0.05:データポイントがほぼばらばらに分布しています。

散布図を見ることで、外れ値(他のデータから大きく離れた値)の存在や、非線形の関係(直線ではなく曲線的な関係)などもチェックできます。これらは相関係数だけでは捉えきれない情報なので、散布図と合わせて確認しましょう。

ここで重要なのは、相関係数は散布図上の点がどれだけ直線的な傾向を持っているかを示すものであり、その直線の傾きを示すものではない点です。相関係数が同じでも、散布図上での傾きは異なる可能性があります。

例えば、次の2つの極端なケースを考えてみるとわかりやすいかもしれません。

両方のケースで相関係数は1.0(完全な正の相関)となりますが、散布図上での傾きは異なります。ケース2の方がケース1よりも傾きが急になっています。

相関係数は関係の強さを示すものであり、その関係の具体的な形(傾き)を示すものではありません。相関係数が強くなると、散布図上のデータは直線に近づきますが、その直線がどれくらい急な傾きを持つかは相関係数だけでは分かりません。

統計的有意性の確認

相関係数を解釈する際に「統計的有意性」も確認します。これは、得られた相関係数が、意味のある関連を示しているかどうかを判断するための指標です。

統計的有意性は通常、p値で評価されます。p値は、帰無仮説(相関が0である)が真であると仮定したときに、観測されたデータまたはそれよりも極端なデータが得られる可能性を指します[2]。慣習として、p<0.055%水準)で「統計的に有意」と判断されます。

例えば、次の結果が得られたとします。

「リモートワーク日数」と「仕事の満足度」の相関係数:r=0.25, p<0.01

弱い正の相関があり、統計的にも有意な結果と言えます。

「オフィスの座席位置」と「生産性」の相関係数:r=0.10, p=0.32

これは相関がほとんどなく、統計的にも有意ではないという結果です。

なお、統計的有意性については、いくつかの注意点があります。

  • 統計的有意性は関連の強さを示すものではありません。弱い相関でも、サンプルサイズが大きければ統計的に有意になることがあります。
  • 統計的に有意でないからといって、必ずしも関連がないとは限りません。サンプルサイズが小さい場合などは、実際には関連があっても有意にならないことがあります。
  • 統計的有意性は実務的な重要性を必ずしも意味しません。統計的に有意であっても、実際の関連が小さければ、施策立案の優先順位は低くなるでしょう。

相関係数の計算方法

相関係数の計算方法を理解することで、その性質が鮮やかに見えてきます。ここでは、算出の基本的な考え方と、それがどのような意味を持つのかを説明します。

共分散の算出

相関係数の算出の第一歩は、「共分散」を求めることです。共分散は、2つの変数がどの程度一緒に変動するかを示す指標です。

例えば、「従業員の年齢」と「年間休暇取得日数」というデータがあるとします。

田中さん:30歳、10

鈴木さん:45歳、15

佐藤さん:25歳、5

山田さん:50歳、20

中村さん:35歳、12

共分散は4つのステップで計算することができます。

  • 各変数の平均を計算します。
年齢の平均:37

休暇取得日数の平均:12.4

  • 各データの偏差を計算します。偏差とは平均からの差のことです。
田中さん:(-7, -2.4)

鈴木さん:(8, 2.6)

佐藤さん:(-12, -7.4)

山田さん:(13, 7.6)

中村さん:(-2, -0.4)

  • 偏差の積を計算し、合計します。
16.8+20.8+88.8+98.8+0.8=226
  • データ数で割ります。
226÷5=45.2

この45.2が共分散になります。正の値であるため、年齢が高い人ほど休暇取得日数が多いことが示唆されます。

標準化

しかし、共分散には問題があります。それは単位の影響を受けてしまうことです。例えば、年齢を「年」ではなく「月」で表すと、共分散の値が12倍になってしまいます。

そこで、共分散を標準化して単位の影響を取り除きます。具体的には、共分散を各変数の標準偏差の積で割ります。そうすると、相関係数が導き出されます。

相関係数=共分散÷(年齢の標準偏差×休暇取得日数の標準偏差)

この計算によって、相関係数は-1から+1の間に収まるようになります。分子(共分散)と分母(標準偏差の積)が同じ単位を持つため、単位が相殺されるからです。結果として、どんな単位で測定しても解釈しやすい値になるという利点があります。

相関係数の解釈

上記の例で相関係数を計算すると、0.66となります。これは強い正の相関を示しています。この会社においては年齢が高い人ほど休暇取得日数が多い傾向が強いということです。

偏相関係数について

応用的な分析手法である「偏相関係数」についても簡単に触れておきます。

偏相関係数とは、2つの変数間の関係を見る際に、他の変数の影響を取り除いた上での相関を示す指標です。第三の変数の影響を統計的に統制した状態で、2つの変数の関係を見ることができます。

この「統制」という考え方は、一見難しく感じるかもしれません。しかし、日常生活の例で考えると理解しやすくなります。

例えば、「アイスクリームの売上」と「熱中症患者数」の間に強い正の相関があったとします。しかし、この関係は直接的なものではなく、実際には「気温」という第三の変数が両方に影響を与えているかもしれません。

気温が高い ↔ アイスクリームの売上が増える

気温が高い ↔ 熱中症患者が増える

このような場合、「気温」の影響を取り除いた「アイスクリームの売上」と「熱中症患者数」の偏相関係数を算出することで、より正確な関係を把握できます。おそらく、気温の影響を取り除くと、両者の関係はかなり弱くなるでしょう。

人事のデータ分析でも同様のことが言えます。例えば、「従業員満足度」と「生産性」の間に正の相関があったとしても、実際には「勤続年数」が両方に影響を与えている可能性があります。

勤続年数が長い ↔ 従業員満足度が高い(仕事に慣れ、人間関係も構築されているため)

勤続年数が長い ↔ 生産性が高い(経験や熟練度が増しているため)

このような場合、「勤続年数」の影響を取り除いた「従業員満足度」と「生産性」の偏相関係数を計算することで、満足度と生産性の正確な関係を把握できます。

なお、偏相関係数の解釈は通常の相関係数と同じで、-1から+1の間の値をとり、その絶対値が大きいほど強い関係を示します。ただし、偏相関係数は通常の相関係数よりも小さくなる傾向があります。他の変数の影響を取り除いているからです。

偏相関係数を用いることで、より精緻な分析が可能になりますが、計算や解釈が複雑になるため、使用する際には注意が必要です。偏相関分析の詳細については、別のコラムで詳しく解説する予定です。

相関分析かt検定か

相関係数は2つの変数間の関係を簡潔に示す指標です。本コラムでは、相関係数の基本的な考え方から、その解釈方法、さらには注意点まで幅広く解説しました。相関係数を正しく理解し、適切に活用することで、人事のデータ分析がより深まり、効果的な施策立案につながることでしょう。

最後に、データ分析の手法選択について補足します。例えば、従業員満足度と生産性の関連を見る際、満足度を平均値で高群と低群に分けて生産性をt検定[3]で比較する方法がありますが、両者の関連を相関分析する方が望ましいと言えます。

これはなぜか、具体例を挙げて説明します。100人の従業員の満足度(10点満点)と生産性(1日あたりの処理タスク数)のデータがあるとします。

  • t検定を用いる場合:満足度の平均値(例:6点)で高群と低群に分けます。その上で、高群(満足度6点以上)と低群(満足度6点未満)の生産性の平均値を比較します。
  • 相関分析を用いる場合:満足度と生産性の相関係数を計算します。

t検定の場合、満足度を高群と低群に分けることで、連続的なデータを二分します。例えば、満足度5.9点の人と6.1点の人は、実際にはほとんど差がないにもかかわらず、異なる群に分類されてしまいます。

一方、相関分析では満足度と生産性の両方を連続的な変数として扱うため、このような情報の損失を避けることができます。また、相関分析では関係の方向性(正か負か)と強さを同時に把握できるという利点もあります[4]

相関係数を理解し、その限界を認識しつつ活用することで、データに基づいた人事施策を検討できます。本コラムが、皆さんの分析実践に役立つことを願っています。

脚注

[1] Evans, J. D. (1996). Straightforward Statistics for the Behavioral Sciences. Thomson Brooks/Cole Publishing Co.

[2] 統計的に有意の意味するところについては当社のコラムが参考になります。

[3] t検定の詳細は当社コラムをご参照ください。

[4] t検定でも効果量を算出すれば、強さを把握することはできます。効果量の詳細は当社コラムをご覧いただければと思います。


執筆者

伊達 洋駆 株式会社ビジネスリサーチラボ 代表取締役
神戸大学大学院経営学研究科 博士前期課程修了。修士(経営学)。2009年にLLPビジネスリサーチラボ、2011年に株式会社ビジネスリサーチラボを創業。以降、組織・人事領域を中心に、民間企業を対象にした調査・コンサルティング事業を展開。研究知と実践知の両方を活用した「アカデミックリサーチ」をコンセプトに、組織サーベイや人事データ分析のサービスを提供している。著書に『60分でわかる!心理的安全性 超入門』(技術評論社)や『現場でよくある課題への処方箋 人と組織の行動科学』(すばる舎)、『越境学習入門 組織を強くする「冒険人材」の育て方』(共著;日本能率協会マネジメントセンター)などがある。2022年に「日本の人事部 HRアワード2022」書籍部門 最優秀賞を受賞。東京大学大学院情報学環 特任研究員を兼務。

#伊達洋駆 #人事データ分析

アーカイブ

社内研修(統計分析・組織サーベイ等)
の相談も受け付けています