ビジネスリサーチラボ

open
読み込み中

コラム

標準化:異なる指標を比較する

コラム

組織サーベイの結果を分析する際、複数の概念スコアを比較したり、給与満足度や勤続年数との関係性を分析したりする場面が出てくるでしょう。しかし、異なる尺度で測定されたデータを直接比較することは難しく、誤った解釈につながる可能性があります。

例えば、「仕事にやりがいを感じている」という質問に1-55段階で回答を求め、一方で「現在の給与に満足している」という質問に1-77段階で回答を求めることがあるかもしれません。

このような場合、単純に数値を比較しても意味のある結論は導き出せません。また、勤続年数は年単位、給与は万円単位と、測定される単位自体が全く異なることもあります。

私たちが普段、学校のテストの点数を「偏差値」で見たり、身長や体重の成長を「標準的な発育曲線」と比較したりするように、人事データの分析においても、様々な指標を公平に比べられる共通の物差しが必要です。

このような課題を解決するために用いられるのが「標準化」という手法です。本コラムでは、人事データ分析における標準化について、その意味から活用方法まで解説します。

標準化とは何か

標準化とは、様々な尺度や単位で測定されたデータを、互いに比較可能な形に変換する処理です。

例えば、ある会社のエンゲージメントサーベイで、「仕事の満足度」を5段階評価、「給与満足度」を7段階評価で測定したとします。これらは単純に数値を比べることができません。5段階評価の「4」と7段階評価の「4」では、その持つ意味が異なるからです。

また、「勤続年数」は年単位、「月間残業時間」は時間単位というように、異なる単位で測定されているデータもあります。これらを比較するためには、すべてのデータを共通の基準で出し直す必要があります。それが標準化という処理です。

標準化の具体的な手順においては、まず、データの平均値を計算します。平均値は、すべてのデータを足し合わせて、データの個数で割った値です。

次に、各データからこの平均値を引きます。これを「中心化」と呼びます。例えば、チームのエンゲージメントスコアが4.2, 3.8, 3.6, 4.0, 3.4という5つのデータの場合、平均値は3.8です。これを各データから引くと、+0.4, 0, -0.2, +0.2, -0.4となります。

中心化を行うと、プラスの値は平均より高いことを、マイナスの値は平均より低いことを表すようになり、中心化した新しいデータの平均は必ず0になります。

さらに、この差を標準偏差で割ります。標準偏差はデータのばらつきを表す指標で、各データと平均との差を二乗して、サンプルサイズで割り算することでその平均を取り、その平方根として算出します[1]。先ほどの例では標準偏差が0.32となり、中心化されたデータ(+0.4, 0, -0.2, +0.2, -0.4)をこの0.32で割ると、標準化スコアは+1.26, 0.00, -0.63, +0.63, -1.26となります。

このように標準偏差で割ることで、どのようなデータでもばらつき具合が1に揃います。これによって、異なるグループや異なる指標のデータを比較可能な形に変換できます。

標準化されたデータは「標準得点」や「Zスコア」と呼ばれます。標準化は、データの単位や尺度を揃えるための変換であり、元のデータの分布の形状自体は変化しません。

ここで、多くの自然現象や社会現象のデータは「正規分布」と呼ばれる釣鐘型の分布に従うと仮定されることが多く、その場合、次のような性質があります。

正規分布においては、データの約68%が平均から上下1標準偏差(標準化された値では-1から+1)の範囲に入ります。同様に、約95%が平均から上下2標準偏差(-2から+2)の範囲に、約99.7%が平均から上下3標準偏差(-3から+3)の範囲に入ります。

この仮定を利用すると、先ほどのAさんの標準得点+0.8は、チーム全体の中でどの程度の位置にいるのかを推測できます。+0.8は平均よりも上に0.8標準偏差分位置することを意味し、これは上位約21%に入ると解釈できます。

標準化の利点は、異なる尺度で測定された項目を比較できるようになることです。例えば、5段階評価の「仕事の満足度」で+1.2という標準得点と、7段階評価の「給与満足度」で+0.9という標準得点があった場合、これらを直接比較できます。両者とも「データのばらつきを加味した、平均からの隔たり」という同じ物差しで測られているためです。仕事の満足度の方が給与満足度よりも相対的に高いと言えます。

標準化には「単位の違い」や「データの大きさの違い」を消し去る効果もあります。例えば、「勤続年数(年)」と「月間残業時間(時間)」のように単位が異なるデータや、「給与(万円)」のように数値そのものが大きいデータも、標準化することで「平均からの隔たり」という共通の尺度で表現できます。

相関分析における標準化

相関分析は、二つの変数の間にどの程度の関連性があるのかを調べる手法です。組織サーベイのデータを分析する際、例えば「上司との関係性」と「仕事の満足度」の関係を知りたい場合に用います。

相関係数は-1から+1の間の値をとり、+1に近いほど正の相関(一方が高いと他方も高い関係)、-1に近いほど負の相関(一方が高いと他方が低い関係)が強いことを示します。相関係数が0に近い場合、二つの変数には明確な関係がないと解釈します。

相関係数は、二つの変数の共分散を、それぞれの標準偏差の積で割ることで計算します[2]。共分散とは、二つの変数が同時にどの程度変動するかを表す指標です。具体的には、一つ目の変数の平均からの差と二つ目の変数の平均からの差の積をサンプルサイズで割り、平均を求めます。

例えば、エンゲージメントスコアと給与満足度の共分散を計算する場合、エンゲージメントスコアが平均より高い人で給与満足度も平均より高ければプラスの値が、一方が高く他方が低ければマイナスの値が共分散に寄与します。

しかし、共分散はそれぞれの変数の単位に依存します。例えば、給与満足度(1-7点)と月収(万円)の共分散は、給与満足度(1-7点)と年収(万円)の共分散と比べて12分の1程度の値になってしまいます。また、エンゲージメントスコアを5段階で測るか7段階で測るかによっても、共分散の値は変わります。

そこで、共分散をそれぞれの変数の標準偏差の積で割ることで、単位や尺度の影響を取り除きます。これが相関係数の計算です。この操作は、実質的に両方の変数を標準化してから共分散を取ることと同じ結果になります。

なぜなら、標準化された変数同士の共分散は、元の変数の相関係数と一致するためです。このように標準化によって、変数の単位や尺度の違いによる影響を除去し、純粋な関連の強さを-1から+1という統一された尺度で表現できます。

重回帰分析における標準化

重回帰分析は、複数の要因(影響指標)が一つの結果(成果指標)にどのように影響しているかを分析する手法です。例えば、「従業員満足度」を「給与満足度」「職場環境」「成長機会」など複数の要因から予測しようとする場合に用います。

重回帰分析で得られる偏回帰係数は、各影響指標が成果指標に与える影響の大きさを示します。しかし、影響指標の単位や尺度が異なる場合、得られた回帰係数を直接比較することはできません。例えば、給与満足度(7段階評価)の回帰係数が0.3、勤続年数(年)の回帰係数が2.1だったとしても、これらの数値を直接比較することは適切ではありません。

重回帰分析における標準化の意味を見ていきましょう。例えば、エンゲージメントスコア(1-5点)を成果指標とし、給与満足度(1-7点)と勤続年数(年)を影響指標とする重回帰分析を行ったとします。

給与満足度の回帰係数が0.3、勤続年数の回帰係数が2.1という結果が得られた場合、この数値を直接比較することはできません。給与満足度の回帰係数0.3は「給与満足度が1点上がるとエンゲージメントスコアが0.3点上がる」ことを、勤続年数の回帰係数2.1は「勤続年数が1年増えるとエンゲージメントスコアが2.1点上がる」ことを意味し、影響を与える変数の単位が異なるためです。

この問題を解決するために、すべての変数を事前に標準化してから重回帰分析を行います。エンゲージメントスコア、給与満足度、勤続年数のそれぞれについて、平均からの差を標準偏差で割るという標準化の操作を行います。これによって、すべての変数が「平均が0、標準偏差が1」という共通の尺度に変換されます。

標準化されたデータで重回帰分析を行うと、得られる係数(標準化偏回帰係数)は、すべて「影響指標が標準偏差1単位分変化したときの、成果指標の標準偏差単位での変化量」という共通の意味を持つようになります。単位や尺度の違いによる影響を受けず、各要因がどの程度の関連性を持っているのかを比較できるようになります。

標準化偏回帰係数を用いることで、異なる尺度で測定された様々な要因の中から、目的の変数に対して特に強い関連性を持つものを特定できます。例えば、エンゲージメントスコアに対して、給与満足度(7段階評価)の標準化偏回帰係数が0.3、上司との関係性(5段階評価)の標準化偏回帰係数が0.5、勤続年数(年)の標準化偏回帰係数が0.2だった場合、単位や尺度に関係なく、上司との関係性が最も強い関連性を持っていることが分かります。

これは、上司との関係性が標準偏差1単位分改善されると、他の要因が一定の場合にエンゲージメントスコアが標準偏差0.5単位分改善されることを意味します[3]

ただし、これはあくまでも統計的な予測であり、実際の施策の実現可能性や、かかるコストなども考慮して最終的な判断を行う必要があります。

まとめ:標準化とその意義

本コラムでは、人事データ分析における標準化について解説してきました。標準化とは、異なる尺度や単位で測定されたデータを比較可能な形に変換する手法です。具体的には、データから平均値を引いて標準偏差で割るという操作により、すべてのデータを「平均からの隔たり」という共通の物差しで出し直します。

標準化の意義は、例えば、相関分析や重回帰分析などの統計分析において認められます。相関分析では、共分散を標準化することで、単位や尺度の異なる変数間の関連の強さを-1から+1という統一された基準で評価できます。また重回帰分析では、影響指標を標準化することで、様々な要因の相対的な関連性を直接比較できるようになります。

人事データ分析では、エンゲージメントスコア、給与満足度、勤続年数など、測定尺度や単位の異なるデータを扱うことが多いため、標準化は重要な役割を果たします。標準化によって、「どの要因がどの程度重要か」を評価でき、それに基づいて効果的な施策の優先順位付けが可能になります。

脚注

[1] 標準偏差の詳細は当社コラムをご覧ください。

[2] 相関係数の詳細は当社コラムを参照してください。

[3] 標準化には、データの解釈可能性が失われるというデメリットもあります。例えば、給与満足度が「5点」という値は「やや満足」といった具体的な意味を持ちますが、標準化後の「+0.8」という値からは、そのような直感的な解釈が難しくなります。

また、異なる時点や集団間で比較する際は、それぞれの母集団における平均や標準偏差が異なる可能性があることに注意が必要です。例えば、ある部署での標準化スコア「+1.0」と別の部署での「+1.0」は、必ずしも同じ満足度水準を示しているとは限りません。標準化スコアを解釈する際は、常にその基準となる集団の特性を考慮することが重要です。


執筆者

伊達 洋駆 株式会社ビジネスリサーチラボ 代表取締役
神戸大学大学院経営学研究科 博士前期課程修了。修士(経営学)。2009年にLLPビジネスリサーチラボ、2011年に株式会社ビジネスリサーチラボを創業。以降、組織・人事領域を中心に、民間企業を対象にした調査・コンサルティング事業を展開。研究知と実践知の両方を活用した「アカデミックリサーチ」をコンセプトに、組織サーベイや人事データ分析のサービスを提供している。著書に『60分でわかる!心理的安全性 超入門』(技術評論社)や『現場でよくある課題への処方箋 人と組織の行動科学』(すばる舎)、『越境学習入門 組織を強くする「冒険人材」の育て方』(共著;日本能率協会マネジメントセンター)などがある。2022年に「日本の人事部 HRアワード2022」書籍部門 最優秀賞を受賞。東京大学大学院情報学環 特任研究員を兼務。

#伊達洋駆 #人事データ分析

アーカイブ

社内研修(統計分析・組織サーベイ等)
の相談も受け付けています