2025年2月26日
データの“ばらつき”を用いる:標準偏差に注目して
データ分析を人事の意思決定に活かす企業が増えている中、データの特性を把握することがますます重要になっています。その中でも今回注目するのは、データの「ばらつき」です。ばらつきは、データの全体像を理解する上で不可欠な要素であり、平均値だけでは見えてこない情報を提供します。
本コラムでは、データのばらつきの重要性について、その主要な指標の一つである「標準偏差」を例に解説します。標準偏差は、データの散らばり具合を一つの数値で表現する指標です。標準偏差を理解し、うまく活用することで、より深い洞察を得ることができます。
以降、標準偏差を例に、データのばらつきの基本的な考え方から始め、人事データ分析で用いられる統計手法におけるばらつきの役割について見ていきましょう。
標準偏差とは何か
標準偏差は、データのばらつき具合を表します。平均値からデータがどれくらい離れているかを、一つの数値で表現するものです。標準偏差σは次の式で表すことができます。
σ=√[Σ(x-μ)²/N]
この式の中で、xは各データの値、μはデータの平均値、Nはデータの総数、Σは総和を意味しています[1]。
式の意味するところはシンプルで、まず、各データから平均値を引き、その差を二乗します。これは、負の値を扱いやすくし、平均から離れているデータをより強調するためです。次に、これらの二乗した値をすべて足し合わせ、データの総数で割ります。これによって、平均的な「ばらつき」が得られます。最後に、その値の平方根を取っています。
エンゲージメントサーベイを例に考えてみましょう。5段階評価で従業員のエンゲージメントを測定し、ある部署の10人の回答が「3, 4, 3, 5, 2, 4, 3, 3, 4, 4」だったとします。平均値を計算すると、「μ=(3+4+3+5+2+4+3+3+4+4)/10=3.5」となります。次に、各データと平均値の差を二乗し、合計すると、「(3-3.5)²+(4-3.5)²+…+(4-3.5)²=6.5」となります。この値を総数10で割り、平方根を取ると「σ=√(6.5/10)≈0.806」という具合に、この部署のエンゲージメントスコアの標準偏差は約0.806となります。
この値0.806は、データのばらつきの度合いを示しています。具体的には、平均的な回答が平均値3.5から約0.806ポイント離れていることを意味します。しかし、これはあくまで平均的な離れ具合であり、実際のデータがすべて平均から0.806ポイント離れているわけではありません。
標準偏差が大きいほど、データのばらつきが大きいことを意味します。これは、データが平均値から広く散らばっていることを示しています。例えば、エンゲージメントサーベイにおいて標準偏差が大きい場合、従業員の意見や感じ方にばらつきがあるということです。同じ職場環境や条件下でも、従業員によって感じ方や評価が異なることを意味します。対して、標準偏差が小さい場合は、多くのデータが平均値の近くに集中していることを意味し、従業員の意見がより一致していると解釈できます。
標準偏差を用いた統計分析の例
ここではデータのばらつきを含む統計分析のうち、人事領域のデータ分析において利用される可能性が高いもの、その中でも、そこまで高度ではないものを取り上げ、ばらつきを考慮に入れることの意義を見ていきます。
t検定
t検定は、2つのグループの平均値に統計的に意味のある差があるかどうかを判断するために用います。2群のt値は次のように式で表すことができます[2]。
t=(x₁-x₂)/√[(s₁²/n₁)+(s₂²/n₂)]
この式におけるx₁とx₂は各群の平均値、s₁とs₂は各群の標準偏差、n₁とn₂は各群のサンプルサイズを表します。
式の中で、標準偏差は分母に含まれており、2つのグループの差が統計的に有意かを判断する上で重要な情報を提供します。標準偏差は、各グループ内でのデータのばらつきを表現しています。このばらつきが、観察された平均値の差を評価する際の基準となるわけです。
具体的には、標準偏差が小さいほど、同じ平均値の差でもより統計的に有意になりやすくなります。各グループ内でのデータのばらつきが小さいということは、そのグループ内で一貫性が高い特徴があり、グループにおける平均値がそのグループの特徴をよく表していると解釈できます。
一方、各グループ内でのデータのばらつきが大きい(標準偏差が大きい)と、そのグループの平均値がそのグループの特徴を表していないことを意味します。データのばらつきが大きいということは、そのグループ内での一貫性が低く、グループの平均値に対して個々の回答者のデータは多様にばらついている状態になっています。グループの平均値に近い回答者が多くなく、平均値がグループに含まれる人々の特徴をうまく表していないわけです。
標準偏差がなければ、2つのグループの平均値の差が、統計的に意味があるかどうかを適切に評価することができません。平均値の差だけでなく、その差がどの程度のばらつきの中で観察されたものなのかを考慮する必要があります。標準偏差は、このばらつきを定量化し、差の重要性を評価するための基準を提供するのです。
回帰分析
回帰分析は、複数の変数間の関係性をモデル化する手法です。特に、ある指標(影響指標)の変化が別の指標(成果指標)にどのように関連しているかを分析します。重回帰分析は次のように式で表現できます。
y=β₀+β₁x₁+β₂x₂+…+βₖxₖ+ε
この式においてyは成果指標であり、予測や説明の対象となる指標です。x₁, x₂, …, xₖは影響指標であり、予測や説明に用いる指標です。β₀は切片で、すべての影響指標が0の時のyの値を表します。β₁, β₂, …, βₖとあるのは偏回帰係数で、各独立変数とyとの関連の強さを示します。εは誤差項で、モデルでは説明できない変動や誤差を表します。
標準偏差は、回帰分析において複数の機能を果たします。まず、回帰分析では、誤差項εが正規分布に従うと仮定します[3]。この正規分布の広がりを表すのが標準偏差です。標準偏差は、データが回帰直線(平面)からどの程度離れているかを示します。
誤差項εの標準偏差が、回帰モデルの予測値と実際の観測値との間の平均的な隔たりを表現しています。この標準偏差が小さいほど、データが回帰直線(平面)の近くに集まっており、モデルの当てはまりが良いことを意味します。逆に、標準偏差が大きいほど、予測値と実際の値の間のばらつきが大きく、モデルの精度が低いということです。
また、偏回帰係数βの推定値には不確実性があります。この不確実性を定量化するのが信頼区間です。信頼区間は、真の偏回帰係数βが一定の確率(例えば95%)で含まれると考えられる範囲を示します。
この信頼区間の計算には、先に述べた誤差の標準偏差と回帰係数を算出した影響指標の標準偏差が使用されます。具体的には、回帰係数の推定値の標準誤差(これは実質的には、標準偏差と関連しています)を用いて信頼区間が計算されます。標準偏差が大きいほど、信頼区間は広くなります。これは、データのばらつきが大きいほど、偏回帰係数の推定値の不確実性も大きくなることを意味します。
分散分析
分散分析は、3つ以上のグループ間で平均値に統計的に有意な差(ばらつき)があるかを検定する手法です[4]。分散分析における検定統計量、F値は次のように計算します。
F=(グループ間分散)/(グループ内分散)
分散分析では、データの全体的なばらつきを「グループ間のばらつき」と「グループ内のばらつき」に分解します。グループ間分散は、各グループの平均値が全体の平均値からどの程度離れているかを表します。一方、グループ内分散は、各グループ内でのデータのばらつきのことです。
ここにおいて、各分散は平均平方和(平均二乗)で表されます。平均平方和とは、偏差平方和(データと平均の差の二乗の合計)をその自由度で割ったものです。具体的には、各データ点から平均値を引いた差を二乗し、それらをすべて足し合わせ、最後に自由度で割ります。自由度は、データの総数から1を引いた値です。これにより、サンプルサイズの違いを調整することができます。
標準偏差の二乗は分散に等しいため、分散分析は本コラムで注目している、データのばらつきを用いた分析です。標準偏差は、分散の平方根として定義されるため、分散と標準偏差は同じ情報を異なる形で表現していると考えることができます。
分散分析において、標準偏差(あるいはその二乗である分散)は、いくつかの形で関わっています。
まず、各グループ内でのデータのばらつきを表すグループ内分散は、各グループの標準偏差の二乗を基に計算されます。これは、各グループ内でのデータの散らばり具合を指します。次に、グループ間分散の計算も、標準偏差の考え方を応用して行われます。これは、各グループの平均値が全体の平均値からどの程度離れているかということです。
分散分析において標準偏差(あるいはその二乗である分散)が重要なのは、それがグループ間の差を評価する基準を提供するからです。各グループ内でのデータのばらつきを定量化することで、グループ間の差が意味のあるものかどうかを判断する基準が得られます。各グループ内でのデータのばらつきが小さいほど、グループ間の差がより明確に現れます。各グループの特性がより明確に表れていると解釈できるのです。
さらに、グループ間の差を、各グループ内のばらつきと比較することで、その差の重要性を評価できます。グループ間の差が大きく、かつ各グループ内のばらつきが小さい場合、その差は統計的に有意である可能性が高くなります。
相関分析
相関分析は、2つの指標間の関係性の強さと方向性を検証する手法です。相関係数(r)は-1から1の間の値を取り、絶対値が1に近いほど強い相関を、0に近いほど弱い相関を示します。正の値は正の相関(一方が大きいと他方も大きい)を、負の値は負の相関(一方が大きいと他方は小さい)を表します。相関係数の式は次の通りです[5]。
r=Σ[(x-x)(y-y) /N]/√[Σ(x-x)²/N]*√[Σ(y-y)²/N]
この式において、xとyは2つの指標の値、x および y はそれぞれの指標の平均値のことです。この式の分子は共分散と呼ばれる2指標の関連性の大きさを表す指標であり、分母の√[Σ(x-x)²/N]*√[Σ(y-y)²/N]は2指標の標準偏差の積になります。そのため、相関係数は、共分散(分子)を各変数の標準偏差の積(分母)で割ったものと解釈することが可能です。
標準偏差は、相関分析において有用な役目を持っています。まず、相関係数の計算では、各変数の値から平均を引いた偏差を用います。これらの偏差(の積)を標準偏差(の積)で割ることによって、指標の単位や散らばりの大きさにかかわらず、標準化された尺度で相関を表現できます。各指標の値を、その変数の平均値からの偏差を標準偏差で割った「標準化スコア」に変換するということです。
相関係数の値は、2つの指標の標準偏差単位での関係性を示します。相関係数は、一方の指標が1標準偏差変化したときに、他方の指標が何標準偏差変化するかを表しています。これによって、変数の元の単位に関係なく、関係性の強さを統一的に解釈することができます。
このように、標準偏差は相関分析において、関係性の強さを解釈し、データの特性を理解する上で重要です。
標準偏差の役割
これまで見てきたように、標準偏差は様々な分析手法において有益な機能を発揮しています。標準偏差が担っている機能をいくつか挙げてみましょう。
- 標準偏差は、データの散らばり具合を一つの数値で表現します。これによって、データの中心傾向(例えば、平均値)だけでなく、その周りのばらつきも把握することができます。
- 標準偏差は、異なるデータセット間の比較を可能にします。例えば、t検定や分散分析において、グループ間の差を評価する際の基準となります。
- 標準偏差は、観察された差が統計的に有意かどうかを判断する際の重要な要素です。データのばらつきが小さいほど、小さな差でも統計的に有意となる可能性が高くなります。
- 標準偏差を用いてデータを標準化することで、異なる尺度で測定された変数を同じ土俵で比較することができます。これは、相関分析などにおいて重要です。
- 標準偏差は、データや推定値の不確実性を定量化します。結果の解釈や意思決定の際に、その不確実性を考慮することができます。
これらの機能によって、標準偏差はデータ分析の基盤として、データの特性を理解し、解釈を行う上で大事な役目を全うしています。人事領域のデータ分析においても、データのばらつきを活用することで、データの背後にある組織の実態をより深く理解することができるのです。
[1] 標準偏差は、データのばらつきを表す指標です。ただし、母集団の標準偏差σと標本の標準偏差sは区別して扱う必要があります。標本の標準偏差sはデータから直接計算されますが、母集団の標準偏差σは理論上の値であり標本のデータから推定計算される値となります。より厳密な分析手続きでは、取得したデータの特徴を表す集計の際は標本の標準偏差を使用し、推測統計など母集団の特徴に関して分析する際は母集団の標準偏差σの推定値を用いますが、サンプルサイズが大きい場合はこれらの標準偏差にほとんど違いが無いため、一貫して母集団の標準偏差σの推定値を用いる場合も多いです。なお、母集団の標準偏差の推定値は、標準偏差の数式の分母がN-1となります。この補正により、小さなサンプルサイズでも母集団の標準偏差をより正確に推定できます。
[2] t検定には、等分散を仮定するスチューデントのt検定と、分散が等しくないと仮定するウェルチのt検定があります。等分散のt検定では、プールされた標準偏差を使用し、自由度はn₁+n₂-2です。一方、ここで計算式を示しているのはウェルチのt検定です。等分散とは、比較する2つ以上の群において、データのばらつき(分散)が統計的に同じであると仮定できる状態を指します。
[3] この仮定は特に線形回帰分析に関するものです。線形回帰では、この仮定によって、推定された係数の信頼区間や仮説検定が可能になります。ただし、すべての回帰分析がこの仮定を必要とするわけではありません。また、「誤差項が正規分布に従う」とするのは推定や検定の厳密性のための仮定です。
[4] 分散分析は、本質的にはt検定の拡張と考えることができます。t検定が2つのグループの平均値の差を検定するのに対し、分散分析は3つ以上のグループの平均値の差を同時に検定します。実際、2つのグループを比較する場合、一元配置分散分析の結果はt検定の結果と同等になります。
[5] 本コラムにおける相関分析の説明は、ピアソンの積率相関係数に焦点を当てています。これは連続変数間の線形関係を測る一般的な指標ですが、順序変数や非線形関係には適していません。
執筆者
伊達 洋駆 株式会社ビジネスリサーチラボ 代表取締役
神戸大学大学院経営学研究科 博士前期課程修了。修士(経営学)。2009年にLLPビジネスリサーチラボ、2011年に株式会社ビジネスリサーチラボを創業。以降、組織・人事領域を中心に、民間企業を対象にした調査・コンサルティング事業を展開。研究知と実践知の両方を活用した「アカデミックリサーチ」をコンセプトに、組織サーベイや人事データ分析のサービスを提供している。著書に『60分でわかる!心理的安全性 超入門』(技術評論社)や『現場でよくある課題への処方箋 人と組織の行動科学』(すばる舎)、『越境学習入門 組織を強くする「冒険人材」の育て方』(共著;日本能率協会マネジメントセンター)などがある。2022年に「日本の人事部 HRアワード2022」書籍部門 最優秀賞を受賞。東京大学大学院情報学環 特任研究員を兼務。