2020年11月12日
Q&A公開|「人事のためのデータ分析入門:『統計的に有意』とは何か」
最新情報セミナー・研修
当日は講師の伊達洋駆から、参加者からの質問に対して順番に回答していきましたが、時間の関係上、多くの質問への回答が残されました。以下、残された質問への回答になります。
※セミナーレポートは近日公開予定です。
(1)t検定は常にするものですか?
t検定は、2グループの平均値の差が統計的に有意かどうかを検討するための方法です。2グループの平均値差を確認したい場合は有効ですが、それ以外の目的がある場合は、別の方法を選ぶ必要があります。なお、今回は「統計的に有意」が意味するところを説明する上で分かりやすいと考え、t検定を例に取り上げました。
(2)統計的に有意かを検証するには、比較する2つのデータがないとできないということであっていますでしょうか?例えば、社内でのサーベイでのある設問に対するA部門とB部門の結果、または、A部門の昨年と今年など。
統計分析の手法としてはt検定以外にも、相関分析や回帰分析など様々なものがあります。それぞれの手法でも統計的に有意かどうかは検定できます。目的とデータの性質を踏まえて、分析手法を選択することが重要になります。なお、A部門とB部門を比較する場合とA部門の昨年・今年を比較する場合はt検定の種類が異なります(違う人同士の平均値を比較する前者の場合と、同じ人の前後の平均値を比較する後者の場合で、t検定の方法が異なります)。
(3)母集団Aと母集団Bの平均値を比較するときに、帰無仮説については、同じ母集団でt値が〇〇となる可能性を考えるということでしたが、その同じ母集団がなぜ母集団A(みそ汁)であって、母集団B(おすまし)ではないのか、が分かりませんでした。
帰無仮説を棄却できなければ、母集団の「中身」が何であれ、対立仮説を採択できません(逆もまたしかり、です)。したがって、中身を問う必要はないということです。ちなみに、今回のセミナーで行った2つの母集団という説明方式は、分かりやすさを重んじたもので、厳密には母平均の差を検討します。
(4)t値の確率p値は、どうやって算出されるのでしょうか?帰無仮説を棄却できなかった場合は、どうすれば良いのでしょうか?そもそもt分布が仮説検定(帰無仮説でも)で有効な根拠というのは何なのでしょうか?
t分布は、帰無仮説のもとでt値が得られる確率を、データサイズなど(厳密には自由度)を考慮してシミュレーションしたものです。現在得られたt値をt分布と照合することで、そのt値が得られる理論的な確率を算出できます。また、帰無仮説が棄却できない場合は、対立仮説を採択できず、統計的に有意だと言うことはできません。そのため、「2つのグループの間に差はない」という立場に立って、「なぜ差が出なかったのか?」「外部要因(想定外の要因)の影響で差が出なかったなどの別解釈はないか?」という方向に考察を進めることになります。
(5)p値を計算する場合に有効なデータ数とはどの程度なのでしょうか。例えば、実施した研修が効果的であったかどうかを比較した場合は、何人のデータが最低必要でしょうか。
有効なデータ数を検討する方法としてパワーアナリシスがあります。想定する効果量や有意水準などによって必要なサンプルサイズを算出する方法ですが、組織サーベイや人事データ分析では使い勝手が良くないかもしれません。実務的にはむしろデータ数が少ないときこそ、誤差による判断の誤りを減らすため、統計分析を実施すると良いでしょう(サンプルサイズにあまり依存しない分析方法もあります)。
(6)サンプルデータ数の下限目安といったものはあるのでしょうか?言語データ(月曜日や快晴など)を説明変数として分析に使うためにはどのような加工が必要なのでしょうか?
高度な分析を行おうとすると、一定のサンプルサイズが求められます。ただし、分析手法によって条件は様々であるため、追って統計分析セミナーにて少しずつ紹介します。また、質的変数(100点満点のデータではなく、曜日や天候などのカテゴリーのデータ)を用いる分析は応用的な内容であるため、いずれ解説できればと思います。
(7)特徴のある平均差が生じる理由として、複数の要因が関係している場合、要因の1つについて統計上有意か否かを確認する方法もあるのでしょうか?要因の1つについて対立仮説を立てて、それが実は採択できるものであったとしても、他の要因が関係していることでt値が低く算出されたりp値が高く算出されたりする気がしました。
たとえ統計分析によって有意な結果が出たとしても、見逃している要因は十分にあり得ます。統計的に有意であったからといって、その結果を完全に鵜呑みにせず、結果を解釈・考察したり、他に影響を与える要因はないかを考えたりする姿勢が必要でしょう。なお、複数の要因を検討する方法としては、例えば重回帰分析があります。
(8)母集団から標本を正しくとれているか、が重要だと思います。どのように標本を抽出すれば、統計的に有意といえますか?
母集団から無作為に標本を抽出できるのが理想ですが、実務的には困難でしょう。そこで例えば、全社的な傾向を知りたい場合、全体の属性と標本の属性に大きな違いがないかなどのチェックが必要です。標本の抽出と統計的に有意かどうかは異なる問題ですので、基本的には標本の種類にかかわらず統計分析をすることをおすすめします。