2022年5月19日
心理尺度の作り方・考え方:組織サーベイの質問項目作成のポイント
組織サーベイを実施するときに悩むことのひとつとして、「測定したい物事や概念を、どうやって測定すればよいか」があります。
例えば、「仕事に対するやる気を高めたい」と考え、やる気につながる要因を検証する組織サーベイを設計するとします。サーベイで測定すべき様々な指標として、従業員のやる気はもちろんのこと、それに関連するものとして、職場の人間関係の良さ、不満の大きさなど、様々な側面をピックアップするでしょう。
調査で測定する指標・概念が決まったら、サーベイの具体的な内容を掘り下げます。その際に、「これらの指標は、どうやって測定すれば適切な検証につながるのだろう」と疑問を感じるのではないでしょうか。
人の感覚や意欲、物事の認識の仕方などについて、それらがどの程度あるか数値を割り当てる道具を「心理尺度」と呼びます。組織サーベイで用いる種々の質問項目も心理尺度に含まれるものです。
「測定したい様々な心理的指標をどう測定すればよいか」という問題は、「それらの指標を測定する心理尺度を、どのように作ればよいか」と言い換えられます。この問題は、心理学においてよく扱われる話題です。
本コラムでは、読者の皆さまがサーベイで用いる質問内容を考える際のポイントや注意点を、心理尺度の作り方を土台に解説します。
最初に、心理尺度で従業員の特徴や状態を測定するにあたって、どのようなことを考えて質問内容を作るのが良いか、その枠組みを整理していきます。その後、それらの枠組みを踏まえた良い質問内容の作り方をまとめます。
なお、ここで解説する心理尺度は、組織サーベイでよく用いられる”1=あてはまらない~5=あてはまる”といった回答方法の尺度(リッカート法)に限定します。
測定に用いるものが備えるべきもの:妥当性・信頼性・公平性
人の心理や能力の測定・評価において、測定に用いられるアイテム(質問の内容や道具など)が備えるべき特徴としてもっとも頻繁に挙げられる特徴は、「妥当性」と「信頼性」です。
近年では妥当性・信頼性に加えて、「公平性」も備えるべきであるとされています(AERA, APA, & NCME, 2014)。それぞれの意味を簡単にまとめたものが表1です。
表 1 測定に用いるアイテムが備えるべき3つの特徴
測定したい物事を正確に捉えられているか:測定の妥当性
妥当性とは、アンケートの質問内容が、測定したい物事や概念を正確に捉えられている程度です。
例えば、「仕事に対する前向きな意欲を表す”従業員のやる気”を測定する」ためにいくつか質問内容を作成したとします。この目的で作成した内容のうち、「いつも早めに出勤している」といったものあったらどうでしょうか。
確かにやる気のある意欲的な従業員ならば、早い時間に出勤する人が多いかもしれません。しかし、出勤時間は会社から家までの距離に左右されますし、あるいは家庭の事情によって早くに来られないなどの理由で回答が左右されたりもします。
つまり、「やる気を測定する」という目的に対して、「早めに出勤している」ことへの回答は、他の様々な要因で左右される部分も大きく、やる気の高さを正確に反映しているとはいえません。妥当性が検証しているのは、測定におけるこのような問題です。
測定の正確性を表す妥当性には、様々な種類のものがあります(表2)。
表 2 妥当性の種類(DeVon et al., 2007; Souza et al., 2017の一部を意訳して統合)
「表面的妥当性」は、測定したい物事や概念に対して、質問内容が合っているように見える程度を表す妥当性です。質問内容について、それが測定したい物事や概念に合った内容なのか、その見た目から判断される側面になります。
先に挙げた、「やる気の測定を目的に、出勤時間の早さを質問する」ことは、表面的妥当性が低い例です。測定しようとしている概念に対して、質問内容がそれを適切に捉えられていないと判断されるからです[1]。
表面的妥当性が高い例を挙げましょう。仕事に対する前向きな意欲としてのやる気を測定するならば、「仕事をするときは、いつもやる気に満ち溢れている」「いつも没頭して仕事に取り組んでいる」といった内容が考えられるでしょう。
次に、「内容的妥当性」は、測定したい物事や概念の特徴について、作成した質問内容がそれを幅広く網羅的に捉えている程度を表す妥当性です。この妥当性は、測定したい物事や概念をどう定義するかにより変わります。
例えば、「仕事に対する満足感」を測定しようとして、以下の3つの質問項目を作成したとしましょう。
- 普段の仕事に満足している
- 仕事にやりがいを見出している
- いつも仕事が楽しいと感じる
仕事に対する満足感を「自身の仕事に対して普段から感じている、主観的な満足感」と定義し、満足感にやりがいや楽しさといった側面を含めるならば、これらの3項目は仕事に対する満足感を網羅的に測定しているといえます。
他方、仕事に対する満足感の測定では、「仕事だけでなく、給与や昇進機会、上司などとの対人関係、組織そのものに対する全体的な満足感」と定義する考え方もあります[2]。この定義からすれば、上記の3項目はそれらの一部しか捉えられておらず、網羅的ではありません。
このように内容的妥当性は、測定したい物事や概念をどう定義するかに依存しており、定義内容に対して質問内容が幅広く網羅的に捉えられているかを表すものです。
図 1 表面的妥当性と内容的妥当性
表面的妥当性と内容的妥当性は、作成した質問の具体的内容に関する妥当性であり、データ取得前に検証されるものです。
それに対して、以降の3つの妥当性は、データを取得した後に、主にデータ分析によって検証されるものです。作成した質問内容が良いものであったか否か、実証的なエビデンスが得られるのは、これ以降になります。
「因子妥当性」は、実際に取得したデータにおいて、測定に用いた質問項目が、何らかの単一の物事や概念を測定できていると統計学的に見なせる程度を表す妥当性です。内容が似通った質問項目でも、それを用いて測定されたデータが一つの概念をうまく捉えられているかは未知であり、それを妥当性の一側面として統計学的に検証します[3]。
また、「基準連関妥当性」と「収束的妥当性」は、どちらも「測定したい物事や概念と他の指標の間に、想定されるような関連があるか」についての妥当性です。
基準連関妥当性は、測定したい概念との関連が予想される外的な客観的指標(現在の仕事評価やその後の業務実績など)との間に、十分な関連があるかを統計学的に検証・判断します。ここで取り上げられる外的指標は測定目的に対応した指標になります。
収束的妥当性においては、測定したい物事や概念と同じようなものを測定する既存の尺度との関連が十分に存在するかを統計学的に検証・判断します[4]。例えば、やる気について新たな質問内容を作成するならば、やる気を測定する既存の心理尺度や、同じ質問内容を本人でなく上司などが評価したデータを同時に測定し、関連を検証します。
図 2 因子妥当性、基準連関妥当性、収束的妥当性
これら3つの妥当性は、より厳密な質問内容の構成に必須な妥当性の側面です。というのも、質問内容を合算したある物事・概念を表す得点が、データ解析に用いる指標として有効なのかを詳細に検証するものだからです。
基準連関妥当性と収束的妥当性は、検証のために他の指標データも追加で測定しておく必要があります。また、これらの妥当性検証は、数個の指標と関連を実証して終わるものでなく、様々な指標との関連を繰り返し検証して着実に示していくものです。そのため、これら2つの妥当性検証は、多くの手間と労力が必要になります。
しかし、作成した質問項目において、これら以外の妥当性が十分に高いものであったとしても、他の指標たちと関連がほとんどないならば意味がありません。作成した質問項目を今後の意思決定にかかわる重要な指標として活用するつもりであれば、手間がかかるとしても、これらの妥当性もしっかりと検証しましょう。
以上のように、妥当性には様々な側面があります。妥当性は作成した質問項目の良し悪しを評価する上で要となる特徴です。
測定したデータに一貫性があるのか:測定の信頼性
信頼性とは、測定に用いる心理尺度が、測定したい物事や概念を一貫して測定できている程度です。
例えば、就職活動の面接において、ある受験者の外向性の高さを3名の面接官が評価するとします。同じ受験者に対して、3名の面接官の評価が全員同じ程度の高さであれば、評価に一貫性があり信頼性が高いということになります。他方、3名の面接官の評価がバラバラならば、評価に一貫性がなく信頼性が低いことになります。
評価相手の受験者は同一人物であり、評価すべき側面も外向性と定まっているので、回答がばらつく原因は面接官側の評価基準の甘さにあるということです。
これと同じ問題を心理尺度でも考えることができます。つまり、3項目で外向性を測定したとき、回答者の回答値が3項目で一貫していれば信頼性は高く、3項目で回答値がばらついていれば信頼性が低いということになります。信頼性で取り上げる一貫性とは、このような測定の安定性や精度の側面です。
組織サーベイにおいて重要となる、作成した質問項目の信頼性については、主に2つの側面が挙げられます。それは、内部一貫性と継時安定性です。なお、信頼性は測定したデータが持つ特徴であるため、すべてデータ取得後に検証されるものとなります。データ取得前に、信頼性の判断はできません。
表 3 信頼性の2側面:信頼性の種類(Heale & Twycross(2015)の一部を意訳)
「内部一貫性」は、測定に用いた心理尺度全体が、ある物事や概念を一貫して測定できている程度を表しています。先の例で述べた「複数の質問項目における回答値が一貫している程度」がその例です。統計学的には、α係数を算出することによって評価されます[5]。
「継時安定性」とは、ある心理尺度を用いて、離れた時期で2回データを測定した際に、測定した2つのデータが一貫している程度を表します。
例えば、心理尺度を用いて、従業員の組織への愛着を測定したとします。それから1カ月たって、同じ従業員に再度組織への愛着を測定したとしましょう。
組織への愛着は、何か大きな問題でもない限りすぐに変化するとは考えづらく、1カ月経過しても従業員の回答値はほとんど変わらないことが予測されます。そのため、組織への愛着の測定に用いた心理尺度に継時安定性があるなら、従業員の回答値はほぼ変わらないことになります。
逆に、組織への愛着の測定に用いた心理尺度に継時安定性がないなら、心理尺度の甘さのせいで、「変化するとは考えづらい組織への愛着が、1カ月で変わっている」というデータが得られてしまいます。
継時安定性は、このような変化が想定されない物事や概念に対して、心理尺度がその状態をうまく測定できていることを表しています[6]。統計学的には、同じ心理尺度で2回測定したデータの相関係数を算出し、その強さで継時安定性を判断します。
図 3 内部一貫性と継時安定性
信頼性は、測定したデータが一貫している程度を検証するものです。信頼性がない心理尺度の危うさは、ここで挙げた例をみると一目瞭然でしょう。作成した質問項目において高い信頼性を確保することも、課題の一つになります。
回答者の誰もが同じように回答できるのか:測定の公平性
公平性とは、測定したい物事や概念とは関係しない特徴によって不当な不利を被ることなく、すべての回答者が適切に回答を評価されている程度を意味します(AERA, APA, & NCME, 2014)[7]。
図 4 公平性の低い質問内容の例
例えば、特殊な業界用語・社内用語が豊富な企業において、仕事へのやる気を測定するために、そういった用語を数多く含んだ質問を作成したとします。その質問への回答を、最近入社した中途採用の人が回答すると、どうなるでしょうか。
まだ新たな企業に慣れておらず、質問内容に飛び交う特殊な語句を知らないため、回答のしようがありません。「仕事へのやる気」を測定する質問なのに、「その企業での業務経験の有無」によって、回答が左右されてしまうのです。
あるいは、愛社精神を測定しようと作成した「愛社精神発揮行動」の質問項目の中に、一定の役職以上にいないと不可能な行動を含んでいたとします。すると、それらの役職についていない回答者は、その質問項目に回答することはできません。回答者の愛社精神が高くても、それが回答値に反映されなくなるのです。
このように、測定したい物事や概念とは関係のない特徴によって回答値が変化するような質問内容は、公平性が低いということになります。
公平性が低い質問項目は、一部の回答者が不当に回答値を低くせざるを得なくなります。そうなると、データ解析結果に対する解釈の誤りや、サーベイの運用によっては回答者の不利益につながるのです。
正確にデータを測定するために、そしてそれ以上に、サーベイに協力してくれた従業員に不利益を与えないために、公平性にも配慮した質問の作成が求められます。
良い質問項目を作り上げるポイント
以上が、心理尺度が備えるべき特徴になります。ここからは、それらを踏まえて、実際に質問項目を作成するときに意識するポイントをまとめていきます。
ここで挙げたポイントを押さえた質問内容を作り上げれば、妥当性や信頼性、公平性を確保できるでしょう。
(1) サーベイ実施や測定したい物事や概念について、それらの背景・理由を明確化する
良い質問項目の作成に向けて最初に必要なことは、「測定したい物事や概念を測定しようとした背景を明確化する」ことです。
図 5 質問内容作成の前に存在する、ある物事や概念を測定しようとした背景整理
ある物事や概念は、多様な側面を内包していることがほとんどです。例えば、先ほど例に挙げた仕事に対する満足度は、給与や昇進機会、職場の人間関係など、仕事そのものとは異なる多様な側面がありました。
仕事に対する満足感に限らず、多くの物事や概念は、測定可能な側面が非常に多種多様です。それに対して、物事や概念を「測定する目的」が明確でないと、それらのどの側面を捉えていくべきか判断ができないのです。
ある物事や概念を測定したい背景やサーベイそのものの目的が明確ならば、どういった物事や概念を、どのような側面から測定すればよいのか見えてきます。さらに、背景や目的が明確だからこそ、続く定義の設定でも、捉えるべき側面の基準が判断しやすくなります。
質問項目を作り始める前に、「組織サーベイの実施にあたって、サーベイによって何が知りたいのか、ある物事や項目を測定することで何がしたいのか」など、背景や目的をしっかりと掘り下げて、測定したい物事や概念に着目した理由を明確化しましょう。
(2) 測定したい物事や概念を、それを測定する目的を踏まえて定義する
ある物事や概念を測定しようとする背景や理由が整理出来たら、そこから測定したい物事や概念を具体的に決めて、それらについて定義を設定していきます。この「定義」をしっかりと設定することが、良い心理尺度を作る上でもっとも大切なポイントです。
図 6 定義の良し悪しが質問内容作成や、その後の検証にもたらす効果
捉えたい概念に対して、それを測定する背景も踏まえて定義をうまく設定したら、その後の質問内容の適切性や網羅性の判断基準が明確になります。それに応じて、文言の調整や洗練も行いやすくなります。
加えて、その後の分析においても、測定の正確性や精度が高まることが期待できます。さらに、想定していた関連が示されないなどの結果が出たとしても、その理由をより正確に検証して考察することも可能です。
逆に、測定する物事や概念の定義があいまいだと、質問内容の適切性や網羅性を判断する基準があいまいになります。その結果、複数の質問内容で測定されたものが一体何なのか、よくわからなくなります。
また、その後のデータ分析で想定外の結果が出やすくなることが予想されます[8]。そのような結果が出た理由も「想定された指標間の関連が本当に見られないのか、測定の甘さゆえに想定された結果が出なかっただけなのか」がわかりません。適切な考察ができなくなってしまい、組織サーベイを行った意味が失われるのです。
測定したい物事や概念の「定義」は、心理尺度の根幹を成す重要なものです。それを強く意識して、質問内容を考える前にしっかりと定義を洗練して作りこんでおきましょう。
(3) 定義が取り上げる特徴の境界を明確にする
それでは、測定したい物事や概念に対して良い定義を設定するためには、何を考えればよいのでしょうか。ポイントの一つは、定義が取り上げる物事や概念の特徴について、「何を含め、何を含めないのか境界をはっきりさせる」ことです。
例えば、「仕事に対する従業員のやる気」を測定しようとしたとします。「やる気」をどう定義できるか考えていましょう。仕事へのやる気が高い従業員をイメージしてみて、そのような人にどういった特徴があるか、考えてみてください。
やる気のある従業員の姿として、どんどん仕事に取り組むイメージが出てきたかもしれません。これは、仕事へのやる気という概念を「熱心に仕事に打ち込む”行動”」として捉えたものといえます。
あるいは、やる気にあふれて仕事に熱い想いを傾けた従業員の状態も考えられます。これはやる気の概念を「仕事に対する熱い”感情”」として捉えていることになります。
図 7 定義が何を含むか/含めないかの境界
こうしてみると、仕事に対するやる気の概念には、実際に仕事に打ち込む行動の側面と、仕事に対する熱い想いである感情の側面があると考えられます。これらの側面のうち、やる気の定義としてどちらを取り上げるのか、あるいは両方を取り上げるのかは、やる気を測定しようと考えた目的によります。
「仕事にやる気を持って打ち込んでもらい、最終的に成果を上げてもらう」ことを目的にしたならば、仕事に対するやる気は「実際に仕事に打ち込む行動」で定義した方が、良い成果を増やしたい目的と合致するかもしれません。
あるいは、「仕事をより好きになって力を出せている実感を従業員が得られるよう、やる気を高めてほしい」とすれば、仕事に対するやる気は「仕事に対する熱い感情」で定義する方が、測定の目的と合うでしょう。
加えて、これら2つの側面の見方を変える方向性も考えられます。例えば、「仕事にやる気を持って打ち込んでもらい、最終的に成果を上げてもらう」ことを目的に据えて考えてみます。
このとき、「仕事に対する熱い”感情”を持つことで、仕事への取組み量が増えて成果が高まる」と考え、やる気は感情的側面を測定し、それとは別に仕事の取組み量を測定する方法も考えられます。目的が行動増加だからといって、必ずしも定義を行動的側面に合わせる必要はなく、考え方次第で様々な設定の仕方が可能です。
さらには、複数の側面を統合して扱うことも考えられます。ここまでの例で、仕事に対するやる気を「仕事に打ち込む行動」と「仕事への熱い感情」と分けていましたが、これらを統合して「やる気とは、仕事への熱い感情を持ち、仕事に没頭して打ち込むことだ」と定義することもできます。
なお、複数の側面を統合することが可能なのは、目的上それで問題がないことに加えて、「仕事に対して熱い感情を持っているならば、例外なく仕事にもどんどん打ち込んでいるだろう」など、複数の側面が共起している場合です。
仮に「仕事に対する熱い想いを持っていても、仕事に打ち込まない人がいるかもしれない」と、ある側面の程度の高さと他の側面の程度の高さが共起しなさそうであれば、それらの側面は統合すべきではありません[9]。
いずれにせよ重要なことは、「測定したい物事や概念には多様な側面があり、定義を設定する際には、それらの中でどの側面を定義に含めるかの選択がある」ということです。多様な側面をよく整理した上で、「どの側面を含めるのか/どの側面を含めないのか」の境界をはっきりさせることが、定義設定の大きなポイントになります。
測定したい物事や概念を測定する目的に照らし合わせて、それに必要・有用な側面をピックアップして、定義に含める/含めない側面を明確化していきましょう。
(4) 既存のアンケート内容や学術知見を参考にする
定義を設定する際には、測定の目的に照らし合わせつつ、測定したい物事や概念が持つ様々な特徴を見渡した上で、質問内容を作成していきます。しかし、ひとつの定義を設定することが難しいこともあります。
その時は、学術的な理論や既存の心理尺度における概念整理を参考にするのも一案です。それらにより、新しい概念の捉え方が見えてきて、定義も作りやすくなります。
なお、注意点として、既存の心理尺度の中には有料のものもいくらかあります。それらについては、よく調べた上で、必要に応じて費用を支払うなどしてご利用ください。
ここまで進めた上で定義が定まったら、いよいよ質問項目を作成していきます。測定したい物事や概念それぞれの定義を反映させて、質問項目を作りこんでいきましょう。
(5) 測定内容に関係する多くの人々を巻き込み質問内容を議論する
質問項目を作成したら、それらの内容の確認・議論を進めます。そこで議論・検証される表面的妥当性と内容的妥当性は、質問項目の内容に関する知識や経験が多い人が議論して判断するものです。
ここで議論すべきことは、「作成した個々の質問内容が、定義と合致したものになっているか」と、「作成した質問内容全体が、定義を網羅的に捉えられているか」です。質問内容の作成にまだ関わっておらず、これらの是非を判断できる人と意見を交わすことが必要になります。
ここで議論に加えたいのは、質問内容で取り上げた物事に詳しい社内のメンバーと、その物事や概念に造詣の深い社外の専門家です。定義と質問内容の対応やその網羅性をあらゆる観点から判断して言及できるような人に、協力を依頼します。
そうした人から協力を得られたら、サーベイの背景や測定したい物事や概念を取り上げた理由、その定義を説明した上で、作成した質問内容を確認してもらって議論しましょう。
図 8 作成した質問内容の議論に様々な人を巻き込む
社内のメンバーからは、主に現場目線で見た質問内容の評価を求めるのが有効です。例えば、「現場目線で見ても、作成した質問内容は捉えたい物事や概念の定義に沿ったものになっているか」や「質問内容の中に、回答者によって解釈が異なったり、勘違いしそうなものはないか」コメントをもらうのがよいでしょう。
また、実際の回答者にとって質問内容がわかりづらくないかは、社内のメンバーだからこそ判断できるところもあります。こういった点についても、確認を求めたいところです。
その結果、社内のメンバーが「〇〇のように聞いた方が、もっと回答しやすいのではないか」と提案するかもしれません。提案内容が定義から外れるようなものでなく、質問内容の網羅性(内容的妥当性)も損なわれないと判断されるのなら、積極的に採用しましょう。
一方で、専門家にコメントを依頼する場合、測定したい物事や概念の定義と質問内容について、より専門的な観点から妥当性を判断してもらうのが有効です。
先に取り上げた「(3) 定義が取り上げる特徴の境界を明確にする」で解説したように、ある物事や概念の測定において、その定義の仕方は多様です。定義に即して質問内容を作成していたつもりでも、思わぬところで定義と乖離していたり、他の物事や概念と重複する内容を質問しているパターンがあります。
専門家であれば、その物事・概念に対する造詣が深く、データ測定の勘所や測定事例の知識も豊富に持っています。そのため、作成した質問内容に関して、より定義に即した精度の高い文言の判断基準から、質問内容の良し悪しや要修正箇所を見抜き、その理由も解説できるはずです。
現場目線のメンバーのコメントに加えて、専門的な観点による内容の洗練が加われば、表面的妥当性や内容的妥当性を十分にクリアした、測定したい概念を適切に捉える質問内容へと仕上がっていきます。
このように、測定したい内容に詳しい社員には、現場レベルでより適合する方向性で質問内容の洗練を、外部の専門家には、測定したい物事や概念の定義に即した純度の高いデータ測定を目指す方向性で、質問内容の妥当性を議論して内容を洗練します。
様々な関係者を巻き込み、作成した質問内容へのコメントや議論をまとめて、測定目的や定義に合った質問内容の適切性や網羅性を高めていきましょう。
(6) 回答者全員が回答しやすいよう配慮する
これは、公平性に関連したポイントです。測定したい物事や概念と関係しない回答者の属性(性別・年齢・部署・立場など)によって回答が変わらないよう、質問内容を配慮する必要があります。
先ほど例に挙げた特殊な語句を含む質問内容は、測定したい概念に関係ない「経験の差」に回答が左右され、経験の浅い人が回答しづらい問題を含んでいました。同様に、所属部署や年齢、役職等の立場などにより、回答がそもそもできない質問内容があるかもしれません。
このような事態を避けるべく、質問項目を作る際には、回答者のことを考えた十分な配慮が不可欠です。測定したい物事や概念に詳しい社員の他に、回答者となる社員の意見を聞くなど、様々な視点から回答のしやすさを検証することが有効です。
(7) ひとつの質問項目の中で、複数の内容を問わない
ここまで、データ取得前に作成した質問内容の妥当性・公平性を高めるポイントをまとめました。以降では、質問内容作成における、より細かい注意点を取り上げていきます。
一つの質問項目の中で、複数の内容を問う構造になっている質問項目は、ダブルバーレル質問と呼ばれます。
上司への満足度を測定するために、「上司の指導力や仕事の速さに満足している」という質問は問題ないでしょうか。この質問は、「上司の指導力への満足」と「上司の仕事の速さへの満足」を質問しており、ダブルバーレル質問となっています。
この質問への回答値が高いとき、上司のどの特徴に対する満足度が高いのか、判別できません。上の項目例では、上司の指導力の高さなのか、仕事の速さなのか、あるいはその両方なのか、満足している対象が何なのか判断ができません。測定しているものが何なのか、よくわからないのです。
質問内容は、できるだけシンプルに、一つの内容を質問するよう作成しましょう。
(8) 質問の表現により、質問内容が歪まないよう気を付ける
これは、専門家でない方が質問項目を作成するときにやりがちであり、注意すべきポイントです。例えば、自社への満足感を測定するために、下記の二つの質問を作成したとします。
- 業界を牽引している自社のことを、誇りに思っている
- 私は、自社にとても満足している
これらの質問項目は、どちらも表現によって質問内容が歪んでいる失敗例です。一つ目の項目は、「”業界を牽引している”自社」と、ポジティブな表現がくっついていることが問題になります。
このような質問は「自社は業界を牽引している先進的企業だ」という認識を前提にさせた上で自社への満足感を質問しており、回答者が普段から自然と感じている自社への満足感の測定ができていないのです。
また、二つ目の項目は「”とても”満足している」と、状態の高さを強調する語句がついていることが問題です。この質問文は「自社に非常に満足しているか否か」を問う質問になってしまい、ほどほどに満足している人でも肯定的な選択肢を選びづらくなり、自社への満足度の程度を適切に測定できていません。
質問内容に余計な表現がつくと、それによって語句の意味合いや解釈が変わり、回答が歪んでしまいます。質問内容は、余計な表現を除いて、できるだけシンプルに仕上げるのが適切なのです。
なお、上記2つの例は、シンプルに直すと以下のようになります。余計な表現を除いてシンプルに直しても、自社への満足感を問題なく測定できていることがわかっていただけると思います。
- 自社のことを、誇りに思っている
- 私は、自社に満足している
(9) 全員が同じ選択肢を選ぶような質問内容は避ける
「ほぼ全員が同じ選択肢を選ぶ」ような、回答の偏りが強く予想される質問には注意が必要です。
例えば、「私はいつも仕事をサボっている」という質問を作成し、”1=まったくあてはまらない、2=あまりあてはまらない、3=どちらともいえない、4=まあまああてはまる、5=非常にあてはまる”の5段階で回答を求めたとします。
仮に普段から仕事をサボりがちな従業員がいたとしても、この質問に対して「まあまああてはまる」「非常にあてはまる」と正直に回答する人はほとんどいないでしょう。すると、この質問に対する回答は、「まったくあてはまらない」にかなり集中し、一部が「あまりあてはまらない」と回答するような、偏りのある状態になります。
ある質問に対する回答値が低い方にひどく集中することを「床効果」と呼びます。逆に、回答値が高い方にひどく集中することを「天井効果」と呼びます。
これらの効果が出るような質問項目は、誰に聞いてもほぼ同じ回答が返ってくるため、測定してもあまり意味がないものになります。さらに、天井効果や床効果が生じた項目を含めてデータ分析をすると、うまく分析ができないという問題もあります。
そのような質問項目を含めることが、測定の目的上どうしても必要なら仕方ありません。しかし、そうでないなら、「誰が回答しても同じ選択肢を選ぶだろう」と事前に予測できるような質問内容を作ることは、できるだけ避けましょう。
(10) 測定したい物事や概念1つにつき3項目以上を作る[10]
その後の分析をより充実したものにするために、ぜひ取り組んでいただきたいポイントがあります。それは、測定したい物事や概念ひとつにつき、質問項目を3つ以上作成することです。
例えば、回答時点における従業員の疲労度を測定する質問項目として「疲れを感じる」の1項目だけでデータを測定したとします。そして、この質問を”1=まったくあてはまらない、2=あまりあてはまらない、3=どちらともいえない、4=まあまああてはまる、5=非常にあてはまる”の5段階で回答を求めたとしましょう。
すると、そのデータの得点バリエーションは1, 2, 3, 4, 5の5段階となります。
一方、質問の仕方を変えて、「今日のあなたの状態について、以下のそれぞれの内容はどの程度あてはまりますか」と最初に示し、以下の3項目について”1=まったくあてはまらない、2=あまりあてはまらない、3=どちらともいえない、4=まあまああてはまる、5=非常にあてはまる”の5段階でそれぞれ評価を求めたとしましょう。
- 疲れを感じる
- 仕事への集中が続かない
- 身体が重く、動きが鈍い感じがする
この3項目への回答値の合計を疲労度得点とした場合、この得点は、3~15の13段階となります。質問項目を増やすことで、得点のバリエーションが多くなるのです[11]。
得点のバリエーションが多いと、回答者の様々な状態が得点に細かく反映されやすくなります。さらに、得点のバリエーションが十分にあれば、その後のデータ分析もやりやすくなる特長があります。
ある物事や概念を測定する質問項目を作る際は、3項目以上作るようにすることを推奨します。可能な限り、3項目以上の質問内容を考えるよう努めましょう。
(11) 逆転項目は無理に作らなくてもよい
逆転項目とは、測定したい物事とは敢えて逆の特徴を問う質問項目を指します。例えば、仕事へのやる気の高さを測定する質問項目において、「仕事に対するやる気がわいてこない」といった内容のものがあてはまります。
近年の論文では、安易に逆転項目を含めると、測定したい概念を測定する精度が下がるため、敢えて質問内容に含めなくてもよいとされています(e.g., Suárez Álvarez et al., 2018)。適切な逆転項目の作成は至難の業なのです。
絶対に認められないわけではないですが、逆転項目を含めることはあまり推奨しません。測定したい概念をうまく測定することを目指す上で、逆転項目は無理に作らなくてよいでしょう。
以上、質問内容を作成する時点で考えるべき様々な側面を解説してきました。最初からすべての事項を満たすことは非常に大変です。まずは、「何かを測定しようと思った背景・理由は何か」「測定したい物事や概念の定義は何か」を、しっかりと掘り下げて議論し、設定することから始めましょう。
最後に、良い質問内容作成に向けたチェックリストをまとめました。★を付けたものはぜひ取り組んでいただきたい推奨事項です。そうでないものは、厳密にやろうとすると難度が高く、可能なら取り組んでいただきたい努力事項になります。
チェックリストを適宜参照し、目的に合った良いサーベイ内容を作り上げていきましょう。
図 9 良い質問内容作成のチェックリスト
引用文献
American Educational Research Association, American Psychological Association, & National Council on Measurement in Education. (2014). Standards for educational and psychological testing. Washington, DC: Joint Committee on Standards for Educational and Psychological Testing.
DeVon, H. A., Block, M. E., Moyle‐Wright, P., Ernst, D. M., Hayden, S. J., Lazzara, D. J., … & Kostas‐Polston, E. (2007). A psychometric toolbox for testing validity and reliability. Journal of Nursing scholarship, 39(2), 155-164.
Heale, R., & Twycross, A. (2015). Validity and reliability in quantitative studies. Evidence-based nursing, 18(3), 66-67.
Judge, T. A., Bono, J. E., & Locke, E. A. (2000). Personality and job satisfaction: the mediating role of job characteristics. Journal of applied psychology, 85(2), 237-249.
Souza, A. C. D., Alexandre, N. M. C., & Guirardello, E. D. B. (2017). Psychometric properties in instruments evaluation of reliability and validity. Epidemiologia e servicos de saude, 26, 649-659.
Spector, P. E. (1997). Job satisfaction: Application, assessment, causes and consequences. Thousand Oaks, CA,Sage Publications, Inc
Suárez Álvarez, J., Pedrosa, I., Lozano, L. M., García Cueto, E., Cuesta Izquierdo, M., & Muñiz Fernández, J. (2018). Using reversed items in Likert scales: A questionable practice. Psicothema, 30(2), 149-158.
脚注
[1] 社会心理学的な態度測定の考え方では、「観察可能な行動の背後にある潜在的な概念を捉える」ため、概念定義に対して、行動などをやや広めに測定する方法が用いられます。しかし、その方法は専門的な知識を持つ研究者でないと、適切な質問項目を作成することが非常に難しいため、本コラムでは「測定したい概念を絞り込み、それを直接捉える」質問の作成を推奨しています。
[2] 研究例として、仕事に関する様々な側面を含めた満足感はSpector(1997)、仕事そのものに対する満足感はJudge et al.,(2000)で、それぞれ定義され心理尺度で測定されています。
[3] 具体的には、ある物事や概念を測定する複数の項目に対して確認的因子分析を行うことで検証します。
[4] さらに、収束的妥当性と並列する形で、弁別的妥当性と呼ばれるものも存在します。これは「作成した質問項目が、測定したいと思っていない別の物事や概念との間に関連がない程度」を表す妥当性です。
[5] α係数については、当社コラム「α係数とは何か」で詳しく説明しています。
URL:https://www.business-research-lab.com/220411-2/
[6] 疲労度など短期間で変化することが想定される指標では、継時安定性は必要ありません。
[7] ここで示した公平性は、AERA, APA, NCME (2014)で挙げられた公平性のひとつである、「測定したい概念全体へのアクセス性の公平性(Fairness in access to the constructs as measured)」です。これ以外にも様々な公平性が挙げられていますが、組織サーベイの文脈からは外れる側面であると判断し、本文では取り上げていません。興味のある方は、AERA, APA, NCME (2014)をご覧ください。
[8] 「定義がうまく設定されていない心理尺度でとったデータでみられる、想定外の結果」について、当社の臨床事例における具体例を一部挙げると、次のようなものがあります。①因子妥当性の欠如、②小さいα係数しか得られない、③「想定していた指標間に関連がない」結果が示されやすい、④「想定していない指標間と関連がある」結果が示されやすい。
[9] 仮に、このような側面同士を統合してひとつの概念として無理やり定義したら、データ取得後の因子妥当性やα係数の検証で問題が生じ、その後の分析がうまくできない危険があります。
[10] もしも、組織サーベイによって「その後も活用する、しっかりとした心理尺度を構成したい」目的があるならば、1概念につき8~10項目ずつ作成し、その後の分析で項目を厳選するよう進めることを推奨します。多くの項目を作成するやり方は、研究で行われる心理尺度作成の一般的な手続きです。
[11] なお、得点のバリエーションを増やす目的として、「回答の段階・選択肢を増やす」方法が考えられます。例では5段階を挙げていますが、これを9段階などに増やすやり方です。この方法は、「各段階の違いを回答者がうまく判断できず、回答値の値に数量的な意味がなくなる」ため、推奨しません。回答の段階は、研究でもよく用いられる、例に挙げたような5段階を基本として、4~7段階の採用をお勧めします。
執筆者
能渡 真澄
信州大学人文学部卒業,信州大学大学院人文科学研究科修士課程修了。修士(文学)。価値観の多様化が進む現代における個人のアイデンティティや自己意識の在り方を,他者との相互作用や対人関係の変容から明らかにする理論研究や実証研究を行っている。高いデータ解析技術を有しており,通常では捉えることが困難な,様々なデータの背後にある特徴や関係性を分析・可視化し,その実態を把握する支援を行っている。