アンケート調査のデータ比較をする際の統計分析方法の選択に迷っています

Question

卒論を書くために在宅勤務に関するアンケート調査をしましたが、データ分析方法について迷っています。性別、年齢、地域、役職ごとに、在宅勤務が労働者にどのぐらい影響を与えたのかということを知りたいと思っています。そのため、最初に回答者たちから性別、年齢、地域、役職に関する情報を入手しました。そしてそれら以外の情報については、リッカート尺度を使った質問への回答者たちからの回答で得ました。

指導教官は経済的格差が最も大きい地域、つまり最も経済的に豊かな地域と最も貧しい地域における労働者たちの意見の相違比較に特に興味を持っています。また、その指導教官はデータ分析をできるだけ簡単なやり方で行うことを勧めてくれました。さらに統計専門の教官も紹介してもらい、構成概念を正確に説明する最も適切なテストを選択し、人口構成や記述的な部分については最重要な事柄のみ提示しなさい、とアドバイスされました。

教官たちの考え方やアドバイスを基に、性別、年齢、地域、役職と、リッカート尺度を使った質問ごとのクロス表を作ることを検討しました。あるいは比較のためにはKruskal-Wallis検定とSteel-Dwass検定を行うのはどうだろうか、とも。そして信頼性についてはアルファ係数を求める。といったことも思いつきました。しかし、正直なところ、どういった方法が適切であるのかよくわかりません。できれば妥当性と信頼性が高く、そして教官たちからの助言を活かせる統計手法について教えてもらえるとありがたいです。

よろしくお願いします。

ruben425 · Accepted Answer

Kruskal-Wallis検定→多項ロジスティック回帰分析という流れの中で、どうしても各地域間の一対比較検定をする必要性があるという場合のみ、多重比較検定をするという判断になります。
ただし、地域が3地域の場合は有意確率が0.05/3=0.0166未満でないと有意差は認められません。4地域なら0.05/6=0.0083未満とさらに厳しくなるので、比較群が多い場合だと実質的に無意味です。

100人を対象に20項目のアンケートを実施した場合は、Kruskal-Wallis検定のp値が小さいものから回帰分析に投入して、地域間での有意差が認められた項目が10個以上あった場合は投入変数は10個までにした方が良いということです。

クロンバックαを計算しても、アンケート調査票の信頼性とは無関係です。
もともと信頼性工学分野で使われる指標で、例えば工業部品を複数の角度などで測定して相関が高い（製品の精度が良い）と判断する指標なので、アンケートで計算した場合は、クロンバックαが高いほど、全項目で同じ回答を得られている、つまり似た質問をして似た回答を得ている無駄な質問だらけの無意味な調査票ということになります。「信頼性の指標」というのが独り歩きして、アンケート分野で間違った使い方をされています。

ruben425 · Answer

地域は3地域以上ですよね？
1.地域間での各リッカート尺度項目の有意差をKruskal-Wallis検定で。
2.地域を従属変数、リッカート尺度を独立変数として、多項ロジスティック回帰分析。共変量として年齢、性別、役職（ダミー変数）も投入する。
回帰分析に投入するアンケート項目数は測定人数の1/10以下にする（100人なら10個まで）。Kruskal-Wallis検定でp値が小さい順に投入していくと良い。

クロンバックαは複数のアンケート項目で似たことを聞いていれば高くなるので、アンケートの信頼性とは全く関係ありません。

stomachman · Answer

No.2へのコメントについて。

まずは研究のオリジナリティ。報告書なら、何をどう報告させたいかが指定されていて、それに沿っていなくてはどんなに分厚くてもただのゴミです。しかしこれは論文なんですから、何をどうするかは自分で決める。
　論文には論理の筋が必要です。すなわち、その分析を何のためにやる必要があるのか、が明確であれば、その結果から結論を引き出すための解釈が可能で、さらに次にどういう理由で何をすべきかということが説明できる。その論理の筋を作るキモこそが仮説です。
　いろんな分析を手当たり次第にやって、それらの結果を束ねただけでは、何の意味もありません。ただの何の脈絡もないただ分厚いだけの紙の束であり、人に見せるもんじゃない。しかしこれは探索的研究のひとつのやりかたではある。すなわち、その結果の束を手がかりにして、反証可能な仮説を自分で考え出すんです。
　で、論文では（くだらない紙の束のことなど一切知らん顔で）、理路整然と仮説を説明し、これを反証するためにどんな分析をやる必要があるかを論証し、そして分析を行い、結果を解釈する。これが「筋」です。

一方、コテサキに関しては

> 統計の事はよくわからないから自分で決めなさい

その代わりに

> 統計専門の教官も紹介してもらい

というんでしょ？こんなところで質問してないで、実際のデータを見せてその専門教官と相談すべきです。

stomachman · Answer

No.1へのコメントについて。

> 既に担当教官等がアンケート調査を実施

ならば、分析方法も当然考えてあるんですよね、センセ？とニジリ寄るしかないですねー。

他の注意点としては：
● 近ごろは「有意差」一辺倒は通用しなくなって来ています。もとより、有意水準というのは統計の問題ではなくて決断のための閾値（その決断が誤ったときのリスクをマネジメントできるかどうかを合理的に考えて決める閾値）ですから、「ほとんど影響力のない論文（卒論程度ですし）における結論を選ぶ」という（責任が軽い）決断においてはさしたる意味がありません。
● いろいろ頑張っても相関しか示せないでしょう。しかし、その相関関係と矛盾しないような因果モデル（すなわち仮説）をいくつか考案し、どんな調査・実験をすればそれぞれのモデルを反証できるか、というところまで考察する。
　そのためには、どんなバイアス要因、交絡要因が考えられるか（要するに「このアンケートはどこがまずかったか」）を、できるだけ傍証を付けて論じておくこと。というわけで

> 人口構成や記述的な部分については最重要な事柄のみ提示しなさい

しなさい、じゃなくて本音を言えば「そこをあんまり突っ込むと何も言えなくなっちゃいそうだよ」という逃げですが、逃げてないで向き合うと論文の質が断然上がります。

で、コテサキの手法の選択に関しては、前提となる仮定ができるだけ緩いものしか使えない、なにしろその仮定が成り立っていると確信を持って言える状況ではないのだから。そうすると、感度が低いけれども単純明快である（従って、結果的に広く使われている）手法しかダメ。これが

> データ分析をできるだけ簡単なやり方で行うこと

の理由であり、「お薦め」じゃなくて必須の条件でしょう。

stomachman · Answer

分析方法を検討する前にデータを取るのがそもそも変だなあ。ま、「意見」の方ナンゾはさておき、「性別、年齢、地域、役職」の方の扱い方をじっくり考えなくちゃいけません。「手法」をどれにしようか、なんてコテサキの問題じゃないと思いますよ。

> 経済的格差が最も大きい地域、つまり最も経済的に豊かな地域と最も貧しい地域における労働者たちの意見の相違比較

をやるつもりで２つの地域だけを取り上げても、それは単に「その具体的な２つの地域の違い」であって、経済的な豊かさとの関係は分からない。だから、経済的な豊かさと意見の相関関係を示さなくちゃいかんですね。
　まず、「経済的な豊かさ」は直接客観的に測れるものではないんだから、どんな指標でこれを測るか（i.e.,「測れたと言えるよね」と大方が納得してくれるようにどう説明を構成するか）が肝心です。たとえば、収入を測ったって物価が違えば価値が違う。高額の動産の所有率を調べたって地域によって必需品が違う。
　さて、「経済的な豊かさ」以外の要因の影響をどうやって消すか。「在宅勤務」がテーマなら環境の違い、たとえば通勤時間、家賃、通信インフラなどの交絡要因もあるでしょう。さらにやっかいなのが文化・風土の違い、すなわちマインドセットの違いで、これは当然「意見」の方にも影響を与えて直接交絡する。

というわけで、多分、それらに関する何らか別のデータを探して持ってくる必要があるでしょう。やってみると、「性別、年齢、地域、役職」だけじゃ足りなかった、アレも尋ねておけば良かったのに、なんてことが起こるわけで、だから、あらかじめ分析方法を検討しとかなくちゃ、なんです。

アンケート調査のデータ比較をする際の統計分析方法の選択に迷っています

Kruskal-Wallis検定→多項ロジスティック回帰分析という流れの中で、どうしても各地域間の一対比較検定をする必要性があるという場合のみ、多重比較検定をするという判断になります。

地域は3地域以上ですよね？

No.2へのコメントについて。

No.1へのコメントについて。

分析方法を検討する前にデータを取るのがそもそも変だなあ。

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング