統計：アンケート結果の読み解き方法（カイ二乗検定の必要性の有無）

Question

分析手法、結論の導き方についてご教示いただきたいです。
無作為に抽出した集団にアンケートをとり、400人から回答を得まし。A,B,Cという表品をそれぞれ「知っている」「どちらともいえない」「知らない」で回答してもらったところ、

　　　　　　　　　　商品A         商品B      商品C
知っている	　　36.9%	　　44.1%	　　33.1%
どちらともいえない	27.9%	27.0%	27.9%
知らない　	　　35.2%	　　28.9%	　　39.0%
合計	　　　　　　　100.0%	100.0%	100.0%


という回答結果となりました（上記は度数分布表という言葉と理解しています）。この結果から、「知っている」が44.1％と最も高い商品Bが他商品に比べて認知度が高いと言いたいのですが、上記の表からそれを断定してもよいのでしょうか？カイ二乗検定をする必要があるようにも思えるのですが、この場合3✖︎3で複雑になり、やる必要性も含めわからなくなってしまいました。

何卒、よろしくお願いいたします。

yhr2 · Answer

＞上記の表からそれを断定してもよいのでしょうか？

どういう判定条件（信頼度）でそういうのかにもよりますが、通常であれば「ダメ」でしょう。
商品Ｂの 44.1% と商品Ａの 36.9%に有意な差があるとは思えません。

＞この場合3✖︎3で複雑になり、やる必要性も含めわからなくなってしまいました。

複雑だからやらなくてもいいだろう、では理由になりませんよ。
必要性があるのかどうかは、やってみなくちゃ分かりません。

集計表ですが、% で表わしたら実態が分かりません。
全部で10人を調べただけの比率だったら「ばらつきが大きそう」だし、100万人を調べた結果の比率だったら「そこそこ精度がありそう」だし。
全員調査した上での比率だったら「実態そのもの」の数値になる。
カイ二乗検定をするなら、「％」ではなくて「400人中の何人か」をきちんと「人数」で表して評価する必要があるでしょう。

kamiyasiro · Answer

A,B,Cは同じ人が重複回答しているんですよね。

なんか、マズい気がします。

kamiyasiro · Answer

#2です。

#1さんがおっしゃるように、実測数でやるんですが、列合計、行合計って1200になりますよね。サンプル数400なのに、おかしいでしょ。

こんなときは、どうするんだったっけ？

すみません、独り言です・・・。

yhr2 · Answer

No.1 です。

#2さん＞A,B,Cは同じ人が重複回答しているんですよね。
＞なんか、マズい気がします。

はい、何を調べたいのかによると思います。
Ａ、Ｂ、Ｃが相互に関連しているものであれば、同じ人が複数回答している場合には、「Ａだけを知っている」のと「ＡとＢを知っている」のとではどういう違いがあるのか、などといった「そのことの意味」に踏み込んで調べないといけないかもしれません。

単に、関係ない3社を調べただけなら、同じ400人でも別々な400人でも同じ結果になるはず、という風に扱えるかもしれません。

「何をどのようにアンケートしたのか（アンケートの目的や意図）」や、「その結果からどんな結論を得たいのか」といったことを明確にしないと、何をすればよいのか分からないと思います。

そもそも「知っているか否か」のアンケートに「どちらともいえない」という回答があること自体よく分かりません。
「知名度」を判定したいのなら「知っている」だけを扱えばよいのかもしれません。

kamiyasiro · Answer

いやいや、同一パネルの場合は、固定効果モデルを使わないとマズいんじゃないかと思うのです。

あるいは、「母比率の差の検定、対応のある重複データ」というのを使う必要があると思います。

「知っている」の部分だけ解析に使うとして、「複数回答可」の状態ですからね。

kamiyasiro · Answer

何を言っているかというと、

A商品の認知度における
・A商品しか知らなかった
・全部知っている、もちろんA商品も知っている
を切り分けが必要ということです。

巨人も阪神も好き、と言う人は、単に野球が好きってこと（固定効果）でしょ。

yhr2 · Answer

No.1&4 です。

#6さん＞巨人も阪神も好き、と言う人は、単に野球が好きってこと（固定効果）でしょ。

３つの商品が「巨人」「阪神」「ヤクルトスワローズ」のようなものならそういうことだと思います。

それが「読売新聞」「阪神電鉄」「ヤクルト（飲料）」のような「全く関係ない（独立な）３つの商品」なら別グループの400人に個別に聞いたのと同じように考えてよいと思います。

いずれにせよ、どういう商品について、どういうアンケートをして、その結果を使って何を言いたいのか、ということに依存します。
そこは質問者さんが判断する領域でしょう。
そこで「何をしたいか」を明確にした上で質問された方がよいと思います。

kamiyasiro · Answer

分割表の検定は、商品×性別などの構造になっていて、商品の認知度と性別は独立である、ということを検定しますが、本調査は「知っている」と「知らない」とは排他の関係を見ているので、「知っている」だけを使った「母比率の差の検定」が妥当でしょう。

しかし、この調査の問題点は、本来、商品の認知度に対して調査パネルは無作為であるべきなのに、共通パネルによるバイアスが入っている点に注意が必要だということです。

もちろん、新聞と鉄道会社と飲料メーカーであれば、バイアスは入りにくいので、同一パネルでも良いかと思いますが、そんなこと検定しますか？

同一群の商品なら、それらの認知度には差が無い、というのが帰無仮説ですが、新聞と鉄道会社と飲料メーカーの認知度に差が無いという帰無仮説は無理があると思います。何を根拠にそんな仮説を言うのですか。

やっぱり、「母比率の差の検定、対応のある重複データ」という手続きを使うべきです。

カイ二乗検定による、ｍ×ｎ分割表の検定ではありません。

qas2021 · Answer

他の方も指摘されているとおり、表のまとめ方が良くありません。
商品A（知っている、どちらともいえない、知らない）×商品B（知っている、どちらともいえない、知らない）×商品C（知っている、どちらともいえない、知らない）
の3×3×3の分割表を作成しないといけません。
「どちらともいえない」と「知らない」をまとめて良ければ、2×2×2の分割表となります。

「どちらともいえない」と「知らない」をまとめた場合で説明します。

A, B の認知度は次のようになっているとします。

A＼B, 知っている, その他
知っている, p₁₁, p₁₀
その他, p₀₁, p₀₀

A, B の認知度の差を知りたいということは
(p₁₁ + p₁₀) - (p₁₁ + p₀₁) = p₁₀ - p₀₁ = 0
かどうかが分れば良いわけです。

A＼B, 知っている, その他
知っている, X₁₁, X₁₀
その他, X₀₁, X₀₀
n = X₁₁ + X₁₀ + X₀₁ + X₀₀

というデータが得られていれば、|X₁₀ - X₀₁| が十分に0より大きければ、
p₁₀ - p₀₁ ≠ 0 ということができます。

X₁₀ - X₀₁ の期待値は n(p₁₀ - p₀₁) で、この分散は
V[X₁₀ - X₀₁] = n(p₁₀ + p₀₁ - (p₁₀ - p₀₁)²)
となります。

帰無仮説（p₁₀ - p₀₁ = 0）が正しい場合、
V[X₁₀ - X₀₁] = n(p₁₀ + p₀₁)
となるので、分散は不偏推定量の X₁₀ + X₀₁ で推定できます。

n が十分に大きければ、
(X₁₀ - X₀₁)/√(X₁₀ + X₀₁)
は標準正規分布に従うので、
|(X₁₀ - X₀₁)/√(X₁₀ + X₀₁)| > 2.394
のときに帰無仮説を棄却すれば、有意水準 (5/3) % の検定となります。
（3で割るのは多重比較のため）

これを、A-B間、A-C間及び B-C間で検定すれば、全体の有意水準が5%の検定となります。

kamiyasiro · Answer

#9さんのご提案は、パネル調査における3元データの解析、タッカーとかタッカー２と呼ばれる分析ですね。

３次元の解析なのでかなり高度ですが、ご指摘、ごもっとも、と思います。

統計：アンケート結果の読み解き方法（カイ二乗検定の必要性の有無）

＞上記の表からそれを断定してもよいのでしょうか？

A,B,Cは同じ人が重複回答しているんですよね。

#2です。

No.1 です。

いやいや、同一パネルの場合は、固定効果モデルを使わないとマズいんじゃないかと思うのです。

何を言っているかというと、

No.1&4 です。

他の方も指摘されているとおり、表のまとめ方が良くありません。

#9さんのご提案は、パネル調査における3元データの解析、タッカーとかタッカー２と呼ばれる分析ですね。

似たような質問が見つかりました

このQ&Aを見た人はこんなQ&Aも見ています

関連するカテゴリからQ&Aを探す

このQ&Aを見た人がよく見るQ&A

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング