プロが教えるわが家の防犯対策術!

分析手法、結論の導き方についてご教示いただきたいです。
無作為に抽出した集団にアンケートをとり、400人から回答を得まし。A,B,Cという表品をそれぞれ「知っている」「どちらともいえない」「知らない」で回答してもらったところ、

          商品A 商品B 商品C
知っている   36.9%   44.1%   33.1%
どちらともいえない 27.9% 27.0% 27.9%
知らない    35.2%   28.9%   39.0%
合計        100.0% 100.0% 100.0%


という回答結果となりました(上記は度数分布表という言葉と理解しています)。この結果から、「知っている」が44.1%と最も高い商品Bが他商品に比べて認知度が高いと言いたいのですが、上記の表からそれを断定してもよいのでしょうか?カイ二乗検定をする必要があるようにも思えるのですが、この場合3✖︎3で複雑になり、やる必要性も含めわからなくなってしまいました。

何卒、よろしくお願いいたします。

A 回答 (13件中1~10件)

400人のそれぞれの人iが3つの商品j(j=1,2,3)について、答A(1=知ってる、2=知らない, 3=どっちでもない)の3つの値を答えたんですから、 A[i,j] (i=1〜400, g=1~3) という400行3列の行列のデータが得られた。

ひとりにつき、答は3^3 = 27通りある。これを
  n(a,b,c) = 商品1についてa, 商品2についてb, 商品3についてcと答えた人の数
と集計すると、得られた情報を損なわない。
 しかしご質問ではこれをさらに
  m(j, r) = 商品jについてrと答えた人の数
すなわち
  m(1, r) = n(r,1,1)+n(r,1,2)+n(r,1,3)+n(r,2,1)+n(r,2,2)+n(r,2,3)+n(r,3,1)+n(r,3,2)+n(r,3,3)
  m(2, r) = n(1,r,1)+n(1,r,2)+n(1,r,3)+n(2,r,1)+n(2,r,2)+n(2,r,3)+n(3,r,1)+n(3,r,2)+n(3,r,3)
  m(3, r) = 400 - m(1,r) - m(2,r)
と集約したものしか残ってない、ってことらしい。これでは、商品1, 2, 3の答にどんな相関があるかとか、人の特性はどう違うか、などの情報が失われてしまいます。
======================

 しかしま、ともあれ、これだけの情報で「商品2は答1が他より(マグレでなく)多いのかどうか」を問いたい。

 まずは、「答が1か1以外か」の区別しかしていないんですから、m(j,2)とm(j,3)は一緒くたにしてよろしいでしょう。

 で、帰無仮説「商品1, 2, 3には何の違いもない」を考えます。

 そうだとすると、商品1, 2, 3を区別しないでデータを集めた上で、ランダムに商品1, 2, 3に割り振ったのと違いはないはず。
 さて、答がA[i,j]=1であるような(i,j)の個数は
  s = m(1, 1) + m(2, 1) + m(3, 1)
です。だから、s個の「答=1」をランダムに3つの商品に割り振ったときに、「答が1である個数が一番多い商品」について、その個数の分布はどうなるか、を調べます。

 [s個のモノを1/3ずつの確率で商品1,2,3に割り振ったときに、それぞれ何個が割り振られるかを(X1, X2, X3)とすると、それが(x1, x2, x3)になる確率P(X1=x1 ∧ X2=x2 ∧ X3=x3)は3項分布
  P(X1=x1 ∧ X2=x2 ∧ X3=x3) = (s!/(x1! x2! x3!))/(3^s)
に従うわけですが、こんなもんいじくるより数値実験した方が簡単。]

 ランダムな割り振りを100万回やってみますと、「全くのマグレによって答=1(知っている)が一番多い商品における答=1の個数が44.1%以上になる確率(p値)」は2.4%ほどだとわかります。(グラフは横軸が「1.知っている」が一番多い商品の「1.知っている」の%、縦軸がp値です。)うーむむ、結構微妙ですね。
「統計:アンケート結果の読み解き方法(カイ」の回答画像12
    • good
    • 0

No.12に追記。


 「固定効果」(No.7)があったとすると、No.12のp値(2.4%)は小さい方にずれます。だから、「p値は(固定効果があってもなくても)高々2.4%」と言えます。

 「小さい方にずれる」ということのひとつの例として:「知ってる」という回答が(どの商品かを区別せずに合計して)456個あったけれども、400人中の150人はどの商品についても「知ってる」と答えた、という場合を考えます。すると、この150人の回答だけで「知ってる」のうちの450個を占めていて、あとの250人が残り6個の「知ってる」を回答した。だから、ある商品についての「知ってる」の個数は最大でも(150+6)/400=39%にしかならず、どんなマグレでも44.1%という結果は出ない。言い換えれば、「44.1%以上」という結果が得られる確率(p値)は0%ですね。このように、固定効果はp値を下げる方向に働くんです。
    • good
    • 0

3元データの解析であれば、3×3×400のデータ空間の解析になります。


だから、#9さんのご提案とはちょっと違いますかね。

参考図書
P.アラビら共著、岡太ら訳(1990)『3元データの分析』,共立出版

自分はよく理解できていません。同僚はやっていましたが・・・。
    • good
    • 0

#9さんのご提案は、パネル調査における3元データの解析、タッカーとかタッカー2と呼ばれる分析ですね。



3次元の解析なのでかなり高度ですが、ご指摘、ごもっとも、と思います。
    • good
    • 0

他の方も指摘されているとおり、表のまとめ方が良くありません。


商品A(知っている、どちらともいえない、知らない)×商品B(知っている、どちらともいえない、知らない)×商品C(知っている、どちらともいえない、知らない)
の3×3×3の分割表を作成しないといけません。
「どちらともいえない」と「知らない」をまとめて良ければ、2×2×2の分割表となります。

「どちらともいえない」と「知らない」をまとめた場合で説明します。

A, B の認知度は次のようになっているとします。

A\B, 知っている, その他
知っている, p₁₁, p₁₀
その他, p₀₁, p₀₀

A, B の認知度の差を知りたいということは
(p₁₁ + p₁₀) - (p₁₁ + p₀₁) = p₁₀ - p₀₁ = 0
かどうかが分れば良いわけです。

A\B, 知っている, その他
知っている, X₁₁, X₁₀
その他, X₀₁, X₀₀
n = X₁₁ + X₁₀ + X₀₁ + X₀₀

というデータが得られていれば、|X₁₀ - X₀₁| が十分に0より大きければ、
p₁₀ - p₀₁ ≠ 0 ということができます。

X₁₀ - X₀₁ の期待値は n(p₁₀ - p₀₁) で、この分散は
V[X₁₀ - X₀₁] = n(p₁₀ + p₀₁ - (p₁₀ - p₀₁)²)
となります。

帰無仮説(p₁₀ - p₀₁ = 0)が正しい場合、
V[X₁₀ - X₀₁] = n(p₁₀ + p₀₁)
となるので、分散は不偏推定量の X₁₀ + X₀₁ で推定できます。

n が十分に大きければ、
(X₁₀ - X₀₁)/√(X₁₀ + X₀₁)
は標準正規分布に従うので、
|(X₁₀ - X₀₁)/√(X₁₀ + X₀₁)| > 2.394
のときに帰無仮説を棄却すれば、有意水準 (5/3) % の検定となります。
(3で割るのは多重比較のため)

これを、A-B間、A-C間及び B-C間で検定すれば、全体の有意水準が5%の検定となります。
    • good
    • 0

分割表の検定は、商品×性別などの構造になっていて、商品の認知度と性別は独立である、ということを検定しますが、本調査は「知っている」と「知らない」とは排他の関係を見ているので、「知っている」だけを使った「母比率の差の検定」が妥当でしょう。



しかし、この調査の問題点は、本来、商品の認知度に対して調査パネルは無作為であるべきなのに、共通パネルによるバイアスが入っている点に注意が必要だということです。

もちろん、新聞と鉄道会社と飲料メーカーであれば、バイアスは入りにくいので、同一パネルでも良いかと思いますが、そんなこと検定しますか?

同一群の商品なら、それらの認知度には差が無い、というのが帰無仮説ですが、新聞と鉄道会社と飲料メーカーの認知度に差が無いという帰無仮説は無理があると思います。何を根拠にそんな仮説を言うのですか。


やっぱり、「母比率の差の検定、対応のある重複データ」という手続きを使うべきです。

カイ二乗検定による、m×n分割表の検定ではありません。
    • good
    • 0

No.1&4 です。



#6さん>巨人も阪神も好き、と言う人は、単に野球が好きってこと(固定効果)でしょ。

3つの商品が「巨人」「阪神」「ヤクルトスワローズ」のようなものならそういうことだと思います。

それが「読売新聞」「阪神電鉄」「ヤクルト(飲料)」のような「全く関係ない(独立な)3つの商品」なら別グループの400人に個別に聞いたのと同じように考えてよいと思います。

いずれにせよ、どういう商品について、どういうアンケートをして、その結果を使って何を言いたいのか、ということに依存します。
そこは質問者さんが判断する領域でしょう。
そこで「何をしたいか」を明確にした上で質問された方がよいと思います。
    • good
    • 0

何を言っているかというと、



A商品の認知度における
・A商品しか知らなかった
・全部知っている、もちろんA商品も知っている
を切り分けが必要ということです。

巨人も阪神も好き、と言う人は、単に野球が好きってこと(固定効果)でしょ。
    • good
    • 0

いやいや、同一パネルの場合は、固定効果モデルを使わないとマズいんじゃないかと思うのです。



あるいは、「母比率の差の検定、対応のある重複データ」というのを使う必要があると思います。

「知っている」の部分だけ解析に使うとして、「複数回答可」の状態ですからね。
    • good
    • 0

No.1 です。



#2さん>A,B,Cは同じ人が重複回答しているんですよね。
>なんか、マズい気がします。

はい、何を調べたいのかによると思います。
A、B、Cが相互に関連しているものであれば、同じ人が複数回答している場合には、「Aだけを知っている」のと「AとBを知っている」のとではどういう違いがあるのか、などといった「そのことの意味」に踏み込んで調べないといけないかもしれません。

単に、関係ない3社を調べただけなら、同じ400人でも別々な400人でも同じ結果になるはず、という風に扱えるかもしれません。

「何をどのようにアンケートしたのか(アンケートの目的や意図)」や、「その結果からどんな結論を得たいのか」といったことを明確にしないと、何をすればよいのか分からないと思います。

そもそも「知っているか否か」のアンケートに「どちらともいえない」という回答があること自体よく分かりません。
「知名度」を判定したいのなら「知っている」だけを扱えばよいのかもしれません。
    • good
    • 0

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!