
複数選択可とした回答に対する統計処理についてお伺いしたいです。
アンケート(仮想):
Q1. 以下の内、所有している商品を全て選択してください。
〇商品A 〇商品B 〇商品C
Q2. 商品Aを所有している方にお伺いします。商品Aをどの位使用していますか。
〇毎日 〇週1 〇月1 〇半年に1回 〇年1回以下
Q3. 商品Bを所有している方にお伺いします。商品Bをどの位使用していますか。
〇毎日 〇週1 〇月1 〇半年に1回 〇年1回以下
Q4. 商品Cを所有している方にお伺いします。商品Cをどの位使用していますか。
〇毎日 〇週1 〇月1 〇半年に1回 〇年1回以下
クロス表(仮想):
毎日 週1 月1 半年に1回 年1回以下
商品A N1 N2 N3 N4 N5
商品B N6 N7 N8 N9 N10
商品C N11 N12 N13 N14 N15
やりたいこと:
商品×使用頻度に関する統計処理をしたいです。
例えば、χ二乗検定を実施し、クラメールの連関係数を算出し、商品と使用頻度には連関があることを確認する等。
お伺いしたいこと:
複数選択可としているため、上記のような統計処理をしても良いのか、分からず困っております。
複数選択可とした場合、分割すると良いという記事を見かけましたが、上記データの場合、商品Aを所有している人/所有していない人としてクロス表を作成できないですし、手詰まりです。
皆様のお知恵をお貸しいただければ幸いです。よろしくお願いいたします。
No.3ベストアンサー
- 回答日時:
ふたつリンクを張ってもらいましたが、#1で回答した、
①全体の比率を与えた、ピアソンの適合度の検定
②2商品間の独立性の検定
に該当します。
>3群以上の比較は、また別の統計手法を使用するので、気になりました。
ご心配は②に関してだと思いますが、①でも同様です。
問題点をご説明します。
まず、①の場合、与える確率分布は、全商品の平均、つまり全てマージした使用頻度分布を使うのが一般的ですが、ABCに量的なアンバランスがあると、例えばA商品が圧倒的に多いと、全体的な平均と言うよりA商品の使用頻度分布になってしまいます。このようなケースでは、与える確率分布は先行文献などを調査し、おおかたこのような使用頻度分布が一般的だが、今回調査したA,B,Cは・・・、というような文脈にするのが良いと思います。
②の場合、ABの比較と、ACの比較をやると、Aが2回登場し、多重比較をやっているように見えますが、その心配はありません。
このアンケートは各々の「使用時間」を聞いていますのでABの差とACの差は独立です。
これが「どちらが多いですか」と聞くと、ABとACでは差の程度が異なっている場合がありますので、解析方法が違ってきます。
一方、M×N適合度の検定を行って、差があると分かったので、どこに違いがあるのか、さらにAB比較をやってみた、というのは明らかな多重比較です。
問題は、独立性の検定では、各使用頻度の期待度数は両者の按分値が使われますが、サンプル数に大きな違いがあると、大きい方の比率に引っ張られます。ダウンサンプリングしてサンプル数をほぼ等しくするなどの配慮が必要です。
その心配は、M×N適合度の検定でも同じです。
私見ですが、
この調査は、前に述べたパネル属性のサンプルセレクション・バイアスと、今回述べた比較に影響するサンプル数のアンバランスとの戦いになると思います。
このような市場調査は、計画段階でしっかり調査の設計をしないと、何を調べているのか分からなくなります。
アンケートをこれから実施するのであれば、対象者を層化多段抽出するなどしてランダム化し、少なくともパネル属性が交絡しないようにすることをお勧めます。
なお、パネル属性が入ってしまうようなら、「3元データの分析」となります。このタイトルの本もあります。有名な手法は「INDSCAL分析(インスカルと読むらしい)」「TUCKER2分析」などがありますが、そうならないよう祈ります。
詳しいご解説、誠にありがとうございます。
改めて統計処理の難しさを思い知りました...。調査内容的に今回は無理でしたが、アンケート作成時にもう少し統計処理を意識した設計をしなければ。
ご解説いただきました内容を踏まえて、一度分析してみます。
No.5
- 回答日時:
最初のコメントに張って頂いたリンク先(アイスタットのもの)を、先程見直しましたが、メインはカイ2乗独立性検定ですね。
相関(クラメールで求めた)の検定を行っているのでは無かったです。
最初、私は、ご質問者のやりたいことが、この相関の有意性検定かと誤解していました。
もし、商品の方も何らかの順序カテゴリ化できるなら、添付のようなバブルチャートから相関性有無の解析も出来ますよ。
例えば、商品の扱いやすさ(横軸)と商品の使用頻度(縦軸)には有意な相関がある、という仮説を検定する。とかです。アンケートでは、いずれも(扱いやすさも使用頻度も)5段階評価で回答してもらい、解析に掛けます。
横軸は商品の扱いやすさですが、さすがにここを商品A,B,Cにはできないだろう、と思ったのですが、そもそも複数回答について誤解なさってみえたので、そこを回答しました。
太郎丸先生の「カテゴリカル・データ解析入門」という本には、そのような解析方法が種々紹介されています。

様々な角度からアドバイスいただき、誠にありがとうございます。
残念ながら、商品を順序カテゴリ化はできないので、こちらでご提案いただいた方法は実施できないのですが、今回の統計処理で自身の無知を思い知ったので、ご教示いただいた本、読んでみます!
No.4
- 回答日時:
老婆心ながら、
ピアソンの適合度の検定を使って、分布への適合性を調べるとき、
①理論値や先行文献などの確率分布を使うなら、自由度は1減らせば良いですが、
②現サンプルから計算した確率分布を使うのであれば、自由度は2減らさないといけません。
①はΣ(期待度数)=全サンプル数n という線形制約が入るため、
②はΣ(x-np)=0 という観測値xについても線形制約が入るからです。
また、独立性の検定を行うときは、イェーツの補正を入れて下さいませ。張って頂いたリンク先に説明があります。
解析ソフトを使えば、オプションで選択できるはずです。
No.2
- 回答日時:
>回答者が重複しますが、問題ないんですね。
パネル属性を分析に加味しないのであれば、問題ありませんが、商品によって、男性女性がアンバランスだったり年齢がアンバランスだと、それによるサンプルセレクション・バイアスが入りますので、注意深く解析する必要があります。
>商品×使用頻度はどちらも名義尺度
使用頻度は量的尺度ですよ。それが、アンケート設計の都合で連続的ではなく離散値になっているだけです。ヒストグラムのように階級を作ってまとめられていると考えて下さい。
リンク先の事例は所得を質的因子として扱っていますが、これは集団特徴に対するラベリング(集団への名付け)だと思ってい下さい。本当に収入に依存するとは考えておらず、資産のある人無い人的な線引きです。
もし、このアンケートも、いつも手に取ることができる場所にある、普段はしまっている、どこにあるか探さないと分からない、と言うのであれば使用時間ではなく、使用頻度に関する線引きですよね。
No.1
- 回答日時:
「年1回以下」なんて買った意味が無いような選択肢を設けましたね。
その項が0になったときの解析を考えると、重い課題が残るような気がします。全て0になってくれて、無視できることを祈ります。
あと、これは複数選択可のアンケート解析には該当しません。
それはさておき、
・持っている商品の組合せが使用時間へ影響を与えるという仮説を検定したいのですか?
例えば、ルンバを持っていると、ダイソンの掃除機は全く使わないとか。
・あるいは商品毎に使用頻度が異なるという仮説を検定したいのですか?
電子レンジは毎日使用されるが、電気圧力鍋は週1でしか使われないとか。
クロス表のイメージを見ると、後者ですね。だって、パネラ属性が入ってないですから。
そうであれば、複数回答可の解析には全く該当しません。影響ないです。
そのまま、
・全体の比率を与えた、ピアソンの適合度の検定
・2商品間の独立性の検定
で解析します。
もし、前者のように複数所有部分を活用した調査をするのであれば、分割というか「層別」です。興味の対象は、AB所有者、AC所有者、BC所有者だけで、単品と3つとも持っている人は除きます。
例えば、BC所有者だけは、両者を使用する頻度が異なるという仮説を検定したい(ルンバを持っていると、ダイソンの掃除機は全く使わない)とかです。それぞれのクラスで、商品間の独立性の検定を行います。
ただし、この場合は十分な観察データが必要ですね。
蛇足ですが・・・、
本当の意味での複数選択可というのは、「あなたの興味があるお稽古ごとはどれですか(複数回答可)」というような質問で、選択肢が20くらいあるものです。
これは、全く違う解析になります。共起図とか、ワードクラウドとかを作ります。「共起図」「共起グラフ」「ワードクラウド」「タグクラウド」で検索してみて下さい。
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
このQ&Aを見た人はこんなQ&Aも見ています
-
プロが教えるわが家の防犯対策術!
ホームセキュリティのプロが、家庭の防犯対策を真剣に考える 2組のご夫婦へ実際の防犯対策術をご紹介!どうすれば家と家族を守れるのかを教えます!
-
テキストの解答が間違っているのか、私が間違っているのか
統計学
-
確率について質問です。 A〜Iさんの9人で人狼をしたとします。 1回戦目はAさんが人狼になりました。
統計学
-
平均値出すより最頻値の方が統計上意味があると思いませんか?
統計学
-
4
プラスマイナスとは?
数学
-
5
さいころの 丁半って 確率は同じですか。
統計学
-
6
日本の女子大生はどれくらいの人がお酒に強い(飲んでも顔に出ないタイプ)体質だと思いますか?
統計学
-
7
表裏が1/2ずつの確率で出る硬貨を2人が交互に投げ、初めて表が2回連続で出たときに2回目の表を出した
統計学
-
8
拙劣な、あまりにも拙劣な、どうしようもない回答が並んでいて、目にした途端、気を失いそうになりました。
数学
-
9
カイ二乗検定の「カイ二乗」について
統計学
-
10
タイミングを予測
数学
-
11
【一次関数】 一次関数について「xが決まると自動的にyも決まる」という説明をしたのですが、生徒から「
数学
-
12
虚数iの2乗は-1ですが-2乗も-1になるのがなんかモヤモヤします。
数学
-
13
(6)なぜ4になるのか分かりません。 四捨五入しているのでしょうか
数学
-
14
サイコロ 期待値
数学
-
15
3×3のビンゴにおける確率計算。
数学
-
16
アンケートの分析でつまずいてます。 相関係数であり得ない数値(黄色の部分)が出ました。 何がいけない
統計学
-
17
電卓ってどうやって三角関数を計算してるのですか?
計算機科学
-
18
二項分布B(n,p)の中央値(メディアン)はなんですか?
統計学
-
19
エクセルの関数について教えてください。 SUM(A1:C1) A1=1 B1=2 C1=3 答え2+
システム科学
-
20
510から605までの数字を510、511、512.........と順番に足した場合の合計について
統計学
おすすめ情報
このQ&Aを見た人がよく見るQ&A
人気Q&Aランキング
-
4
検量線の決定係数について
-
5
エクセルのグラフから半値幅を...
-
6
検定統計量の値がマイナス
-
7
心理学の統計について
-
8
バラツキの大きさを統計学的に...
-
9
データが正規分布しているか判...
-
10
対数目盛の読み方を教えてください
-
11
片対数グラフで…
-
12
統計学 カイ二乗検定とt検定の...
-
13
日常の統計学
-
14
対応のあるt検定の結果の書き方
-
15
両側検定と片側検定のp値の違い
-
16
2郡の共通の標準偏差とは
-
17
最小二乗法を反比例の式を元に...
-
18
統計で、有意水準を、0.01...
-
19
信号処理系の分野に詳しい方に...
-
20
統計 RSD%について教えて下さい。
おすすめ情報
公式facebook
公式twitter
質問者の特定を避けるため、大枠が同じ仮想アンケートで記載しております。誤解を招くような表記で申し訳ございません。
本件、複数選択可には該当しないとのこと。
商品Aと商品Bを持っている人が双方の使用頻度に回答を許すことになるので、複数選択可と類似しているため、ご質問させていただきました。
回答者が重複しますが、問題ないんですね。
検定したいのは、商品と使用頻度に関連がある→商品毎に使用頻度が異なるという仮説を検定したいと思っております。
商品×使用頻度はどちらも名義尺度ですので、クラメールの連関係数を下記サイトの手法に従い算出するつもりでおりました。
https://istat.co.jp/sk_commentary/kai2_test
丁寧に解説いただき、誠にありがとうございます。
何度もお伺いして申し訳ございません。
先のご回答の、ピアソンの適合度の検定、2商品間独立性の検定ですが、下記サイトの内容という認識でよろしいでしょうか?
また、本件ですと3商品ございますが、2商品ごとに確認しても問題はないのでしょうか?(差の検定等ですと、3群以上の比較はまた別の統計手法を使用するので、気になりました)
https://bellcurve.jp/statistics/course/9494.html
https://bellcurve.jp/statistics/course/9496.html