プロが教える店舗&オフィスのセキュリティ対策術

複数選択可とした回答に対する統計処理についてお伺いしたいです。

アンケート(仮想):
Q1. 以下の内、所有している商品を全て選択してください。
 〇商品A 〇商品B 〇商品C
Q2. 商品Aを所有している方にお伺いします。商品Aをどの位使用していますか。
 〇毎日 〇週1 〇月1 〇半年に1回 〇年1回以下
Q3. 商品Bを所有している方にお伺いします。商品Bをどの位使用していますか。
 〇毎日 〇週1 〇月1 〇半年に1回 〇年1回以下
Q4. 商品Cを所有している方にお伺いします。商品Cをどの位使用していますか。
 〇毎日 〇週1 〇月1 〇半年に1回 〇年1回以下

クロス表(仮想):
    毎日 週1 月1 半年に1回 年1回以下
 商品A N1  N2  N3     N4   N5
 商品B N6  N7  N8     N9   N10
 商品C N11 N12  N13    N14  N15

やりたいこと:
商品×使用頻度に関する統計処理をしたいです。
例えば、χ二乗検定を実施し、クラメールの連関係数を算出し、商品と使用頻度には連関があることを確認する等。

お伺いしたいこと:
複数選択可としているため、上記のような統計処理をしても良いのか、分からず困っております。
複数選択可とした場合、分割すると良いという記事を見かけましたが、上記データの場合、商品Aを所有している人/所有していない人としてクロス表を作成できないですし、手詰まりです。

皆様のお知恵をお貸しいただければ幸いです。よろしくお願いいたします。

質問者からの補足コメント

  • 質問者の特定を避けるため、大枠が同じ仮想アンケートで記載しております。誤解を招くような表記で申し訳ございません。

    本件、複数選択可には該当しないとのこと。
    商品Aと商品Bを持っている人が双方の使用頻度に回答を許すことになるので、複数選択可と類似しているため、ご質問させていただきました。
    回答者が重複しますが、問題ないんですね。

    検定したいのは、商品と使用頻度に関連がある→商品毎に使用頻度が異なるという仮説を検定したいと思っております。
    商品×使用頻度はどちらも名義尺度ですので、クラメールの連関係数を下記サイトの手法に従い算出するつもりでおりました。
    https://istat.co.jp/sk_commentary/kai2_test

    No.1の回答に寄せられた補足コメントです。 補足日時:2022/03/07 12:19
  • 丁寧に解説いただき、誠にありがとうございます。

    何度もお伺いして申し訳ございません。
    先のご回答の、ピアソンの適合度の検定、2商品間独立性の検定ですが、下記サイトの内容という認識でよろしいでしょうか?
    また、本件ですと3商品ございますが、2商品ごとに確認しても問題はないのでしょうか?(差の検定等ですと、3群以上の比較はまた別の統計手法を使用するので、気になりました)
    https://bellcurve.jp/statistics/course/9494.html
    https://bellcurve.jp/statistics/course/9496.html

    No.2の回答に寄せられた補足コメントです。 補足日時:2022/03/07 13:40

A 回答 (5件)

ふたつリンクを張ってもらいましたが、#1で回答した、


①全体の比率を与えた、ピアソンの適合度の検定
②2商品間の独立性の検定
に該当します。

>3群以上の比較は、また別の統計手法を使用するので、気になりました。

ご心配は②に関してだと思いますが、①でも同様です。
問題点をご説明します。

まず、①の場合、与える確率分布は、全商品の平均、つまり全てマージした使用頻度分布を使うのが一般的ですが、ABCに量的なアンバランスがあると、例えばA商品が圧倒的に多いと、全体的な平均と言うよりA商品の使用頻度分布になってしまいます。このようなケースでは、与える確率分布は先行文献などを調査し、おおかたこのような使用頻度分布が一般的だが、今回調査したA,B,Cは・・・、というような文脈にするのが良いと思います。

②の場合、ABの比較と、ACの比較をやると、Aが2回登場し、多重比較をやっているように見えますが、その心配はありません。
このアンケートは各々の「使用時間」を聞いていますのでABの差とACの差は独立です。
これが「どちらが多いですか」と聞くと、ABとACでは差の程度が異なっている場合がありますので、解析方法が違ってきます。
一方、M×N適合度の検定を行って、差があると分かったので、どこに違いがあるのか、さらにAB比較をやってみた、というのは明らかな多重比較です。

問題は、独立性の検定では、各使用頻度の期待度数は両者の按分値が使われますが、サンプル数に大きな違いがあると、大きい方の比率に引っ張られます。ダウンサンプリングしてサンプル数をほぼ等しくするなどの配慮が必要です。
その心配は、M×N適合度の検定でも同じです。

私見ですが、
この調査は、前に述べたパネル属性のサンプルセレクション・バイアスと、今回述べた比較に影響するサンプル数のアンバランスとの戦いになると思います。

このような市場調査は、計画段階でしっかり調査の設計をしないと、何を調べているのか分からなくなります。

アンケートをこれから実施するのであれば、対象者を層化多段抽出するなどしてランダム化し、少なくともパネル属性が交絡しないようにすることをお勧めます。

なお、パネル属性が入ってしまうようなら、「3元データの分析」となります。このタイトルの本もあります。有名な手法は「INDSCAL分析(インスカルと読むらしい)」「TUCKER2分析」などがありますが、そうならないよう祈ります。
    • good
    • 1
この回答へのお礼

詳しいご解説、誠にありがとうございます。
改めて統計処理の難しさを思い知りました...。調査内容的に今回は無理でしたが、アンケート作成時にもう少し統計処理を意識した設計をしなければ。
ご解説いただきました内容を踏まえて、一度分析してみます。

お礼日時:2022/03/07 16:32

最初のコメントに張って頂いたリンク先(アイスタットのもの)を、先程見直しましたが、メインはカイ2乗独立性検定ですね。



相関(クラメールで求めた)の検定を行っているのでは無かったです。
最初、私は、ご質問者のやりたいことが、この相関の有意性検定かと誤解していました。

もし、商品の方も何らかの順序カテゴリ化できるなら、添付のようなバブルチャートから相関性有無の解析も出来ますよ。

例えば、商品の扱いやすさ(横軸)と商品の使用頻度(縦軸)には有意な相関がある、という仮説を検定する。とかです。アンケートでは、いずれも(扱いやすさも使用頻度も)5段階評価で回答してもらい、解析に掛けます。

横軸は商品の扱いやすさですが、さすがにここを商品A,B,Cにはできないだろう、と思ったのですが、そもそも複数回答について誤解なさってみえたので、そこを回答しました。

太郎丸先生の「カテゴリカル・データ解析入門」という本には、そのような解析方法が種々紹介されています。
「複数選択可としたクラメールの連関係数の算」の回答画像5
    • good
    • 1
この回答へのお礼

様々な角度からアドバイスいただき、誠にありがとうございます。
残念ながら、商品を順序カテゴリ化はできないので、こちらでご提案いただいた方法は実施できないのですが、今回の統計処理で自身の無知を思い知ったので、ご教示いただいた本、読んでみます!

お礼日時:2022/03/08 17:46

老婆心ながら、



ピアソンの適合度の検定を使って、分布への適合性を調べるとき、

①理論値や先行文献などの確率分布を使うなら、自由度は1減らせば良いですが、
②現サンプルから計算した確率分布を使うのであれば、自由度は2減らさないといけません。

①はΣ(期待度数)=全サンプル数n という線形制約が入るため、
②はΣ(x-np)=0 という観測値xについても線形制約が入るからです。

また、独立性の検定を行うときは、イェーツの補正を入れて下さいませ。張って頂いたリンク先に説明があります。

解析ソフトを使えば、オプションで選択できるはずです。
    • good
    • 1

>回答者が重複しますが、問題ないんですね。



パネル属性を分析に加味しないのであれば、問題ありませんが、商品によって、男性女性がアンバランスだったり年齢がアンバランスだと、それによるサンプルセレクション・バイアスが入りますので、注意深く解析する必要があります。

>商品×使用頻度はどちらも名義尺度

使用頻度は量的尺度ですよ。それが、アンケート設計の都合で連続的ではなく離散値になっているだけです。ヒストグラムのように階級を作ってまとめられていると考えて下さい。

リンク先の事例は所得を質的因子として扱っていますが、これは集団特徴に対するラベリング(集団への名付け)だと思ってい下さい。本当に収入に依存するとは考えておらず、資産のある人無い人的な線引きです。

もし、このアンケートも、いつも手に取ることができる場所にある、普段はしまっている、どこにあるか探さないと分からない、と言うのであれば使用時間ではなく、使用頻度に関する線引きですよね。
この回答への補足あり
    • good
    • 1

「年1回以下」なんて買った意味が無いような選択肢を設けましたね。

その項が0になったときの解析を考えると、重い課題が残るような気がします。
全て0になってくれて、無視できることを祈ります。

あと、これは複数選択可のアンケート解析には該当しません。

それはさておき、

・持っている商品の組合せが使用時間へ影響を与えるという仮説を検定したいのですか?
例えば、ルンバを持っていると、ダイソンの掃除機は全く使わないとか。

・あるいは商品毎に使用頻度が異なるという仮説を検定したいのですか?
電子レンジは毎日使用されるが、電気圧力鍋は週1でしか使われないとか。

クロス表のイメージを見ると、後者ですね。だって、パネラ属性が入ってないですから。
そうであれば、複数回答可の解析には全く該当しません。影響ないです。

そのまま、
・全体の比率を与えた、ピアソンの適合度の検定
・2商品間の独立性の検定
で解析します。


もし、前者のように複数所有部分を活用した調査をするのであれば、分割というか「層別」です。興味の対象は、AB所有者、AC所有者、BC所有者だけで、単品と3つとも持っている人は除きます。

例えば、BC所有者だけは、両者を使用する頻度が異なるという仮説を検定したい(ルンバを持っていると、ダイソンの掃除機は全く使わない)とかです。それぞれのクラスで、商品間の独立性の検定を行います。
ただし、この場合は十分な観察データが必要ですね。


蛇足ですが・・・、

本当の意味での複数選択可というのは、「あなたの興味があるお稽古ごとはどれですか(複数回答可)」というような質問で、選択肢が20くらいあるものです。

これは、全く違う解析になります。共起図とか、ワードクラウドとかを作ります。「共起図」「共起グラフ」「ワードクラウド」「タグクラウド」で検索してみて下さい。
この回答への補足あり
    • good
    • 1

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!