統計：一部が重複する変数の取扱い

解決済

質問者：tt9
質問日時：2019/02/16 10:44
回答数：3件

それぞれに背景を持った20の個体から採取したサンプルが100あり、100の変数を扱うことになりましたが、このうちの20の個体の年齢や性別といった背景を変数を組み込むため、100の変数にあわせようとすると5倍に重複した変数が生まれてしまいます。これは有意差検定や多変量解析などの統計処理にどのような影響をおよぼすのでしょうか？この方法が妥当であるのか、間違っているのならばどのようにすべきなのかを教えていただきたいです。調べてみたのですがなかなか答えがみつからず、おそらく基本が理解できていないのかもしれませんが、アドバイスをいただきたくお願い致します。

10人のアンケートで例えるとしたら、「10人中の6人がアンケートを3回受けてその都度ランダムに答えが違っていた場合、アンケート結果が22個（6人×3回＋4人×1回）そろった」というものです。この場合、6人の結果が重複していることになり、この人たちから抽出したアンケート結果の性別や年齢も重複することになるので、重複回答をしたひとりの人物の答えがまるで同性で同年齢のひと3人分のものと同一のものと扱われてしまうことになり、それは全体の解釈を曲げてしまうのではないかと心配したのです。
すなわち、変数としては年齢が10個、性別が10個、アンケート結果が22個ということになり、これをアンケート結果にあわせると、年齢が22個、性別が22個、アンケート結果が22個になりますが、このうちの年齢と性別の12個（22個－10個）ずつが同じになっているという事です。

補足日時：2019/02/18 09:15
通報する

通報する

この質問への回答は締め切られました。

質問の本文を隠す

回答 (3件)

No.1

回答者： t_fumiaki
回答日時：2019/02/16 13:23

言いたい事が良く解りませんが、それぞれの属性毎に検定するのでは無いですか？

100個の碁石が有って、直径、重さの属性を考えると全部で200サンプル。

で、大きさ(直径)の有意を検定するなら、200サンプルから径の属性だけに着目するとか、重さの属性だけに着目するとか、じゃ無いんですか？

重複回答式アンケートの統計処理と同じなのでは？

- 0
- 件

通報する

この回答へのお礼

回答有難うございます。分かり難くて申し訳ありません。
10人のアンケートで例えるとしたら、「10人中の6人がアンケートを3回受けてその都度ランダムに答えが違っていた場合、アンケート結果が22個（6人×3回＋4人×1回）そろった」というものです。この場合、6人の結果が重複していることになり、この人たちから抽出したアンケート結果の性別や年齢も重複することになるので、重複回答をしたひとりの人物の答えがまるで同性で同年齢のひと3人分のものと同一のものと扱われてしまうことになり、それは全体の解釈を曲げてしまうのではないかと心配したのです。
すなわち、変数としては年齢が10個、性別が10個、アンケート結果が22個ということになり、これをアンケート結果にあわせると、年齢が22個、性別が22個、アンケート結果が22個になりますが、このうちの年齢と性別の12個（22個－10個）ずつが同じになっているという事です。
こういったとき、その22個すべてを解析対象とするべきなのか、3回の結果の中から代表的な数値？をひとつ選択して10個の結果として解析すべきなのか、重複回答をしたひとは数値を平均化して10個の結果として解析すべきなのか、迷っております。

通報する

お礼日時：2019/02/18 09:15

No.2

回答者： stomachman
回答日時：2019/02/19 19:27

普通にあることで、決して例外的な話ではありませんよ。

　ご質問の場合、20人分のデータが得られたものとして扱います。ひとりあたり1項目あたり5セットのデータは、ひとつの5次元ベクトルvで表します。Aさんの項目Xのデータはv(A,X)、Bさんの項目Yのデータはv(B,Y)という風になる。典型的には、学習効果や態度の変化など、個人のアウトプットに時間的変化がある場合に、ベクトルで表されるデータになります。
　このデータをどう要約するか（あるいは要約しないか）は状況と目的に合わせて設計すべきものです。補足にお書きのようにアンケートの答えが単にランダムに変動したと考えられる場合なら、アンケートの項目の回答がYesかNoかであるとき、たとえば「Aさんがアンケート項目Xに(Yes,No,No,Yes,Yes)と答えた」というのがベクトルv(A,X)になるわけですが、さらにこのベクトルv(A,X)を要約して「Aさんがアンケート項目XにYesと答えた相対頻度」f(A,X)=0.6 をデータだとみなすこともできるでしょう。また、たとえば回答が順位尺度（1〜4とか）なら（ちょっと乱暴だけど）要約として平均値を使うということもできましょうし、あるいは要約として(最大値,最小値)とか(平均,標準偏差)などの2次元ベクトルを使うことも考えられるでしょう。

- 0
- 件

通報する

この回答へのお礼

回答有難うございます。このようなデータは多次元的な要素となること、その要約は目的に合わせて行うべきことがよく理解できました。5次元ベクトルvは概念として分かるのですが、操作する変数としては取扱いのイメージがわきませんでした。ダミー変数のようなものなのでしょうか。
実際には生体試料を解析した連続変数と、各個体の2値変数を含むプロファイルを持っているのですが、これをどうやってベクトルデータに変換するのかは理解がおよびませんでした。私にはもう少し勉強が必要なようです。

通報する

お礼日時：2019/02/23 16:47

No.3ベストアンサー

回答者： stomachman
回答日時：2019/02/23 21:13

No.2へのコメントについてです。

　「不完全データの統計解析」の技法は（専門書がいくつか出ていますが）要するに「データが不揃いなら、なんとか修理しちゃえ」ということをやるんです。
　補足なさったような状況では、ざっくり分けて2通りの考え方ができると思います。
(1) 本来、重複してアンケートに答えたのはマチガイであったから、最初の1回だけをデータと考え（あとは捨てて）解析する。
(2) 本来アンケートに3回答えるべきところを、1回しか取れなかったのだから、データの欠測と考え、これを推定で補って解析する。（同じものをあと2つコピーして済ませるほか、3回答えた人のデータから回答のバラツキを推定して、コピーにこのバラツキに相当するノイズを加える、という方法も考えられます。）
　どうするのが適切かは、どんな解析をしたいかに大いに依るでしょう。

- 0
- 件

通報する

この回答へのお礼

わかりやすく丁寧にお答えいただき本当に有難うございます。欠損値の補正方法は査読者からの質問に答えられるだけの知識が無いため、今日まで常に欠損値を除外して解析してきました。ご教示頂いた2つの考え方は私にも理解することができました。
今回のケースでは各個体ごとに生体試料を解析した連続変数（x）が1～4個ずつあったのでそれにあわせて個体プロファイルの2値変数（y）をコピーしたのですが、この2値変数が欠損値であったとすれば、こういうやり方も場合によっては妥当性があるということだと理解しました。
当初から疑問だったのは、個体Aでは変数（x,y）が2つ、個体Bでは変数（x,y）が4つ、個体Cでは変数（x,y）が1つ、といった風になるのが妥当なのかという事でした。このような不均一性が解析結果に影響するなら、変数が4つ揃った個体だけを選択して多変量解析するべきなのかを迷ったことがこの質問の意図になります。

通報する

お礼日時：2019/02/25 11:23

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう！