それぞれに背景を持った20の個体から採取したサンプルが100あり、100の変数を扱うことになりましたが、このうちの20の個体の年齢や性別といった背景を変数を組み込むため、100の変数にあわせようとすると5倍に重複した変数が生まれてしまいます。これは有意差検定や多変量解析などの統計処理にどのような影響をおよぼすのでしょうか?この方法が妥当であるのか、間違っているのならばどのようにすべきなのかを教えていただきたいです。調べてみたのですがなかなか答えがみつからず、おそらく基本が理解できていないのかもしれませんが、アドバイスをいただきたくお願い致します。
No.1
- 回答日時:
言いたい事が良く解りませんが、それぞれの属性毎に検定するのでは無いですか?
100個の碁石が有って、直径、重さの属性を考えると全部で200サンプル。
で、大きさ(直径)の有意を検定するなら、200サンプルから径の属性だけに着目するとか、重さの属性だけに着目するとか、じゃ無いんですか?
重複回答式アンケートの統計処理と同じなのでは?
回答有難うございます。分かり難くて申し訳ありません。
10人のアンケートで例えるとしたら、「10人中の6人がアンケートを3回受けてその都度ランダムに答えが違っていた場合、アンケート結果が22個(6人×3回+4人×1回)そろった」というものです。この場合、6人の結果が重複していることになり、この人たちから抽出したアンケート結果の性別や年齢も重複することになるので、重複回答をしたひとりの人物の答えがまるで同性で同年齢のひと3人分のものと同一のものと扱われてしまうことになり、それは全体の解釈を曲げてしまうのではないかと心配したのです。
すなわち、変数としては年齢が10個、性別が10個、アンケート結果が22個ということになり、これをアンケート結果にあわせると、年齢が22個、性別が22個、アンケート結果が22個になりますが、このうちの年齢と性別の12個(22個-10個)ずつが同じになっているという事です。
こういったとき、その22個すべてを解析対象とするべきなのか、3回の結果の中から代表的な数値?をひとつ選択して10個の結果として解析すべきなのか、重複回答をしたひとは数値を平均化して10個の結果として解析すべきなのか、迷っております。
No.2
- 回答日時:
普通にあることで、決して例外的な話ではありませんよ。
ご質問の場合、20人分のデータが得られたものとして扱います。ひとりあたり1項目あたり5セットのデータは、ひとつの5次元ベクトルvで表します。Aさんの項目Xのデータはv(A,X)、Bさんの項目Yのデータはv(B,Y)という風になる。典型的には、学習効果や態度の変化など、個人のアウトプットに時間的変化がある場合に、ベクトルで表されるデータになります。
このデータをどう要約するか(あるいは要約しないか)は状況と目的に合わせて設計すべきものです。補足にお書きのようにアンケートの答えが単にランダムに変動したと考えられる場合なら、アンケートの項目の回答がYesかNoかであるとき、たとえば「Aさんがアンケート項目Xに(Yes,No,No,Yes,Yes)と答えた」というのがベクトルv(A,X)になるわけですが、さらにこのベクトルv(A,X)を要約して「Aさんがアンケート項目XにYesと答えた相対頻度」f(A,X)=0.6 をデータだとみなすこともできるでしょう。また、たとえば回答が順位尺度(1〜4とか)なら(ちょっと乱暴だけど)要約として平均値を使うということもできましょうし、あるいは要約として(最大値,最小値)とか(平均,標準偏差)などの2次元ベクトルを使うことも考えられるでしょう。
回答有難うございます。このようなデータは多次元的な要素となること、その要約は目的に合わせて行うべきことがよく理解できました。5次元ベクトルvは概念として分かるのですが、操作する変数としては取扱いのイメージがわきませんでした。ダミー変数のようなものなのでしょうか。
実際には生体試料を解析した連続変数と、各個体の2値変数を含むプロファイルを持っているのですが、これをどうやってベクトルデータに変換するのかは理解がおよびませんでした。私にはもう少し勉強が必要なようです。
No.3ベストアンサー
- 回答日時:
No.2へのコメントについてです。
「不完全データの統計解析」の技法は(専門書がいくつか出ていますが)要するに「データが不揃いなら、なんとか修理しちゃえ」ということをやるんです。
補足なさったような状況では、ざっくり分けて2通りの考え方ができると思います。
(1) 本来、重複してアンケートに答えたのはマチガイであったから、最初の1回だけをデータと考え(あとは捨てて)解析する。
(2) 本来アンケートに3回答えるべきところを、1回しか取れなかったのだから、データの欠測と考え、これを推定で補って解析する。(同じものをあと2つコピーして済ませるほか、3回答えた人のデータから回答のバラツキを推定して、コピーにこのバラツキに相当するノイズを加える、という方法も考えられます。)
どうするのが適切かは、どんな解析をしたいかに大いに依るでしょう。
わかりやすく丁寧にお答えいただき本当に有難うございます。欠損値の補正方法は査読者からの質問に答えられるだけの知識が無いため、今日まで常に欠損値を除外して解析してきました。ご教示頂いた2つの考え方は私にも理解することができました。
今回のケースでは各個体ごとに生体試料を解析した連続変数(x)が1~4個ずつあったのでそれにあわせて個体プロファイルの2値変数(y)をコピーしたのですが、この2値変数が欠損値であったとすれば、こういうやり方も場合によっては妥当性があるということだと理解しました。
当初から疑問だったのは、個体Aでは変数(x,y)が2つ、個体Bでは変数(x,y)が4つ、個体Cでは変数(x,y)が1つ、といった風になるのが妥当なのかという事でした。このような不均一性が解析結果に影響するなら、変数が4つ揃った個体だけを選択して多変量解析するべきなのかを迷ったことがこの質問の意図になります。
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
似たような質問が見つかりました
- 大学・短大 大学 統計学 2 2022/09/18 15:06
- 統計学 加重最小二乗法=①「変数を自然対数変換」=②「誤差項の分散の逆数を重み付け」? 8 2022/11/26 11:15
- 統計学 t検定について教えてください 2 2023/02/23 16:35
- 物理学 時間を語るなら、(複数の時間の正体)を知る必要が有る。 1 2023/02/16 22:14
- 統計学 どの統計を使えばいいのか教えてください(EZ-Rを使用) 5 2022/10/11 13:28
- 教育・学術・研究 仕事の方向性を変えたい。経営分析→数値解析 1 2023/06/18 16:51
- 中途・キャリア さて、社会人になってから13年目。 今まで、機械設計、機械製品の品質管理、部門の経営企画をやってきま 4 2023/07/17 08:59
- 数学 モデルのパラメータの定義がいまいちわかりません。 3 2022/10/11 15:16
- 物理学 流体力学の勉強方法 2 2023/04/25 23:18
- 物理学 統計力学における平衡状態の定義について 4 2022/12/27 01:47
おすすめ情報
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
サンプル数の異なる2群間にお...
-
EXCELにてローパスフィルタを作...
-
脳波(EEG)の周波数は0.5~60Hzで...
-
検量線の決定係数について
-
統計学 1.二特性相関について。...
-
エクセルのグラフから半値幅を...
-
下の対数表示のグラフから低域...
-
最小二乗法を反比例の式を元に...
-
心理機能診断をしたのですが、...
-
片対数グラフで…
-
吸光度と透過度
-
変化率のみで、有意差の検定は...
-
死傷者数と死者数の違いって何...
-
アンケートの集計分析の基礎(...
-
複数の集団の全体平均が0より有...
-
極値をもつ時と持たない時、単...
-
実験データの統計と検定でかな...
-
片対数グラフと傾き・切片の出し方
-
正規分布について
-
ブラック・ショールズ方程式を...
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
EXCELにてローパスフィルタを作...
-
サンプル数の異なる2群間にお...
-
心理機能診断をしたのですが、...
-
検量線の決定係数について
-
下の対数表示のグラフから低域...
-
エクセルのグラフから半値幅を...
-
x^2+y^2はどのような分布をする?
-
検定統計量の値がマイナス
-
統計について
-
【統計】有意に「高い」?「低...
-
統計学の基本的なことについて...
-
最小二乗法を反比例の式を元に...
-
心理学の統計について
-
ポアソン回帰でのカウントデー...
-
[Excel] リストからの無作為抽出
-
対数グラフの対数とは・・・?
-
極値をもつ時と持たない時、単...
-
対数目盛の読み方を教えてください
-
溶解度の問題 理科
-
正規分布について
おすすめ情報
10人のアンケートで例えるとしたら、「10人中の6人がアンケートを3回受けてその都度ランダムに答えが違っていた場合、アンケート結果が22個(6人×3回+4人×1回)そろった」というものです。この場合、6人の結果が重複していることになり、この人たちから抽出したアンケート結果の性別や年齢も重複することになるので、重複回答をしたひとりの人物の答えがまるで同性で同年齢のひと3人分のものと同一のものと扱われてしまうことになり、それは全体の解釈を曲げてしまうのではないかと心配したのです。
すなわち、変数としては年齢が10個、性別が10個、アンケート結果が22個ということになり、これをアンケート結果にあわせると、年齢が22個、性別が22個、アンケート結果が22個になりますが、このうちの年齢と性別の12個(22個-10個)ずつが同じになっているという事です。