仮想の分析課題・データを使うことをお許しください。
投票について以下の仮想データがあり、「年齢別に投票参加率を計算する」ことを考えています。
<全体(人)>
年齢層,投票参加,不参加,合計
20代,750,800,1550
30代,600,700,1300
40代,450,500,950
50代,400,600,1000
<女性(人)>
年齢層,投票参加,不参加,合計
20代,250,500,750
30代,200,400,600
40代,150,300,450
50代,100,300,400
合計,700,1500,2200
<男性(人)>
年齢層,投票参加,不参加,合計
20代,250,550,800
30代,250,450,700
40代,150,350,500
50代,100,500,600
合計,750,1850,2600
性別・年齢層別の投票参加率は、
年齢層,女性,男性,全体(%)
20代,33.3,31.3,32.3
30代,33.3,35.7,34.6
40代,33.3,30.0,31.6
50代,25.0,16.7,20.0
合計,31.8,28.8,30.2
となります。
しかし、性別で年齢分布に差があります。
年齢層,女性,男性
20代,750,800
30代,600,700
40代,450,500
50代,400,600
P=0.00(カイ二乗検定)=理論値を基準とすると、20代は女性が多く、50代は男性が多い
上記の通り、男性と女性で分布に差があるため、投票参加率に男女の分布を調整(重み付け?)しなければならないと思っていますが、具体的にどのようにすれば良いのか思いつきません。
ご存知の方がおられれば、方法を教えていただけないでしょうか?
よろしくお願いします。
A 回答 (3件)
- 最新から表示
- 回答順に表示
No.3
- 回答日時:
#2です。
回答が遅れてすみません。
私も、最小二乗平均がベストかと聞かれると自信がないというか、研究目的に依りますとしかお答えできません。ですが、「母集団の分布を考慮しろ」という査読意見は尤もだと思います。つまり、この事例では明らかな「サンプルセレクションバイアス」が入っていますので、研究としては恣意的になりますので、私がレフェリーでも修正を求めます。
> 投票参加率に男女の分布を調整(重み付け?)しなければならないと思っていますが、具体的にどのようにすれば良いのか分かりません。
これは当然のことながら、男女に限らず年齢の分布もですよね。
もし私が著者で、査読によって修正を求められたら、このケースでは、ブートストラップ再標本化で対応します。2段サンプリングで、1段目で人口や男女構成比に沿ってどの層を選ぶか決め、2段目でその層の参加・不参加の比に沿ってサンプルを選びます。これで、現在の標本数程度まで再標本化します。いずれも段でも選択基準は乱数を使用します。
Rでスクリプトを書けば、一瞬で終わると思います。
ブートストラップ法は開発者のエフロンや、その盟友へスターブルグによって、平均・分散が保存されることが証明されているので、(具体的に示せなくてすみませんが)論文を参考文献で引っ張っておけば証明なしで使用できると思います。※分散は、有限母集団補正が必要です。
確かに難度の高い問題ですが、あれこれ理論づけするよりも、ある意味、力技でというのが私のアイディアです。最近のデータサイエンス派のジャーナルであれば通用すると思いますが、業界によっては(ジャーナルによっては)アクセプトされない可能性もありますので、参考程度にして下さい。すみません。
ご回答ありがとうございます。
お返事が遅くなりました。
ブートストラップ法をきちんと勉強したことがないので的外れな意見になるかもしれませんが、得られたサンプルからさらにサンプルを得ることになり、分析に使用するサンプル数が激減しないでしょうか?
2段階でリサンプルした標本の結果を、ウェイトバック集計するイメージになるのでしょうか?
No.2
- 回答日時:
企業でSQCを推進する立場の者です。
研究によっては調整が必要です。一般に、サンプリングによるバイアスが入っているようなケースでは、調整された値で論じないと査読は通らないと思います。ご質問者のケースは、まさにこれに該当します。
ちょうど、ひと月ほど前に「最小二乗平均」あるいは「調整平均」に関するご質問があり、私が回答しましたが、これはサンプル数不揃いの場合に、正しい「平均値比較」をするための方法です。
今回のご質問は、比率ですから、一旦ロジット変換などを施してからLSMEANを計算すべきと思います。前回の回答の中に、比率の場合について記述してある市販本を紹介しています。
https://oshiete.goo.ne.jp/qa/10099878.html
また、サンプル数不揃いの「検定」の場合は、TypeⅡの平方和を使う必要があります。これについては、「Rによる保健医療データ解析演習」P177、あるいは「SASによる実験データの解析」P314に載っています。後者の方が詳しいです。
とは言っても、簡単に計算できるわけでなく、高度な行列計算が入ってきます。
やはりSASかRで処理するのが良いかと思います。
ご回答ありがとうございます。
今回の仮想の課題では、どこにバイアスがかかっているのかが、実はよくわかりません。
「投票したかどうか」というのは、ある意味で悉皆調査をしているのと同じですので、バイアスが見当たらないと思います。
(分野によってバイアスの考え方は少し違う可能性があることをも合わせて記載しておきます。)
仮想データがサンプルで、その後ろにもっと大きな母集団があるとすれば、ある意味で調整するのは簡単ですが、「2つの悉皆調査を合わせる」ようなイメージの課題設定をしてしまったので、一気に難度が上がってしまいました。
アドバイスをいただいたロジット変換からの最小二乗平均は、意味はわかりますが今回のテーマとは少し違うような感じがします。
いかがでしょうか?
反実仮想による推測の応用の方がイメージは近そうですが、明確な根拠はありません。
もう少し、ロジット変換からの最小二乗平均がベストな選択である理由をお聞かせいただけないでしょうか?
今回は、何かを検定するところまで想定していなかったので、アドバイスをいただいた後者については一旦保留させてください。
No.1
- 回答日時:
詳しい中身は分かりませんが、「投票参加率に男女の分布を調整(重み付け?)する」ということは、せっかく得られている「生データ」を人為的に加工することになります。
きちんと妥当性を確認した上での「補正」でないと、「意図的なデータ改ざん」と同じ結果になってしまいます。本当に「男女の分布」を補正しないといけないのか、そもそも「男女で投票参加率に有意な差があるのか」「目的からしてその差の補正が必須なものか」といったことも含めてきちんと検定するなどの前提が必要かと思います。
漠然とした回答ですみません。
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
おすすめ情報
- ・漫画をレンタルでお得に読める!
- ・人生のプチ美学を教えてください!!
- ・10秒目をつむったら…
- ・あなたの習慣について教えてください!!
- ・牛、豚、鶏、どれか一つ食べられなくなるとしたら?
- ・【大喜利】【投稿~9/18】 おとぎ話『桃太郎』の知られざるエピソード
- ・街中で見かけて「グッときた人」の思い出
- ・「一気に最後まで読んだ」本、教えて下さい!
- ・幼稚園時代「何組」でしたか?
- ・激凹みから立ち直る方法
- ・1つだけ過去を変えられるとしたら?
- ・【あるあるbot連動企画】あるあるbotに投稿したけど採用されなかったあるある募集
- ・【あるあるbot連動企画】フォロワー20万人のアカウントであなたのあるあるを披露してみませんか?
- ・映画のエンドロール観る派?観ない派?
- ・海外旅行から帰ってきたら、まず何を食べる?
- ・誕生日にもらった意外なもの
- ・天使と悪魔選手権
- ・ちょっと先の未来クイズ第2問
- ・【大喜利】【投稿~9/7】 ロボットの住む世界で流行ってる罰ゲームとは?
- ・推しミネラルウォーターはありますか?
- ・都道府県穴埋めゲーム
- ・この人頭いいなと思ったエピソード
- ・準・究極の選択
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
サンプル数の異なる2群間にお...
-
EXCELにてローパスフィルタを作...
-
検量線の決定係数について
-
エクセルの統計でχ二乗検定の結...
-
統計について
-
エクセルのグラフから半値幅を...
-
極値をもつ時と持たない時、単...
-
aを実数の定数とする。二次関数...
-
理科のグラフで、直線と曲線の...
-
【統計】有意に「高い」?「低...
-
信号処理系の分野に詳しい方に...
-
x=2分の3のグラフはどのように...
-
Fisherの正確確率検定について...
-
pHの平均値は出せない?統計処...
-
定積分の問題なんですけど 最小...
-
高校 数学 aを実数の定数とする...
-
単回帰分析と重回帰分析の結果...
-
ヒストグラムの分布形状が二山...
-
アンケートの集計分析の基礎(...
-
2つの数字の有意差
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
サンプル数の異なる2群間にお...
-
EXCELにてローパスフィルタを作...
-
カイ二乗検定
-
エクセルのグラフから半値幅を...
-
統計について
-
検量線の決定係数について
-
3群の比較にχ二乗検定を使う場...
-
【統計】有意に「高い」?「低...
-
エクセルの統計でχ二乗検定の結...
-
ノンパラメトリック検定の多重...
-
パーセンテージの平均値2標本の...
-
パイロットサンプルって何ですか?
-
二次関数の問題です 二次関数 y...
-
理科のグラフで、直線と曲線の...
-
心理機能診断をしたのですが、...
-
アンケートの集計分析の基礎(...
-
変化率のみで、有意差の検定は...
-
検定統計量の値がマイナス
-
極値をもつ時と持たない時、単...
-
最小二乗法を反比例の式を元に...
おすすめ情報
ご回答ありがとうございます。
知人が論文作成の際に母集団の分布を考慮するように指摘を受けていたそうで、自分ならどのような手順を踏むのかを考えるための、仮想の分析課題とデータですので、詳細についてはご容赦ください。
死亡率の種類で「年齢調整死亡率」という、得られたデータを基準人口に当てはめて算出するものがあります。
http://www.mhlw.go.jp/toukei/saikin/hw/jinkou/ot …
年齢調整死亡率は得られたサンプルデータと基準人口の二つだけですが、仮想の分析課題のように、性質の異なる母集団があった場合はどのように対応するのが良いのか考えていましたが、結論に到達しなかったので、質問した次第です。
仮想データの1番目が間違っていました。
正しくは、下記のとおりです。
・・・・・
<全体(人)>※修正
年齢層,投票参加,不参加,合計
20代,500,1050,1550
30代,450,850,1300
40代,300,650,950
50代,200,800,1000
<女性(人)>※そのまま
年齢層,投票参加,不参加,合計
20代,250,500,750
30代,200,400,600
40代,150,300,450
50代,100,300,400
合計,700,1500,2200
<男性(人)>※そのまま
年齢層,投票参加,不参加,合計
20代,250,550,800
30代,250,450,700
40代,150,350,500
50代,100,500,600
合計,750,1850,2600
・・・・・
大変失礼しました。