プロが教える店舗&オフィスのセキュリティ対策術

仮想の分析課題・データを使うことをお許しください。

投票について以下の仮想データがあり、「年齢別に投票参加率を計算する」ことを考えています。
<全体(人)>
年齢層,投票参加,不参加,合計
20代,750,800,1550
30代,600,700,1300
40代,450,500,950
50代,400,600,1000

<女性(人)>
年齢層,投票参加,不参加,合計
20代,250,500,750
30代,200,400,600
40代,150,300,450
50代,100,300,400
合計,700,1500,2200

<男性(人)>
年齢層,投票参加,不参加,合計
20代,250,550,800
30代,250,450,700
40代,150,350,500
50代,100,500,600
合計,750,1850,2600


性別・年齢層別の投票参加率は、
年齢層,女性,男性,全体(%)
20代,33.3,31.3,32.3
30代,33.3,35.7,34.6
40代,33.3,30.0,31.6
50代,25.0,16.7,20.0
合計,31.8,28.8,30.2
となります。

しかし、性別で年齢分布に差があります。
年齢層,女性,男性
20代,750,800
30代,600,700
40代,450,500
50代,400,600
P=0.00(カイ二乗検定)=理論値を基準とすると、20代は女性が多く、50代は男性が多い

上記の通り、男性と女性で分布に差があるため、投票参加率に男女の分布を調整(重み付け?)しなければならないと思っていますが、具体的にどのようにすれば良いのか思いつきません。

ご存知の方がおられれば、方法を教えていただけないでしょうか?
よろしくお願いします。

質問者からの補足コメント

  • ご回答ありがとうございます。

    知人が論文作成の際に母集団の分布を考慮するように指摘を受けていたそうで、自分ならどのような手順を踏むのかを考えるための、仮想の分析課題とデータですので、詳細についてはご容赦ください。

    死亡率の種類で「年齢調整死亡率」という、得られたデータを基準人口に当てはめて算出するものがあります。
    http://www.mhlw.go.jp/toukei/saikin/hw/jinkou/ot …

    年齢調整死亡率は得られたサンプルデータと基準人口の二つだけですが、仮想の分析課題のように、性質の異なる母集団があった場合はどのように対応するのが良いのか考えていましたが、結論に到達しなかったので、質問した次第です。

    No.1の回答に寄せられた補足コメントです。 補足日時:2018/01/23 12:23
  • 仮想データの1番目が間違っていました。
    正しくは、下記のとおりです。

    ・・・・・
    <全体(人)>※修正
    年齢層,投票参加,不参加,合計
    20代,500,1050,1550
    30代,450,850,1300
    40代,300,650,950
    50代,200,800,1000

    <女性(人)>※そのまま
    年齢層,投票参加,不参加,合計
    20代,250,500,750
    30代,200,400,600
    40代,150,300,450
    50代,100,300,400
    合計,700,1500,2200

    <男性(人)>※そのまま
    年齢層,投票参加,不参加,合計
    20代,250,550,800
    30代,250,450,700
    40代,150,350,500
    50代,100,500,600
    合計,750,1850,2600
    ・・・・・

    大変失礼しました。

      補足日時:2018/01/24 12:31

A 回答 (3件)

#2です。


回答が遅れてすみません。

私も、最小二乗平均がベストかと聞かれると自信がないというか、研究目的に依りますとしかお答えできません。ですが、「母集団の分布を考慮しろ」という査読意見は尤もだと思います。つまり、この事例では明らかな「サンプルセレクションバイアス」が入っていますので、研究としては恣意的になりますので、私がレフェリーでも修正を求めます。

> 投票参加率に男女の分布を調整(重み付け?)しなければならないと思っていますが、具体的にどのようにすれば良いのか分かりません。

これは当然のことながら、男女に限らず年齢の分布もですよね。

もし私が著者で、査読によって修正を求められたら、このケースでは、ブートストラップ再標本化で対応します。2段サンプリングで、1段目で人口や男女構成比に沿ってどの層を選ぶか決め、2段目でその層の参加・不参加の比に沿ってサンプルを選びます。これで、現在の標本数程度まで再標本化します。いずれも段でも選択基準は乱数を使用します。
Rでスクリプトを書けば、一瞬で終わると思います。

ブートストラップ法は開発者のエフロンや、その盟友へスターブルグによって、平均・分散が保存されることが証明されているので、(具体的に示せなくてすみませんが)論文を参考文献で引っ張っておけば証明なしで使用できると思います。※分散は、有限母集団補正が必要です。

確かに難度の高い問題ですが、あれこれ理論づけするよりも、ある意味、力技でというのが私のアイディアです。最近のデータサイエンス派のジャーナルであれば通用すると思いますが、業界によっては(ジャーナルによっては)アクセプトされない可能性もありますので、参考程度にして下さい。すみません。
    • good
    • 0
この回答へのお礼

ご回答ありがとうございます。
お返事が遅くなりました。

ブートストラップ法をきちんと勉強したことがないので的外れな意見になるかもしれませんが、得られたサンプルからさらにサンプルを得ることになり、分析に使用するサンプル数が激減しないでしょうか?
2段階でリサンプルした標本の結果を、ウェイトバック集計するイメージになるのでしょうか?

お礼日時:2018/02/05 14:22

企業でSQCを推進する立場の者です。



研究によっては調整が必要です。一般に、サンプリングによるバイアスが入っているようなケースでは、調整された値で論じないと査読は通らないと思います。ご質問者のケースは、まさにこれに該当します。

ちょうど、ひと月ほど前に「最小二乗平均」あるいは「調整平均」に関するご質問があり、私が回答しましたが、これはサンプル数不揃いの場合に、正しい「平均値比較」をするための方法です。
今回のご質問は、比率ですから、一旦ロジット変換などを施してからLSMEANを計算すべきと思います。前回の回答の中に、比率の場合について記述してある市販本を紹介しています。

https://oshiete.goo.ne.jp/qa/10099878.html

また、サンプル数不揃いの「検定」の場合は、TypeⅡの平方和を使う必要があります。これについては、「Rによる保健医療データ解析演習」P177、あるいは「SASによる実験データの解析」P314に載っています。後者の方が詳しいです。
とは言っても、簡単に計算できるわけでなく、高度な行列計算が入ってきます。

やはりSASかRで処理するのが良いかと思います。
    • good
    • 0
この回答へのお礼

ご回答ありがとうございます。

今回の仮想の課題では、どこにバイアスがかかっているのかが、実はよくわかりません。
「投票したかどうか」というのは、ある意味で悉皆調査をしているのと同じですので、バイアスが見当たらないと思います。
(分野によってバイアスの考え方は少し違う可能性があることをも合わせて記載しておきます。)
仮想データがサンプルで、その後ろにもっと大きな母集団があるとすれば、ある意味で調整するのは簡単ですが、「2つの悉皆調査を合わせる」ようなイメージの課題設定をしてしまったので、一気に難度が上がってしまいました。

アドバイスをいただいたロジット変換からの最小二乗平均は、意味はわかりますが今回のテーマとは少し違うような感じがします。
いかがでしょうか?
反実仮想による推測の応用の方がイメージは近そうですが、明確な根拠はありません。
もう少し、ロジット変換からの最小二乗平均がベストな選択である理由をお聞かせいただけないでしょうか?

今回は、何かを検定するところまで想定していなかったので、アドバイスをいただいた後者については一旦保留させてください。

お礼日時:2018/01/24 13:08

詳しい中身は分かりませんが、「投票参加率に男女の分布を調整(重み付け?)する」ということは、せっかく得られている「生データ」を人為的に加工することになります。

きちんと妥当性を確認した上での「補正」でないと、「意図的なデータ改ざん」と同じ結果になってしまいます。

本当に「男女の分布」を補正しないといけないのか、そもそも「男女で投票参加率に有意な差があるのか」「目的からしてその差の補正が必須なものか」といったことも含めてきちんと検定するなどの前提が必要かと思います。

漠然とした回答ですみません。
この回答への補足あり
    • good
    • 0
この回答へのお礼

補足にコメントしてしまっていました。
ご回答どうもありがとうございました。

お礼日時:2018/01/24 12:03

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!