仮想の分析課題・データを使うことをお許しください。
投票について以下の仮想データがあり、「年齢別に投票参加率を計算する」ことを考えています。
<全体(人)>
年齢層,投票参加,不参加,合計
20代,750,800,1550
30代,600,700,1300
40代,450,500,950
50代,400,600,1000
<女性(人)>
年齢層,投票参加,不参加,合計
20代,250,500,750
30代,200,400,600
40代,150,300,450
50代,100,300,400
合計,700,1500,2200
<男性(人)>
年齢層,投票参加,不参加,合計
20代,250,550,800
30代,250,450,700
40代,150,350,500
50代,100,500,600
合計,750,1850,2600
性別・年齢層別の投票参加率は、
年齢層,女性,男性,全体(%)
20代,33.3,31.3,32.3
30代,33.3,35.7,34.6
40代,33.3,30.0,31.6
50代,25.0,16.7,20.0
合計,31.8,28.8,30.2
となります。
しかし、性別で年齢分布に差があります。
年齢層,女性,男性
20代,750,800
30代,600,700
40代,450,500
50代,400,600
P=0.00(カイ二乗検定)=理論値を基準とすると、20代は女性が多く、50代は男性が多い
上記の通り、男性と女性で分布に差があるため、投票参加率に男女の分布を調整(重み付け?)しなければならないと思っていますが、具体的にどのようにすれば良いのか思いつきません。
ご存知の方がおられれば、方法を教えていただけないでしょうか?
よろしくお願いします。
A 回答 (3件)
- 最新から表示
- 回答順に表示
No.3
- 回答日時:
#2です。
回答が遅れてすみません。
私も、最小二乗平均がベストかと聞かれると自信がないというか、研究目的に依りますとしかお答えできません。ですが、「母集団の分布を考慮しろ」という査読意見は尤もだと思います。つまり、この事例では明らかな「サンプルセレクションバイアス」が入っていますので、研究としては恣意的になりますので、私がレフェリーでも修正を求めます。
> 投票参加率に男女の分布を調整(重み付け?)しなければならないと思っていますが、具体的にどのようにすれば良いのか分かりません。
これは当然のことながら、男女に限らず年齢の分布もですよね。
もし私が著者で、査読によって修正を求められたら、このケースでは、ブートストラップ再標本化で対応します。2段サンプリングで、1段目で人口や男女構成比に沿ってどの層を選ぶか決め、2段目でその層の参加・不参加の比に沿ってサンプルを選びます。これで、現在の標本数程度まで再標本化します。いずれも段でも選択基準は乱数を使用します。
Rでスクリプトを書けば、一瞬で終わると思います。
ブートストラップ法は開発者のエフロンや、その盟友へスターブルグによって、平均・分散が保存されることが証明されているので、(具体的に示せなくてすみませんが)論文を参考文献で引っ張っておけば証明なしで使用できると思います。※分散は、有限母集団補正が必要です。
確かに難度の高い問題ですが、あれこれ理論づけするよりも、ある意味、力技でというのが私のアイディアです。最近のデータサイエンス派のジャーナルであれば通用すると思いますが、業界によっては(ジャーナルによっては)アクセプトされない可能性もありますので、参考程度にして下さい。すみません。
ご回答ありがとうございます。
お返事が遅くなりました。
ブートストラップ法をきちんと勉強したことがないので的外れな意見になるかもしれませんが、得られたサンプルからさらにサンプルを得ることになり、分析に使用するサンプル数が激減しないでしょうか?
2段階でリサンプルした標本の結果を、ウェイトバック集計するイメージになるのでしょうか?
No.2
- 回答日時:
企業でSQCを推進する立場の者です。
研究によっては調整が必要です。一般に、サンプリングによるバイアスが入っているようなケースでは、調整された値で論じないと査読は通らないと思います。ご質問者のケースは、まさにこれに該当します。
ちょうど、ひと月ほど前に「最小二乗平均」あるいは「調整平均」に関するご質問があり、私が回答しましたが、これはサンプル数不揃いの場合に、正しい「平均値比較」をするための方法です。
今回のご質問は、比率ですから、一旦ロジット変換などを施してからLSMEANを計算すべきと思います。前回の回答の中に、比率の場合について記述してある市販本を紹介しています。
https://oshiete.goo.ne.jp/qa/10099878.html
また、サンプル数不揃いの「検定」の場合は、TypeⅡの平方和を使う必要があります。これについては、「Rによる保健医療データ解析演習」P177、あるいは「SASによる実験データの解析」P314に載っています。後者の方が詳しいです。
とは言っても、簡単に計算できるわけでなく、高度な行列計算が入ってきます。
やはりSASかRで処理するのが良いかと思います。
ご回答ありがとうございます。
今回の仮想の課題では、どこにバイアスがかかっているのかが、実はよくわかりません。
「投票したかどうか」というのは、ある意味で悉皆調査をしているのと同じですので、バイアスが見当たらないと思います。
(分野によってバイアスの考え方は少し違う可能性があることをも合わせて記載しておきます。)
仮想データがサンプルで、その後ろにもっと大きな母集団があるとすれば、ある意味で調整するのは簡単ですが、「2つの悉皆調査を合わせる」ようなイメージの課題設定をしてしまったので、一気に難度が上がってしまいました。
アドバイスをいただいたロジット変換からの最小二乗平均は、意味はわかりますが今回のテーマとは少し違うような感じがします。
いかがでしょうか?
反実仮想による推測の応用の方がイメージは近そうですが、明確な根拠はありません。
もう少し、ロジット変換からの最小二乗平均がベストな選択である理由をお聞かせいただけないでしょうか?
今回は、何かを検定するところまで想定していなかったので、アドバイスをいただいた後者については一旦保留させてください。
No.1
- 回答日時:
詳しい中身は分かりませんが、「投票参加率に男女の分布を調整(重み付け?)する」ということは、せっかく得られている「生データ」を人為的に加工することになります。
きちんと妥当性を確認した上での「補正」でないと、「意図的なデータ改ざん」と同じ結果になってしまいます。本当に「男女の分布」を補正しないといけないのか、そもそも「男女で投票参加率に有意な差があるのか」「目的からしてその差の補正が必須なものか」といったことも含めてきちんと検定するなどの前提が必要かと思います。
漠然とした回答ですみません。
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
似たような質問が見つかりました
- 統計学 前回イベントと今回イベントのデータ集計について 質問させてください。 イベント参加者の内アンケートを 3 2022/09/30 22:23
- 事件・事故 参政党、若い人ほど高い人気 3 2022/07/12 18:07
- 統計学 婚活パーティでマッチングするかしないかを確率で出す方法 1 2023/01/24 12:41
- 電車・路線・地下鉄 大人の休日倶楽部ジパングの入会資格、男性65歳以上 女性60歳以上 男性差別では? 1 2022/04/05 00:48
- 高齢者・シニア 屋外立食パーティーのトイレ問題 1 2023/06/19 07:53
- 政治 何故、立民は維新のように、党首選で一票の格差を無くさないのですか? 3 2022/07/31 09:19
- モテる・モテたい 社会における格差って女性より男性の方が開きが大きいと思いませんか?弱者男性という言葉がインターネット 3 2022/11/05 11:39
- 婚活 婚活パーティーに参加を考えています。 最近になって結婚を考えるようになり、27までに子供を授かりたい 4 2022/08/05 18:45
- 婚活 婚活って何歳くらいから始めるべきですか? 20代前半女で、彼氏いません。 子供は2人〜3人欲しいと思 4 2022/05/17 21:19
- 事件・犯罪 コロナ渦での飲み会で泥酔した社員を解雇することの正当性について 2 2022/05/02 09:55
おすすめ情報
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
統計学の基本的なことについて...
-
EXCELにてローパスフィルタを作...
-
検量線の決定係数について
-
心理機能診断をしたのですが、...
-
サンプル数の異なる2群間にお...
-
エクセルのグラフから半値幅を...
-
下の対数表示のグラフから低域...
-
最小二乗法を反比例の式を元に...
-
溶解度の問題 理科
-
心理学の統計について
-
死傷者数と死者数の違いって何...
-
v-xグラフのようなものは描けま...
-
検定統計量の値がマイナス
-
統計について
-
z値p値とはなんですか?
-
【統計】有意に「高い」?「低...
-
統計学のサンプル数2000の根拠は?
-
理科のグラフで、直線と曲線の...
-
相関係数
-
母比率の差の検定の英語名
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
EXCELにてローパスフィルタを作...
-
サンプル数の異なる2群間にお...
-
心理機能診断をしたのですが、...
-
エクセルでランダム関数で乱数...
-
ブラック・ショールズ方程式を...
-
複数の集団の全体平均が0より有...
-
検量線の決定係数について
-
ポアソン回帰でのカウントデー...
-
青い下線部分はなぜそうなるの...
-
統計学の問題でわからないので...
-
[Excel] リストからの無作為抽出
-
x^2+y^2はどのような分布をする?
-
エクセルのグラフから半値幅を...
-
統計について
-
極値をもつ時と持たない時、単...
-
エクセルで正規分布かどうかを...
-
パイロットサンプルって何ですか?
-
データが正規分布しているか判...
-
回帰分析の回帰係数のt検定
-
正規分布について
おすすめ情報
ご回答ありがとうございます。
知人が論文作成の際に母集団の分布を考慮するように指摘を受けていたそうで、自分ならどのような手順を踏むのかを考えるための、仮想の分析課題とデータですので、詳細についてはご容赦ください。
死亡率の種類で「年齢調整死亡率」という、得られたデータを基準人口に当てはめて算出するものがあります。
http://www.mhlw.go.jp/toukei/saikin/hw/jinkou/ot …
年齢調整死亡率は得られたサンプルデータと基準人口の二つだけですが、仮想の分析課題のように、性質の異なる母集団があった場合はどのように対応するのが良いのか考えていましたが、結論に到達しなかったので、質問した次第です。
仮想データの1番目が間違っていました。
正しくは、下記のとおりです。
・・・・・
<全体(人)>※修正
年齢層,投票参加,不参加,合計
20代,500,1050,1550
30代,450,850,1300
40代,300,650,950
50代,200,800,1000
<女性(人)>※そのまま
年齢層,投票参加,不参加,合計
20代,250,500,750
30代,200,400,600
40代,150,300,450
50代,100,300,400
合計,700,1500,2200
<男性(人)>※そのまま
年齢層,投票参加,不参加,合計
20代,250,550,800
30代,250,450,700
40代,150,350,500
50代,100,500,600
合計,750,1850,2600
・・・・・
大変失礼しました。