Stataを使った計量分析をしています。
ある基本となるデータシートAに、追加的に別のシート(B, C, D, ...)をjoinbyコードを使って接合しながら分析をしています。
サンプル数を仮に1,000とします。
基本となるデータシートAには、世帯ID、個人ID、性別の3種類の情報が入っているとします。
世帯ID 個人ID 性別
1 1 1 (1人目)
1 2 2 (2人目)
1 3 1 (3人目)
2 1 1 (4人目)
・
・
250 4 1 (1,000人目)
これとデータBをjoin byコードを使って接合するとします。データBには、世帯IDと個人ID、年齢、最終学歴年数が入っているとします。世帯IDと個人IDを使ってjoinするとします。(join by hhid personid データ名) ただし、年齢には欠損値があって、仮に250人の年齢は欠損しているとします。教育は1,000人分あるとします。
世帯ID 個人ID 性別 年齢 教育
1 1 1 45 10 (1人目)
1 2 2 # 7 (2人目)
1 3 1 12 5 (3人目)
2 1 1 39 8 (4人目)
・
・
250 4 1 # 6 (1,000人目)
つまり、世帯1個人2さんのように欠損している(#マーク)人が250人と考えます。
もしここで教育年数を、年齢と性別で説明する回帰モデルを考えたとします。
Y=a+b(年齢)+c(性別)+u
そうすると、説明変数の「性別」と被説明変数の「教育」は1,000人フルにあるのに対し、説明変数の「年齢」は750人しかいないために、この回帰分析はn=750になり、250人分のデータが使えずに死んでしまい、データを非効率に使っていることになります。
もし、「年齢」が欠損が250人いたとしても、それ以外の情報はそろっているとしたら、不完全ながらもその250人を回帰分析に使い、サンプルnを1,000人のままにしたいと考えます。
このような場合、年齢についてはどのような処理をしたらいいでしょうか?
No.1ベストアンサー
- 回答日時:
欠測値に適当な値を代入して完全データにする、という手法があることはありますが、あまりにmissingが多すぎるので個人的には勧めたくはないですね。
missing data regressionなどというキーワードを使うといろいろ出てきます。
参考URLも見てください。Multiple Imputationは最近はSASのような統計ソフトでも実装されている手法で、その意味では多重代入法は実用化されていると考えても良いとは思いますが、欠測がランダムであるか、など事前の検討は欠かせません。
MCAR (Missing Completely At Random), MAR (Missing At Random) などの言葉もキーにして調べると良いと思います。
参考URL:http://en.wikipedia.org/wiki/Imputation_(statist …
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
似たような質問が見つかりました
- その他(セキュリティ) 匿名チャットアプリ トラッキング 個人情報について 1 2023/03/29 20:35
- ハッキング・フィッシング詐欺 スマホアプリのトラッキング 個人情報について 5 2023/03/31 08:16
- その他(セキュリティ) 匿名チャットアプリでの知られたくない会話 個人情報について 1 2023/03/29 18:08
- 統計学 アンケート調査のデータ比較をする際の統計分析方法の選択に迷っています 5 2022/04/15 01:05
- その他(IT・Webサービス) スマホアプリのトラッキングについて詳しい方教えてください 1 2023/04/15 10:38
- 統計学 混合効果モデルについて 3 2022/05/31 21:00
- その他(データベース) pythonでsqlight勉強中、クエリー結果の利用法教えて下さい 1 2022/04/28 20:38
- 心理学 満足度調査の回帰分析 0 2023/05/11 08:39
- C言語・C++・C# C言語初心者です、、、お助けください 2 2023/03/14 20:08
- その他(IT・Webサービス) スマホアプリのトラッキングについて知りたいです 2 2023/04/12 04:17
おすすめ情報
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
ローリング回帰とはなんですか?
-
回帰分析の結果
-
クロスカントリー分析・クロス...
-
【数学・標準偏差σ】標準偏差の...
-
イケメンに生まれる確率と、金...
-
統計学の問題なんですが・・・
-
重複順列
-
4つのサイコロを同時に振って...
-
数学の問題で4C0の答えを教えて...
-
一般常識を教えてください。1割...
-
ほぼ確実って、どういう意味で...
-
5人の人々を3人と2人のグループ...
-
3σについて教えてください(基...
-
効果量のマイナス表示に関して
-
2択問題の正解確率について
-
3つのサイコロを振って出た目の...
-
P(A|B)などの読み方
-
a.b.c.d.eの5個から3個を選んで...
-
2つのサイコロの目の合計が偶数...
-
「○○通りのパターンがある」の...
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
近似直線の傾き同士の相関
-
クロスカントリー分析・クロス...
-
イベントスタディ分析
-
計量経済の問題
-
重回帰分析におけるP値とデー...
-
GDP統計の「寄与度」、「寄与率」
-
回帰分析の時に対数をとる意味は?
-
因子分析における因子得点の解...
-
相関係数の特徴
-
回帰分析の際のデータの指数化
-
回帰分析の目的変数と説明変数...
-
夏に気温が上がるとビールの売...
-
統計ソフトRの重回帰分析で困っ...
-
ローリング回帰とはなんですか?
-
回帰分析:理論値と実績値の差...
-
モンテカルロシュミレーション...
-
4つのサイコロを同時に振って...
-
重複順列
-
統計学の問題なんですが・・・
-
2つのサイコロの目の合計が偶数...
おすすめ情報