国勢調査抽出速報での誤差について

Question

国勢調査抽出速報を年齢別に見てみると、住基・推計人口に比べて
20代、30代で人口が少なく、65歳以上で多くなりました。

20-34歳の国勢調査日本人人口が23,820,700人で、推計人口25,225,000 
人より5.6%も少なく、65歳以上の国勢調査日本人人口が26,725,900人で、推計人口25,509,000人より4.8%も多いのです。

1%抽出速報の誤差ってこれほど多く出るのでしょうか？
標本誤差だとしても、年齢層などの偏った誤差が出ることはあるのでしょうか？

国勢調査の抽出速報で計算すると、合計特殊出生率が1.32になりました。
「1.25」と推計人口で計算された数値が新聞にでていましたが、あまりに大きく違うような気がします。

stomachman · Accepted Answer

No.3のmai_choobさんのコメントについてです。

　統計処理を全て紙と鉛筆とそろばんでやっていた時代の「１％抽出速報」と、現代のそれとは明らかに意味が違う筈です。半端な結果を報告するのは一体何のためなんでしょうねえ。

　「調査困難が世帯名簿への世帯の記入順に影響し，これが抽出速報集計の年齢別の抽出割合に関係して，若年層が少なめに，高齢者が多めに集計された可能性」を総務省が言ってますか。
　記入順が影響する可能性があると認めるってことは、すなわち「１％抽出速報は世帯名簿からランダムに抽出したものではない」と自白しているも同然なのです。（本当にランダムなら、記入の順番は推計結果に何の影響も及ぼさない筈ですから。）ということは、１％抽出速報はある期日までに集められたデータだけから抽出しているに違いない、と推測できます。これなら、「調査票の回収に時間の掛かる世代のデータが少なめに出た」ということで、ご質問の現象が説明できますね。

　１％抽出速報の誤差は調査ごとに毎回どう出るのか前もって予想できない、なんてことはない筈です。だから、毎回の誤差の傾向を分析すれば、偏りのあるサンプルを使っても真値に近い推計をする方法を編み出すことが可能です。これは簡単な事です。例えば、「１％抽出速報では、20-24歳人口は5%増しにする」んです。この5%という「補正係数」は過去何回かの調査で生じた誤差の大きさに基づいて、一定の方法で算出し、きちんと公表すればいいんです。
　もちろんそんなことぐらい、統計の専門家集団である統計局は分かってるに違いありません。でもそういう補正はしない。それはきっと、「補正するまでもなく精度が高い」と長年うそぶき続けて来たから今更引っ込みがつかないんじゃないか、と疑われてもしょうがないでしょ。

　それにしても、kokuseihanakoの記事に書いてある、「補定」なるイカサマには、布袋さんのおおらかな笑顔を連想して思わず微笑んでしまいました。まさにテキトーにやっときゃいいじゃんなのね。不定率0.X％以下なんてノルマが全てだったりするんじゃないだろな。（これがもし論文のデータだったら、まさに捏造そのものであり、大問題になるところです。）未回答のデータがあったらあったなりに解析のしようはあるんですが、ウソデータを混入されたら手も足も出ない。
　ま、元来推計に過ぎないものを、有効数字も考えずにそのまま報道するようなマスコミだってケンシキがなく、ナメられてもしょうがないんですけど。（例えば東京都の発表した「地震災害時の帰宅困難者数」が371万人、って、あのな、3桁もの精度で計算できる訳ないでしょうに。http://www.metro.tokyo.jp/INET/OSHIRASE/2002/07/20C71100.HTM）

　年齢別人口分布こそが基本のデータでしょう。これをいじくり回していろんな数字を作り出しているんでしょうけれども、たとえば「合計特殊出生率」は「統計の嘘」の一種じゃないでしょうか。こういう数字を使えば「少子化対策として不妊治療だ出産費用補助だとピンぼけを言っても、なんだかもっともらしく聞こえる」ということではないのかなあ。それこそ笑止化千万。一番重要なのはやっぱり、「子供が何人いるか」じゃないですかね。だから、もし派生的な数字を作るのなら、「共稼ぎしてすら子供ひとりしか育てられないほど貧しい社会になった」ということを測る尺度こそが必要じゃないかと思います。

　一応「数学カテゴリー」なんで、確率統計のごく易しい入門書かウェブサイトをご紹介すべきところなんですが、生憎良書を知りません。ここで質問をお立てになれば結構回答が集まるだろうと思いますが。

stomachman · Answer

訂正です。stomachman、毎度のことですが計算間違いしました。ごめんなない。どうも普段見慣れない桁数に、目が回ったようです。

> 「65歳以上」がrサンプル生じる確率は、平均pN, 分散Np(1-p)の正規分布になります。分散は20万ぐらい、標準偏差で言うとσ=450人程度です。

というところまでは合ってるんですが、標準偏差が450人なのは「サンプル中の65歳以上の人数の標準偏差」ですから、推計に占める65歳以上の人数の標準偏差はこの100倍になります。ですから、

> 4.8%、120万人も多めに出た。つまり2700σ

は大間違いで、

「4.8%、120万人も多めに出た。つまり27σ」

が正解です。で、27σってことですから、これが偶然に生じる可能性はやっぱり、厳密に0です。従って、結論は変わりません。


さて、訂正だけじゃアレですので。
http://www.pref.kumamoto.jp/statistics/siryo/report/data/002/002-03.pdf
てのを見つけました。書いてある検定理論はstomachmanのやり方とぴったり同じですが、どうも結論が違いすぎるようです。何が一番違うかというと、理論を書いておきながら、肝腎の検定だけはしないで結論を述べている、という点です。
　上記PDFの表1は全数集計と抽出速報の差の絶対値を載せています。（が、なんで符号を無視したんでしょうね。）符号を考えながらこの表を眺めてみると、明らかに偏っています。20-44歳の所は全数集計＞抽出速報、他はほとんどがその逆。また、特に20-34歳で差の絶対値が突出して大きくなっています。No.2のご回答の見解の通りかも知れません。（が、あるいは速報には回収が遅いデータは入りにくく、独身者や共働き家庭のデータが遅れがち、ということもあり得るでしょう。）

　誤差率のグラフ図１は、また別の（熊本県の）データを使って示されています。（なんででしょうね。） 集計総数1,859,344人。で、「図1から分かるとおり、概ね誤差率は5%未満の範囲にあり、抽出速報集計結果の精度は高いといえる 」と書いてありますが、精度と呼ぶのもためらわれる異常に大きな誤差、というべき所です。逆にランダムなサンプリングで5%の誤差を許すとするなら、サンプル数は1万8千人分も要らず、せいぜい数百のオーダで足りるはずです。

　検定の理屈については、「○ 推定値の標本誤差」という所に書いてあります。（ちょっとした近似を除くと）stomachmanのやったのと同じことですけれども、「期待される誤差の標準偏差」を真値で割り算した比率「標準誤差率C(X)」で書いてあり、ご丁寧に数表（表4)まで示して計算方法も、2σがどういう意味かも説明してあります。が、肝腎の検定は一切なされていませんし、奇特な人が計算してみてもし27σなんて値が出たときに、それをどう解釈すべきかについても全く書いてありません。

　上記の「65歳以上」の推計の誤差を、PDFにある標準誤差率C(X)で表してみると、0.0017（0.17%)です。これは丁度「1メートルぐらいのものを1mm刻みの物差しで測ったら1-2mmの誤差があった」という程度のことであって、これがC(X)=4.8%となると「５センチぐらい誤差があった」に相当する。ランダムサンプリングとの乖離がありすぎで、方法論に問題があるのは確かでしょう。

　で、このPDF、調査方法の問題点を隠蔽しようとしているようにしか見えません。「嘘は言ってないけど肝腎な事は書かず、無駄に長く分かりにくく記載する」というやりかたで。いやはや、勉強になりました。
　ダレル・ハブ「統計でウソをつく法」ブルーバックス
　J アーヴィン他「虚構の統計」梓出版社
にあるような高等緻密なダマシを駆使するのと比べて芸がなさすぎです。

stomachman · Answer

簡単に検定してみました。

帰無仮説：「1%抽出速報」は、全データから無作為抽出で得られたものである

と仮定しましょう。

全人口T=1.2億人中65歳以上がH=2520万人とすると、ランダム抽出で「65歳以上」に当たる確率は
p = H/T = 0.213
　そして、ランダム抽出したサンプル数Nが全体Tの1%に当たるN=0.01Tのとき、「65歳以上」がrサンプル生じる確率は、平均pN, 分散Np(1-p)の正規分布になります。分散は20万ぐらい、標準偏差で言うとσ=450人程度です。

　で、「1%抽出速報」は全数の統計に比べて4.8%、120万人も多めに出た。つまり2700σってことですから、これが偶然に生じる可能性はもう厳密に0です。

　だから、危険率なしで帰無仮説は棄却できます。すなわち、「1%抽出速報」なるものは、全データから無作為抽出したデータに基づく統計では断然ありえません。
　元になるデータがまるで別物であるとか、サンプリングに酷い偏りがあるとか、あるいはナンカノマチガイだとか、要因は特定できませんけどね。

fronteye · Answer

誤差の検定はしていませんが、確かに良い数値ではありませんね。
でも、これだけ大きな差が生じた原因は推定できます。
おそらく国勢調査の回答率が20-34歳で低く、65歳以上で高いためではないでしょうか。
新聞に載っていましたが、若年層の単身世帯の国勢調査回答拒否が増加しているそうです。

国勢調査抽出速報での誤差について

No.3のmai_choobさんのコメントについてです。

訂正です。

簡単に検定してみました。

誤差の検定はしていませんが、確かに良い数値ではありませんね。

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング

　訂正です。