無作為抽出で平均年齢30歳になる確率

Question

無作為抽出で平均年齢30歳になる確率

先程質問を投稿したのですが、題名がおかしなものになったので再度同じものを投稿します。お許しください。
小沢さんを強制起訴する旨、検察審査会の議決が出されました。
この検察審査会の１１名、平均年齢が30.9歳だそうです。若いのにびっくりしました。選出が本当に無作為に行われたのか、疑問に思います。
そこで質問は、20歳以上の日本人（実際は東京都民なのでしょうが）の年齢構成を前提に、無作為に11名を選んだ時、その平均年齢が30歳以下になる確率はどの程度あるだろうか、という事です。
日本人の年齢についての統計は以下にあります。どうかよろしくお願いします。
http://www.stat.go.jp/data/nihon/02.htm
http://www.stat.go.jp/data/nihon/zuhyou/02syo/n0200400.xls

papa-guma · Accepted Answer

http://www.toukei.metro.tokyo.jp/juukiy/2010/jy10q10601.htm
ここで、かなり正確な平成22年現在の東京都の年齢別人口が分かります。

http://sankei.jp.msn.com/affairs/trial/101005/trl1010051955009-n1.htm
で報じられているように、検察審査会の11人の平均年齢は、
 1回目：34.27歳　2回目の平均年齢：30.90歳　となります。

今回の検察審査会の対象は、東京都民ですが、まず有権者から選ばれ、
検査法第5条から第7条に該当する方が除斥され、検査法第8条に該当する方は辞退可能です。
http://www.houko.com/00/01/S23/147.HTM#s2
辞退出来る人の条件は下の大まかにはリンク先の通りで、70歳以上の方は任意に辞退出来ることになります。
http://www.courts.go.jp/kensin/q_a/q28.html
また、島に住んでいる人など、町村に住んでいる人たちは、往復でかなりの負担がかかるため、
やむを得ない事情ということで、抜けることも可能かもしれません。

除斥される方は、まず全体からみて少なく、また、年齢もほぼ一様に広がっていると
考えられるため、考慮する必要はありません。（誤差の範囲になります）

以上の事から、対象を、『平成22年の東京都の区部・市部の20歳以上、70歳未満』に限定して、
計算機を用いてシミュレートしてみました。

114764, 129829, 139317, 156213, 168990, 181678, 185709, 187437, 189819, 193936,
201216, 205167, 207597, 211507, 214705, 226978, 235054, 230807, 227315, 220988,
216615, 213950, 218324, 158336, 202569, 187105, 173772, 164315, 156465, 153510,
147778, 145646, 134967, 136167, 139211, 138967, 141882, 151812, 157961, 171561,
198236, 197308, 201501, 137814, 122194, 150353, 160989, 154820, 155493, 142255, 
上のデータは、20歳から69歳までの、条件に該当する人口です。
この人数をそのまま使って、無作為に11人抽出し、その平均を取る操作を1億回行います。

100000000 回(1億回)の試行結果

【 平均年齢が34.3歳未満になる確率：0.01115924 ≒ 1.1% 】
【 平均年齢が31.0歳未満になる確率：0.00064632 ≒ 0.065% 】

平均年齢は、43.6 歳です。（本来は、もっと上がります。)

分布は、添付画像の通りです。
＊町村部を含めたり、70歳以上の人が多少なりとも断らないとすれば、もっと確率は下がります。

結果から考えると、1回目が1.1%, 2回目が0.065% となると、2回合わせて、0.0072%
などという、文字通り「万に一つも起こらない」ことが起きてしまっていることになります。

これは、検察審査会の選定人が、意図的に若い人のみを選定をしたことが一目で伺える結果で、
マスコミが「市民感覚」などと、あたかもメンバー11人が国民の代表的感覚であるように
宣言することが、如何にインチキくさいことであるか、わかると思います。

これだけ検察の不祥事が続いている中の出来事ですから、
「検察審査会なるものが、政治闘争に利用されたのではないか」という疑問は誰でも
持つはずで、ここの部分の真相を明らかにしてもらいたいところです。

色々噂はありますが審査申立人が不明で、1回目の顧問弁護士「米澤敏雄」は麻生総合法律事務所勤務
ですが、http://www.aso-law.jp/topics.html をみると、政治的に中立であったか甚だ疑問です。
 2回目も僅か1週間で決議を下し、その議決書も被疑事実外のことが書かれている、といった、
かなり危ういことが続いているのは事実で、それを全く報じないマスコミと検察主導の
「魔女狩り」裁判が、法治国家日本で行われようとしていると考えると、背筋が凍る思いです。

drmuraberg · Answer

ご指摘を受け、なるほどと考えてみました。

確率統計学的な検証は後の機会または誰か専門の人にと言うことで、
とりあえずの検討結果を。
検討には、参照ＵＲＬの２－６から全国を採用しました。以下の数字です。

年齢　人口　　　代表年齢　　人口ｘ代年
００～１４　１７．２　　　　７　　　　　１２０
１５～１９　　６．２　　　１７　　　　　１０５
２０～２４　　７．１　　　２２　　　　　１１１
２５～３４　１６．６　　　３０　　　　　４９８
３５～４４　１８．０　　　４５　　　　　８１０
４５～５４　１５．６　　　５０　　　　　７８０
５５～６４　１８．８　　　６０　　　　１１２８
６５～　　　２８．８　　　７５　　　　２１１５
人口の単位は１００万人です
００～　　１２７．７　　　　　　　　　５６６７
２０～　　１０４．３　　　　　　　　　５４４２

日本国民の平均年齢は、４４．４歳、
成人以上の人に限れば５２．２歳となります。
成人からランダムに選ばれた１１人の平均年齢が３０．９歳と言うことは
平均値より２０歳も若く、抽出に何らかの誤りか作為が有ったと考えられます。
６５歳以上の年輩者を排除した場合、４４．１歳。
５５歳以上の年輩者を排除した場合、３８．８歳。

東京都は若い人が多いと考えても、全国人口の１割の線を若い年齢層で
若干上回り年輩者で若干下回る程度ですから、年輩者を排除しない
限り平均３０．９歳は不自然な数字です。

magiru · Answer

統計の専門家ではないので誤りがあるかもしれませんが、計算をしてみました。

参考URLページから東京都の年齢階級別人口の一部を引用すると、

20～24歳　  712,878
25～29歳　  942,805
30～34歳　1,045,230
35～39歳　1,147,207
40～44歳　1,015,062
45～49歳　  840,015
50～54歳　  709,170
55～59歳　  769,201
60～64歳　  864,805
65～69歳　  770,617

のようになっています。70歳以上の人口も無視できない規模ありますが、70歳以上は年齢を理由として検察審査員を辞退できるようなので除外（*1）します。

母集団の平均μと標準偏差σを計算すると、μ＝43.7、σ＝13.9となります。

この母集団から大きさ11の標本を無作為抽出する場合、標本平均は近似的に平均m＝μ＝43.7、標準偏差s＝σ／√11＝4.2の正規分布に従います（*2）。

正規分布表から、標本平均が30.9以下（m－3.05s以下）となる標本が抽出される確率は約0.11％と求められます。

なお、1回目の「起訴相当」を議決した際の平均年齢である34.3歳の場合は、標本平均がそれ以下（m－2.24s以下）となる標本が抽出される確率は約1.25％となります。たった3.4歳違うだけですが、確率的には10倍の起こりやすさの差があります。

*1　これによって母集団の平均、標準偏差はともに小さくなります。
*2　標本の大きさがやや小さいので、近似の精度はあまり高くなりません。

参考URL：http://www.toukei.metro.tokyo.jp/juukiy/2010/jy10000001.htm

drmuraberg · Answer

No.１です。
選出される人の分布が２０才にカットOFFが有り、台形の様な形を
していることから、通常の計算ではできないと考え単に平均だけで
おかしいと示すに留めました。

年齢階層別に箱に入った多数の球を考え、それをランダムに取出し、
平均年齢３０才という制限条件下での出現確率を求めるという、
統計物理に似た問題と考えましたが、とても定式化はできませんでした。

No.3の回答に敬服です。パチパチ！！

年輩者ですが、今回の件に限らず疑問に思っていたことが有ります。
裁判員裁判でも、インタビューに答えている６０才以上の年輩者が
極めて少ない事に違和感を持っていました。この質問の資料にも
見られるように６０才以上の人口はかなり多くまだ元気な人が多いのに
です。
辞退できるのでそうなるのかと思っていました。
裁判員の様に義務では無く、辞退が容易なら今回の件では
次の可能性も考えられます。
ランダム（？）に選ばれた審査員のプールから「そんな事には
関わりたくない、興味はない」と言わせるように依頼を持って行く。
残るのは世論に影響を受けやすい正義感（？）の高い若い人で暇な人。

世論とか世論調査に振る舞わされる作今ですが、こういう重要な点を
検証無しで垂れ流すTV、新聞には警鐘を鳴らしたいものです。

以前「何故どの世論調査も有効回答率は６０％程度なの」と言う質問に
「現在の生活では、固定電話で捕まる人の割合はほぼ一定で、それが
６０％。忙しく動き回る働き盛りの人は捕まらず、調査結果にはあまり
反映されない事に注意する必要が有ります。」と答えた事が有ります。

質問者と興味有る回答に改めて「教えて！Goo　ってい～もんだな～」と
実感しました。

papa-guma · Answer

No.3 です。
えっと・・・すごい恥ずかしい間違いしてました。訂正させてください。

＞結果から考えると、1回目が1.1%, 2回目が0.065% となると、2回合わせて、0.0072%
＞などという、文字通り「万に一つも起こらない」ことが起きてしまっていることになります。

の部分ですが、1.1%, 0.065% 合わせて、【0.00072%】ですから、
【１０万回に１回も起こらないことが起きている。】が正解です。

すごく恥ずかしい(涙　
一応、これは、70歳以上が全く参加しないという前提ですので、かなり若い人に傾きやすい設定です。
実際には、本当に高齢の方(90歳以上?)を除いて、全員が断るとは考えにくく、確率はもっと下がります。

真の値に近づくような設定でシミュレートした結果を一応書いておきます。
人口の分布は、No.3 の統計の所からデータをとったもので、かなり正確です。

「東京都の区部・市部から、無作為に11人選ぶ。
　ただし、70歳～79歳の方は、1/3は断る。80歳以上は、必ず断る。」
という条件の元、また１億回試行してみると、

平均年齢 : 46.0歳

【 平均年齢が34.3歳未満になる確率：0.00442832 ≒0.44% 】
【 平均年齢が31.0歳未満になる確率：0.00023758 ≒0.024% 】

１回目：0.44%, ２回目：0.024% 合わせて、1.0*10^-6(百万分の一)
ということが起こったことになります。こちらの方が実際の値に近いはずです。

流石に、これを偶然で済ませるのは、なかなか難しそうです。

何らかの意図をもって、人を選んだとなれば、「どのような基準で選んだのか」が
問題になると思います。

マスコミでは、「ド素人の若い人の判断」ということを前面に出していますが、
もし、仮に、無作為でなく、意図的に検察審査会が１１人を選んだとするならば、
これは「ド素人の若い人」の意見ではなく、
正真正銘の「プロ」である検察審査会の選定人の意図が強く反映されたものと考えるのが筋です。

決議をする日程を決めることや、審査員を選ぶこと、短期間膨大な捜査資料を読み解くことなどは、
若い人でなくとも、素人では不可能なのであって、世間の人が、この１１人の人たちや若者について
あれこれ言うのは著しく筋違いで、本質から目を逸らしている（目を逸らさせられている）ように感じます。

ohia15 · Answer

東京の年齢分布を使って、100回、11名を選出するというプログラムを作ってみました。
試してみたところ、平均年齢31.18歳という組み合わせが出たケースがありました。

メンバーの年齢 [31 41 36 51 51 58 42 28 35 22 46 ], 平均年齢 = 40.09090909090909
メンバーの年齢 [48 68 30 25 55 57 28 32 41 60 40 ], 平均年齢 = 44.0
メンバーの年齢 [62 31 25 23 44 39 43 24 69 29 33 ], 平均年齢 = 38.36363636363637
メンバーの年齢 [48 69 64 37 61 27 27 35 38 59 27 ], 平均年齢 = 44.72727272727273
メンバーの年齢 [28 62 66 34 46 29 51 34 30 35 56 ], 平均年齢 = 42.81818181818182
メンバーの年齢 [35 58 62 39 43 33 44 57 59 51 34 ], 平均年齢 = 46.81818181818182
...
メンバーの年齢 [29 34 37 26 34 26 27 32 31 46 21 ], 平均年齢 = 31.181818181818183
...
全体の平均 = 43.17727272727273

確率・統計学上は、多くの回数、無作為に抽出すれば平均値に近づくということは言えますが、「個々」の選択が平均から離れることが無いとはいえせん。ここでのポイントは「多くの回数」という点です。多くの回数繰り返せば平均に近づきますが、20～69歳という幅に対して、11名しか選出していない場合、個々の選出については偏る可能性もあります。（それが無作為（ランダム）という意味です）

単純なイメージとしては、20～69の目のサイコロを11回振って、その目の平均が45にならなかったといって、問題があると思うかどうかです。100回、1000回と続けて、平均に近づかなかったらおかしいとは言えますが。

平均年齢について、統計学上おかしいと指摘する人がいますが、統計学という学問では、これをおかしいかどうか判定することはできないと思います。

ohia15 · Answer

回答No.6です。Javaで作ったプログラムです。もしよかったら試してみてください。

～～ここから～～

import java.util.*;

public class RandomSelect {
static int tokyo[] = {
115498, 130556, 140068, 156982, 169774, 182470, 186548, 188299, 190693, 194795,
202166, 206170, 208547, 212535, 215812, 228202, 236284, 232013, 228570, 222138,
217760, 215019, 219456, 159171, 203656, 188078, 174770, 165283, 157426, 154458,
148806, 146720, 135968, 137330, 140346, 140234, 143118, 153217, 159420, 173212,
200053, 199158, 203277, 139026, 123291, 151727, 162423, 156167, 156798, 143502};
static Random rand = new Random(System.currentTimeMillis());
static int total = 0;

public static void main(String[] args) throws Exception {
total = 0;
for (int i = 0; i < tokyo.length; i++) {
total += tokyo[i];
}
System.out.println("東京都の20～69歳の総人口 = " + total);

double totalAverage = 0.0;
for (int i = 0; i < 100; i++) {
totalAverage += select11();
}
System.out.println("全体の平均 = " + (totalAverage / 100.0));
}

public static double select11() throws Exception {
int selectedMembers[] = new int[11];
int memberTotal = 0;
System.out.print("メンバーの年齢 [");
for (int i = 0; i < selectedMembers.length; i++) {
int index = rand.nextInt(total);
selectedMembers[i] = searchSelectedPerson(index);
memberTotal += selectedMembers[i];
System.out.print(selectedMembers[i] + " ");
}
double average = memberTotal / 11.0;
System.out.println("], 平均年齢 = " + average);
return average;
}

public static int searchSelectedPerson(int index) throws Exception {
int ruiseki = 0;
for (int i = 0; i < tokyo.length; i++) {
ruiseki += tokyo[i];
if (index < ruiseki) {
return i + 20;
}
}
throw new Exception("Error");
}
}

papa-guma · Answer

>>No.6 さんへ

No.3 です。

ohia15さん、平均を取るところまでは No.7 のコードでよいので、
その平均を取る操作を十万回か百万回繰り返し、
平均を(int)に変換して、int heikinList[] = new heikinList[70] なんかを作って、カウントしてみてください。
具体的には、

int N = 1000000;
for (int i = 0; i < N; j++)
{
   heikinList[(int)select11()]++;
}

みたいなことをすれば、頻度表が作れます。
あとは、heikinList の 20番地から、30番地までの和をとれば、
N回試行中、何回平均年齢が31以下が出たかがカウントできます。

最後に、そのカウント数を、全体の試行数N で割ることで、お望みの確率が得られます。
つまり、【N回試行した時、何回平均が31未満になるか】が求まります。

実際、No.7 のコードをほとんどそのまま使って試したところ、No.3 と同じく0.000655が得られました。

papa-guma · Answer

No.9 正誤表
誤)int heikinList[] = new heikinList[70]
正)int heikinList[] = new int[70];
誤)j++
正)i++

見直さなずに投稿すると、酷いですね・・・

okormazd · Answer

#3さんの示したサイトの東京都のデータから，20歳以上の都民の平均年齢μとその標準偏差σは，μ=49.46歳とσ=18.26歳です。
統計学で重要な定理に，中心極限定理があります。これは，母集団の分布がどうであれ，それから採られた標本の平均の分布は正規分布になり，その平均x'はμに等しく，標本の大きさ(個数)をnとすれば，標準偏差はσ/√(n)になるというものです。
これを，質問に当てはめます。11人を無作為に選ぶことを繰り返して，その平均年齢を記録します。その平均年齢の平均x'が49.46歳になり，標準偏差は18.26/√(11)=5.50の正規分布になるということです。
これは，正規分布で，平均も標準偏差もわかっているので，11人を選んだときの平均年齢範囲の確率を計算できます。ここでは，11人の平均年齢が30.9歳以下になる確率を計算します。
EXCELでNORMDIST(30.9,49.46,5.50,TRUE)=0.000372です。要するに，11人を無作為に選んだとしたとき，その平均年齢が，30.9歳以下になる確率が，0.0372％だということです。平均的には，3000回も選べば1回くらいは30.9歳以下になるかなという感じです。統計なので，10回選んで出るかもしれないし，10万回選んでも出ないかもしれない。まあ，めったに起こりそうもないという確率です。
ただ，これは100歳以上も含めた確率なので，実際は辞退も認められているようですから，もっと確率は高くなるでしょう。
また，20～69歳の都民とすれば，11人選出の平均年齢43.66歳，標準偏差4.19歳で，30.9歳以下の確率0.00116
になります。％でいえば，0.116％で，1000回に1回程度で，これもめったに起こりそうもないですね。

無作為抽出で平均年齢30歳になる確率

ご指摘を受け、なるほどと考えてみました。

統計の専門家ではないので誤りがあるかもしれませんが、計算をしてみました。

No.１です。

No.3 です。

東京の年齢分布を使って、100回、11名を選出するというプログラムを作ってみました。

回答No.6です。

>>No.6 さんへ

No.9 正誤表

#3さんの示したサイトの東京都のデータから，20歳以上の都民の平均年齢μとその標準偏差σは，μ=49.46歳とσ=18.26歳です。

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング

　統計の専門家ではないので誤りがあるかもしれませんが、計算をしてみました。