街中で見かけて「グッときた人」の思い出

トランプジョーカーを除く1組52枚から無作為に一枚ひき出た数を記録して再び戻すこれを60回繰り返す
5、11、8、13、9、11、3、13、4、9
2、10、8、9、7、10、6、12、11、2
5、7、11、9、10、13、10、11、13、11
13、7、6、11、1、13、9、13、12、1
2、13、11、8、7、11、2、11、5、2
8、7、1、12、6、6、3、9、6、4
きろくは上のようになった
平均値8、05 分散13、6808になった
この平均値から適当な階級を定め度数分布表を作成する
またトランプ一枚ひいたときに出現する数Xの期待値E(X)分散v(X)(確率論的な値)を求めなさい
この問題の解き方が分からないので教えてください

A 回答 (4件)

企業で統計を推進する立場の者です。

博士(工学)です。

こんな難しい問題、どこで出たのでしょう。
弊社では、データサイエンティストの教育で出てくる話題です。
どこが難しいかというと、量子化補正のところです。
データサイエンティストは、これをブートストラップ補間という方法でやるのですが、その前提として教育しています。
では、以下にヒントを示します。

度数分布表は、前の質問の皆さんの回答を参考にして下さい。

さて、問題の後半ですが、一様分布のパラメータの期待値は、

平均は、(上限+下限)/2
分散は、(上限-下限)^2 /12

これは連続値の場合です。

ところが、この問題では、例えば1と2の間には観測値が出現しません。これを量子化しているといいます。
量子化が起きていると、量子化誤差が発生します。
つまり、連続値を度数分布表にして階級に区切って計算すると、見かけの分散が大きくなります。
ちなみに、1づつ度数表にする、2づつ、4づつ、というように階級値を広くしていくと、分散が大きく計算されます。
嘘だと思ったら、やってみて下さい。

この時、これが与えられたデータであれば、技術者は量子化補正ということをしますが、
この問題の場合は、量子化補正の逆をやらないと、正しい分散は求められません。

量子化補正については、正規分布に近似できるデータの場合は「シェパードの補正」をググって調べて下さい。
しかし、一様分布は特殊で、補正方法が異なります。
一様分布で、Δ=1の離散化が起きている場合は、

分散は、{(上限-下限+1)^2ー1} /12

という不可解な補正をしないといけません。
中学生的な計算ですが、普通の統計の教科書には出てこない話です。出題者は分かっているのかな。
    • good
    • 0

たった13種類のデータなのに、なぜ階級を設定しようとするのか


について小一時間問い詰めたい。
    • good
    • 0

ありものがたりさんへ



#1です。

階級を荒く取ると、分散が大きくなっていくことを分からせるための実験じゃないでしょうか。考えすぎでしょうか。
実際に私の社内研修では、9階級の度数分布表を3階級まで減らすと、計算上の分散が大きくなるという演習をやっています。

現実のデータでは、センサの分解能のせいで量子化が起きていますから、技術者は注意が必要なのです。
    • good
    • 0

#3です。



間違えました。

[誤]階級を荒く取ると、分散が大きくなっていくこと

[正]階級を荒く取ると、分散が小さくなっていくこと


もし、連続値なら度数分布表を使うと量子化誤差が乗って分散が12より大きくなりますが、現データはそもそも離散値で量子化誤差が無いため、本来の離散化しているときの分散である14より小さめに出ます。(下記のごとく、その間の値になります)
私は#1では、
『この問題の場合は、量子化補正の逆をやらないと、正しい分散は求められません。』
と間違いなく「逆」と書いているのに、#3で間違えてしまいました。


お詫びとして、4階級にして一様の確率で計算した例を示します。
えーっと思わないで下さい。4分割して真ん中の値を階級値として等しい確率0.25で出現させただけです。平均が合っているので納得してもらえると思います。階級の境界7での出現数は、実際には両側に按分するなどしなければなりません。

階級___________階級値___確率_____階級値×確率____階級値^2×確率
_0.5__~_3.75___2.125___0.25_______0.53125_________1.12890625
_3.75_~_7______5.375___0.25_______1.34375_________7.22265625
_7____~10.25___8.625___0.25_______2.15625________18.59765625
10.25_~13.5___11.875___0.25_______2.96875________35.25390625
___________________________________7______________62.203125

これより分散は分散の公式を用いて、62.2ー49=13.2
本来分散は#1の一番下に公式を書きましたとおり、14であるはずなのに、小さく計算されます。
ちなみに、各階級値を1~13、各確率を1/13にして分散の公式に適用すると、キチンと14と計算されます。

なお、#1で述べましたとおり平均値は7です。これは合っています。



あらためて正解を書いておきます。トランプカードのような離散的一様分布であれば、平均の期待値は7、分散の期待値は14です。
度数分布表の階級数として何が適切かと問われれば、「13とすべき」です。
理由は、上で述べた通り、「それより少なくすると量子化の影響で正しい値が計算できないから」です。
    • good
    • 0

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!