「教えて!ピックアップ」リリース!

中学数学の質問です。統計が苦手で今でもわからないので教えてください。

・度数分布表では階級を「○以上△未満」と表しますが、階級値(階級の中央値)を求めるのに△の値をつかうのはなぜでしょうか。△はその階級では「未満」なので含まれないはずの値です。統計学的に、△をつかって求める値にどのような意味や信憑性があるのでしょうか。

・度数分布表では階級の両端の値は必ず連続(重複)していないといけないのでしょうか。
たとえば、テストの点数の度数分布表ではデータはすべて整数なので、①「50点以上59点以下、60点以上69点以下」などの階級でもいいように思いますが、②「50点以上60点未満、60点以上70点未満」とするのはなぜでしょうか。①と②では、階級値や平均値などに違いが出てきてしまい、この違いが意味するものがわかりません。①と②のどちらの階級を使う方が適しているのか、判断のコツがあれば教えてください。(統計では①の書き方はせず、常に②の書き方だけというのなら、統一されているので納得できます)

考えるほど混乱して頭が痛くなって困っています。助けてください。よろしくお願いします。

A 回答 (1件)

あまり深刻に考えずに、そういうものだと思えばよいのです。



 例えば、階級を0~10、10~20、20~30 と決めると、10は「0~10」に入るのか「10~20」に入るのか、ともめますよね。だから、「10は10~20に含めましょう」と決めれば、「0~10」は「0以上、10未満」(0≦x<10)、「10~20」は「10以上、20未満」(10≦x<20)となります。
 これは「境界値をどちらに含めようか」ということです。
 もちろん、「10は0~10に含めましょう」と決めてもよいのです。

 では、階級を0~10、10~20、20~30 の中央値は? といえば、各々5、15、25ですね。
 「0~10」は「0以上、10未満」なのですが、「10未満」ということは「9.999999・・・」もこの範囲に入りますので、「ほとんど10」ということで、中央値は(0+10)/2=5 ということでよいのです。「中央値は、4.9999999999・・・ではないか」と言っても、これは「5」と区別がつかないのですから。(高校に行くと「極限」というのを習います。「4.9999999999・・・の極限は、5に等しいのです)

>度数分布表では階級の両端の値は必ず連続(重複)していないといけないのでしょうか。

 そうです。「どの階級にも入らないものが出る」と困りますから。「連続(切れ目なし)」ということです。「重複」(ダブり)はダメです。
 例として、「各個人の点数は整数」ですが、クラスの平均点や学年の平均をとれば、小数点以下の数字になることがあります。
 例えば、階級を0~9点、10~19点、20~29点、・・・としたとき、あるクラスの平均をとったら「19.5点」になった場合、どの階級にも入らなくなってしまいます。「10~20点未満」と決めておけば、ここに入りますね。「何があっても、必ずどこか1つの階級に入る」ためには、「階級の両端の値は必ず連続していないといけない」=「階級の範囲に漏れや重複(ダブり)があっていはいけない」ということです。
 もちろん、たとえば100点満点の点数では「0点未満のマイナス点」や「100点満点より高い点数」があり得ないので、あり得ない範囲は除外して大丈夫です。
    • good
    • 5
この回答へのお礼

さっそくのご返答ありがとうございました。
具体的な例や説明でこちらの疑問点に丁寧にお答えいただき、とてもよく理解できました。
なるほどなあ、と思いながら読ませていただきました。
確率統計はずっと苦手でしたが、yhr2様の回答はそんな私にも1回で「そうか!」と思わせてくれるものでした。
ここ最近ずっと悶々としていたのですが、これですっきりです。
本当にありがとうございました!

お礼日時:2015/04/04 03:09

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!


人気Q&Aランキング