dポイントプレゼントキャンペーン実施中!

度数分布表を以下のように作成したと仮定して「あり」と「なし」を比較したとすると、このデータは特に検定などは行わずして「なし」と断定してもよいのでしょうか?通常二変量分析(クロス集計)をおこなった際はカイ2乗検定を行うたど検定を行う必要があると理解していますが、一変量分析の場合どのようにデータを断定してよいかわからず悩んでいます。

行ラベル 度数 比率
あり 150 37.5%
なし 250 62.5%
総計 400 100.0%

何卒、よろしくお願いいたします。

質問者からの補足コメント

  • どう思う?

    ご回答いただきありがとうございます、すこし補足させてください。今回はアンケートとなります。アンケートで「●●についてどう思いますか?」という問いに対して、「あり」「なし」と答えた方がそれぞれ上記でした。母集団(企業の人事担当)からリサーチ会社の調査パネルを使用して400サンプル抽出した結果となるのですが、この場合、どのような検定をかける必要がありますでしょうか?

    また、標本誤差早見表(https://www.nttcoms.com/service/research/sampling/)がありますが、これを基準に、

    サンプルを400件とり、その結果62.5%が「なし」という回答が得られ最大でプラス・マイナス何%の誤差がある

    といってもよいのでしょうか。お手数おかけいたします、何卒よろしくお願いいたします。

      補足日時:2022/11/25 09:01

A 回答 (7件)

No.1~3 です。

「補足」に書かれたことについて。

>この場合、どのような検定をかける必要がありますでしょうか?

いやいや、#1 にも書いたとおり「何を判定したい、何を結論として得たいのか」が先決ですよ。それによって「検定する必要があるか、どんな仮説を検定するのか」が決まります。
「方法論ありき」ではなくて、「やりたいことがあるので、それに適した方法を選ぶ」という話です。

>サンプルを400件とり、その結果62.5%が「なし」という回答が得られ最大でプラス・マイナス何%の誤差がある
>といってもよいのでしょうか。

はい。表からは「信頼係数95%で± 4.8~4.9% の誤差がある」と出てきますが、それで何を言いたいのですか?

この表は、#3 で計算した、確率が 1/2 の場合の
・期待値:200
・標準偏差:10
の相対誤差
 10/200 = 0.05 = 5%
に相当するものです。
表でも p=50%、標本数 400 なら 5.0% ですよね。


何度も言いますが「そこから何を言いたいのか、どんな結論を導き出したいのか」ということがなければ議論が始まりません。
    • good
    • 0

観測比率62.5%の95%信頼区間は、0.5753099 ~ 0.6722497


±0.0484699

以下は統計ソフトRでやった母比率に関する検定
帰無仮説はp0=1/2としています。

> prop.test(250, 400, 1/2)

1-sample proportions test with continuity correction

data: 250 out of 400, null probability 1/2
X-squared = 24.503, df = 1, p-value = 7.421e-07
alternative hypothesis: true p is not equal to 0.5
95 percent confidence interval:
0.5753099 0.6722497
sample estimates:
p
0.625

> (0.5753099 - 0.6722497) / 2
[1] -0.0484699
    • good
    • 0

No.5 です。

あ、ごめん、少し話を端折りすぎた。

***********

>サンプルを400件とり、その結果62.5%が「なし」という回答が得られ最大でプラス・マイナス何%の誤差がある
>といってもよいのでしょうか。

はい。表からは「信頼係数95%で± 4.8~4.9% の誤差がある」と出てきますが、それで何を言いたいのですか?

この表は、#3 で計算した、確率が 1/2 の場合の
・期待値:200
・標準偏差:10
の相対誤差
 10/200 = 0.05 = 5%
に相当するものです。
表でも p=50%、標本数 400 なら 5.0% ですよね。

*************

のところは間違っていました。

この表は、#3 で計算した、確率が 1/2 の場合の
・期待値:200
・標準偏差:10
ですが、そこから「信頼係数 95%(有意水準 5%)の範囲は ± 1.96σ」ということを使って、全体のサンプル数 400 から
 400 ± 1.96σ = 400 ± 19.6 = 400(1 ± 0.049)
として「4.9%」です。
表では上に式が示されているとおり、この「1.96」を「2」として計算しているので「4.9%」を「5%」としています。

失礼しました。
    • good
    • 0

例えば誰かの顔を、あらかじめ選ばれている400人の人が判定して、



男150回答、
女250回答だったら、

この誰かは女です。
断定して良いです。

これは多数決です。国会で賛成150反対250のときに、わざわざ検定しますか。してませんよね。


検定は、例えば、

「従来この島では、〇〇虫の羽の奇形に関し、

奇形あり30%、
奇形なし70%

の比率で生息していた。

今回400匹採取し調査したところ、次の比率であった。

あり 150 37.5%
なし 250 62.5%

奇形ありが増えたかどうか検定せよ。」

このような、一変量(あり・なし)の検定は「母比率に関する検定」と言います。
このケースでは単純に断定することはできません。

なぜなら、この結果は、サンプリングの都度、異なる可能性があるからです。
    • good
    • 1

No.2 です。

計算を間違えていますね。

全文を訂正して再掲します。

No.1 です。
仮に「あり、なし」の確率が 1/2 ずつといえるか、ということを調べたいのなら、二項分布 B(400, 1/2) で「なし」が 250になる確率を求めてみましょう。

二項分布 B(400, 1/2) であれば
・期待値 = np = 200
・分散 = np(1 - p) = 100     ←ここが違っていた
です。ということは
 標準偏差 = √100 = 10

度数が大きいので「正規分布で近似できる」として、その正規分布は
 N(200, 10^2)
ということになります。
これを「標準正規分布」に変換すると
 Z =(X - 200)/10
では X=250 になるのは
 Z = (250 - 200)/10 = 5

下記の「標準正規分布表」で Z=5 以上になる確率を調べると、
 2.87E-07 = 2.87 × 10^(-7)
です。
こんな確率の低いこと、めったに起こるはずはない、ということで、最初に仮定した「「あり、なし」の確率が 1/2 ずつ」とは、どうやら言えないようです。

↓ 標準正規分布表
https://unit.aist.go.jp/mcml/rg-orgp/uncertainty …

得たい結論が「『なし』の方が『あり』よりも多いといえるかどうか」であれば、そのように言えそうですよ。

#1 に書いたように「どんな結論を得たいのか」をまずはっきりさせてくださいね。
    • good
    • 1

No.1 です。


仮に「あり、なし」の確率が 1/2 ずつといえるか、ということを調べたいのなら、二項分布 B(400, 1/2) で「なし」が 250になる確率を求めてみましょう。

二項分布 B(400, 1/2) であれば
・期待値 = np = 200
・分散 = np(1 - p) = 50
です。ということは
 標準偏差 = √50 = 5√2

度数が大きいので「正規分布で近似できる」として、その正規分布は
 N(200, (5√2)^2)
ということになります。
これを「標準正規分布」に変換すると
 Z =(X - 200)/(5√2)
では X=250 になるのは
 Z = (250 - 200)/(5√2) ≒ 7.07

下記の「標準正規分布表」で Z=7.07 以上になる確率を調べると、表に載っていないほど極めて小さな確率です。
こんな確率の低いこと、めったに起こるはずはない、ということで、最初に仮定した「「あり、なし」の確率が 1/2 ずつ」とは、どうやら言えないようです。

↓ 標準正規分布表
https://unit.aist.go.jp/mcml/rg-orgp/uncertainty …

得たい結論が「『なし』の方が『あり』よりも多いといえるかどうか」であれば、そのように言えそうですよ。

#1 に書いたように「どんな結論を得たいのか」をまずはっきりさせてくださいね。
    • good
    • 1

そもそも、何を判定したい、何を結論として得たいのですか?


それがなければ話は進みません。

例えば、コイントスを8回して
・表が3回
・裏が5回
出たら、「このコインは『裏』が出るコインだ」などと断定しますか?

それと同じことをしようとしているわけですよ?

コイントスを8回しただけなら、表・裏はいろいろばらつきます。
妥当な範囲のばらつきなら「統計の誤算の範囲内」であって、「コインは表・裏とも 1/2 の確率で出る」ことは否定できない、と結論しますよね?

では、お示しの「400回が、150回と250回にばらつく」のが「妥当な範囲内といえるか?」を調べないといけませんよ。

例えば、コイントスだったら「表・裏の確率は 1/2 ずつ」と仮定して、400回トスして「150回、250回」にばらつく確率を求めます。それが10%, 20% なら「まあ、あるかもしれない」となりますが、「1%未満」とか「0.01%」という確率だったら、「そんなまれなことが起こるはずはないなあ」と考えますよね?
その判定基準を、例えば「5%以下なら『統計的なばらつきの範囲ではありえない』と判定しよう」などと決める必要があります。通常「有意水準」と呼ばれる判定基準です。

コイントスなり、お示しの「あり・なし」は「二項分布」しそうですから、それでどの程度の確率になるのか、求めてみたらいかがですか?
その上で、「有意水準」を定めて判定してみる必要があるでしょう。
    • good
    • 1

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!