プロが教える店舗&オフィスのセキュリティ対策術

大学の卒論で、アンケートを実施したいと思い、今基本的なことを勉強しています。
①なぜ、50%が最も誤差率が大きいのでしょうか。
②なぜ、1%と99%の誤差率が同じなのでしょうか。
③なぜ、1%の時に、1%以上の誤差率があるのでしょうか。

A 回答 (7件)

> 今基本的なことを勉強しています。


ならば、ご質問内容もお勉強の対象です。
一般的に、お勉強とは、
人に聞くことではなく、自らが解を探すことを言います。
    • good
    • 1

(´・ω・`)


どう考えても高校で習う標準偏差のお話です。

高校の数学を勉強し直すことを強く勧めます。
基礎が理解できていないのですから、これ以降疑問の続出になりますよ。
都度対応しても良いのですが、根本的な解決を図ることを検討しましょう。
    • good
    • 0

アンケートの回答が「はい」「いいえ」の場合は二値変量、5段階評価の場合は順序尺度となります。

モデル化はいずれもロジスティック回帰(特に順序尺度の場合は順序ロジット回帰と言います)で行います。

ここでは、より一般的な「順序ロジット回帰」で説明します。図を添付します。

例えば、横軸に回答者の属性(例えばアルバイト収入)、縦軸に回答(例えばあなたは外食をどれくらいしますかの1~3の回答)とします。

3段階評価の場合は、赤いロジスティック曲線は2本引かれ、3領域に分割しています。横軸の大きさに対応して、回答の推定割合を読み取ることができます。

以下、疑問に対する回答です。

①ロジスティック曲線は縦軸50%のところで傾きが一番大きくなります。そのため少しのブレが予測に大きく影響します。だから信頼区間・予測区間が大きくなります。(続けて、信頼区間・予測区間のグラフを投稿します)

②当然、曲線は0%と100%に漸近し、それらでは誤差は0となります。グラフは上下対称です。1%と99%では、その信頼区間・予測区間は同じになります。(続けて、信頼区間・予測区間のグラフを投稿します)

③これは、なんとも言えません。予測区間・信頼区間はデータの良し悪しで変化します。質の良いデータなら、誤差範囲は狭くなりますから、そう言い切ることはできません。
「アンケートの誤差率表について教えてくださ」の回答画像3
    • good
    • 1

図は1枚しか添付できないので、引き続いてロジスティック曲線の信頼区間・予測区間のグラフを示します。

いずれも95%区間です。

誤差率というか、予測区間の幅(上下の幅だけ予測値は広がっている)は、縦軸50%のところで一番大きくなります。

ロジスティック曲線のグラフは上下対称というか、180度回転対称ですから、0%から測っても、100%から測っても、比率は同じになります。

また、このグラフは、用いているデータの0,1の重なりが大きいために、1%の箇所でも30%くらいまで予測区間が広がっています。

逆に「はい」「いいえ」が重ならずに完全に分離していれば、ほぼ100%予測可能であるため、誤差は生じません。ただ、完全に分離しているとロジスティック回帰は解析出来ませんけどね。
「アンケートの誤差率表について教えてくださ」の回答画像4
    • good
    • 1

アンケートは、「賛成か反対か」「Yes か No か」といった「二者択一」なのでしょうか?



そうであれば、いわゆる「二項分布」なので、
「あたり確率が p のくじ引きを、n 回引いて r 回当たる」
といった確率分布になります。

アンケートでいえば、「母集団(日本の成人全体など)の賛成率が p のとき、n 人にアンケートを取って、r 人が賛成と回答する確率」みたいなことになります。

その場合、
・賛成と回答する人数の期待値:np      ①
・その分散(標準偏差の2乗):np(1 - p)   ②
ということが、テキストに書いてあると思います。

(どうしてそうなるのかもテキストに書いてあると思いますが、必要なら下記などを参照ください)

https://manabitimes.jp/math/913
https://ai-trend.jp/basic-study/binomial-distrib …

質問者さんのいう「誤差率」の定義がどのようなものかはわかりませんが、通常「誤差」とは「標準偏差」のことです。
「標準偏差」の2乗が「分散」なので、上記の②式より
 p=0.5 とすれば 分散 = 0.25n
 p=0.1 とすれば 分散 = 0.09n
 p=0.9 とすれば 分散 = 0.09n
 p=0.01 とすれば 分散 = 0.0099n
 p=0.99 とすれば 分散 = 0.0099n
となることが分かると思います。

二項分布は「Yes/No」の分布なので、Yesが 99% なら No が 1%、Yesが 1% なら No が 99% という特性の対称性を考えれば当然でしょう。

①②はこのような「二項分布の特性」から理解できると思います。


③については、上の二項分布の特性を使って、「得られたサンプルのデータから、未知の母集団を推定する」というときの誤差の話をしていると思います。(もし違っていたら「補足」にどういう内容かを追記してください)

>③なぜ、1%の時に、1%以上の誤差率があるのでしょうか。

の「1%の時」というのは、得られたサンプルで「賛成(あるいは Yes)」が 1% だった時に、母集団の「賛成率はいくつからいくつまでと推定できるか」という「幅」(信頼区間)の話をしているのではないかと思います。
でも、そのときには「信頼係数」という「どの程度の確かさで推定するか」という判断基準が必要です。当然ながら「極めて高精度で」推定するほど「幅」は大きくなります。
誤差は正規分布すると仮定して、
・信頼係数が90%なら、信頼区間の幅は「サンプルから推定した標準偏差の ±1.65倍」
・信頼係数が95%なら、信頼区間の幅は「サンプルから推定した標準偏差の ±1.96倍」
・信頼係数が99%なら、信頼区間の幅は「サンプルから推定した標準偏差の ±2.58倍」
のような値になります。

質問者さんが言っているのはこの「倍数」のことではないでしょうか?
その根拠を知りたければ、こんどは「正規分布」を勉強してください。

参考「母比率の推定」

https://bellcurve.jp/statistics/course/9122.html
https://www.kwansei.ac.jp/hs/z90010/sugakuc/touk …
    • good
    • 1

ご質問者は、二項分布を勉強されていましたか。



てっきり項目反応論(項目応答論)を勉強されていると思ったんで、それに沿った回答をしてしまいました。

高度過ぎたかもしれません。スミマセンでした。
    • good
    • 1

これですね↓。


https://kotodori.jp/strategy/number-of-samples/

母集団が無限大なら二項分布ですが、Nが入っているので、有限母集団補正が入った式ですね。

であれば、yhr2さんの回答に1票。
    • good
    • 1

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!