アンケートの誤差率表について教えてください

締切済

質問者：なかむらセムス
質問日時：2022/09/22 14:26
回答数：7件

大学の卒論で、アンケートを実施したいと思い、今基本的なことを勉強しています。
①なぜ、50％が最も誤差率が大きいのでしょうか。
②なぜ、１％と99％の誤差率が同じなのでしょうか。
③なぜ、1％の時に、1％以上の誤差率があるのでしょうか。

通報する

この質問への回答は締め切られました。

質問の本文を隠す

回答 (7件)

最新から表示
回答順に表示

No.1

回答者： angkor_h
回答日時：2022/09/22 14:31

> 今基本的なことを勉強しています。

ならば、ご質問内容もお勉強の対象です。
一般的に、お勉強とは、
人に聞くことではなく、自らが解を探すことを言います。

- 1
- 件

通報する

No.2

回答者：銀鱗
回答日時：2022/09/22 14:41

(´・ω・`)

どう考えても高校で習う標準偏差のお話です。

高校の数学を勉強し直すことを強く勧めます。
基礎が理解できていないのですから、これ以降疑問の続出になりますよ。
都度対応しても良いのですが、根本的な解決を図ることを検討しましょう。

- 0
- 件

通報する

No.3

回答者： kamiyasiro
回答日時：2022/09/22 20:06

アンケートの回答が「はい」「いいえ」の場合は二値変量、５段階評価の場合は順序尺度となります。

モデル化はいずれもロジスティック回帰（特に順序尺度の場合は順序ロジット回帰と言います）で行います。

ここでは、より一般的な「順序ロジット回帰」で説明します。図を添付します。

例えば、横軸に回答者の属性（例えばアルバイト収入）、縦軸に回答（例えばあなたは外食をどれくらいしますかの１～３の回答）とします。

３段階評価の場合は、赤いロジスティック曲線は２本引かれ、３領域に分割しています。横軸の大きさに対応して、回答の推定割合を読み取ることができます。

以下、疑問に対する回答です。

①ロジスティック曲線は縦軸50％のところで傾きが一番大きくなります。そのため少しのブレが予測に大きく影響します。だから信頼区間・予測区間が大きくなります。（続けて、信頼区間・予測区間のグラフを投稿します）

②当然、曲線は０％と100％に漸近し、それらでは誤差は０となります。グラフは上下対称です。１％と99％では、その信頼区間・予測区間は同じになります。（続けて、信頼区間・予測区間のグラフを投稿します）

③これは、なんとも言えません。予測区間・信頼区間はデータの良し悪しで変化します。質の良いデータなら、誤差範囲は狭くなりますから、そう言い切ることはできません。

- 1
- 件

通報する

No.4

回答者： kamiyasiro
回答日時：2022/09/22 20:19

図は１枚しか添付できないので、引き続いてロジスティック曲線の信頼区間・予測区間のグラフを示します。

いずれも95％区間です。

誤差率というか、予測区間の幅（上下の幅だけ予測値は広がっている）は、縦軸50％のところで一番大きくなります。

ロジスティック曲線のグラフは上下対称というか、180度回転対称ですから、０％から測っても、100％から測っても、比率は同じになります。

また、このグラフは、用いているデータの０，１の重なりが大きいために、１％の箇所でも30％くらいまで予測区間が広がっています。

逆に「はい」「いいえ」が重ならずに完全に分離していれば、ほぼ100％予測可能であるため、誤差は生じません。ただ、完全に分離しているとロジスティック回帰は解析出来ませんけどね。

- 1
- 件

通報する

No.5

回答者： yhr2
回答日時：2022/09/22 20:47

アンケートは、「賛成か反対か」「Yes か No か」といった「二者択一」なのでしょうか？

そうであれば、いわゆる「二項分布」なので、
「あたり確率が p のくじ引きを、n 回引いて r 回当たる」
といった確率分布になります。

アンケートでいえば、「母集団（日本の成人全体など）の賛成率が p のとき、n 人にアンケートを取って、r 人が賛成と回答する確率」みたいなことになります。

その場合、
・賛成と回答する人数の期待値：np　　　　　　①
・その分散（標準偏差の２乗）：np(1 - p)　　　②
ということが、テキストに書いてあると思います。

（どうしてそうなるのかもテキストに書いてあると思いますが、必要なら下記などを参照ください）
↓
https://manabitimes.jp/math/913
https://ai-trend.jp/basic-study/binomial-distrib …

質問者さんのいう「誤差率」の定義がどのようなものかはわかりませんが、通常「誤差」とは「標準偏差」のことです。
「標準偏差」の２乗が「分散」なので、上記の②式より
　p=0.5 とすれば　分散 = 0.25n
　p=0.1 とすれば　分散 = 0.09n
　p=0.9 とすれば　分散 = 0.09n
　p=0.01 とすれば　分散 = 0.0099n
　p=0.99 とすれば　分散 = 0.0099n
となることが分かると思います。

二項分布は「Yes/No」の分布なので、Yesが 99% なら No が 1%、Yesが 1% なら No が 99% という特性の対称性を考えれば当然でしょう。

①②はこのような「二項分布の特性」から理解できると思います。

③については、上の二項分布の特性を使って、「得られたサンプルのデータから、未知の母集団を推定する」というときの誤差の話をしていると思います。（もし違っていたら「補足」にどういう内容かを追記してください）

＞③なぜ、1％の時に、1％以上の誤差率があるのでしょうか。

の「1％の時」というのは、得られたサンプルで「賛成（あるいは Yes）」が 1% だった時に、母集団の「賛成率はいくつからいくつまでと推定できるか」という「幅」（信頼区間）の話をしているのではないかと思います。
でも、そのときには「信頼係数」という「どの程度の確かさで推定するか」という判断基準が必要です。当然ながら「極めて高精度で」推定するほど「幅」は大きくなります。
誤差は正規分布すると仮定して、
・信頼係数が90%なら、信頼区間の幅は「サンプルから推定した標準偏差の ±1.65倍」
・信頼係数が95%なら、信頼区間の幅は「サンプルから推定した標準偏差の ±1.96倍」
・信頼係数が99%なら、信頼区間の幅は「サンプルから推定した標準偏差の ±2.58倍」
のような値になります。

質問者さんが言っているのはこの「倍数」のことではないでしょうか？
その根拠を知りたければ、こんどは「正規分布」を勉強してください。

参考「母比率の推定」
↓
https://bellcurve.jp/statistics/course/9122.html
https://www.kwansei.ac.jp/hs/z90010/sugakuc/touk …