これからの季節に親子でハイキング! >>

論文作成の中で非常に特殊な職業の方を対象としたアンケート調査を検討しております。
この職業の方は全国に60名程しか存在せず、そのうちアンケート調査できそうな人数は30名です(最悪20人)。

疑問点は
(1)このような非常に母数の少ないアンケート調査による場合、統計的に有意なデータが得られるのでしょうか?

(2)個々のデータの処理方法はどうしたら良いのでしょうか。例えば、年収400万前後が10人、600万円台が5人、一千万円台が15人というデータが出た場合に、一般の職業の年収と比較して高額であると主張するには、どのような手法でデータ処理をすれば良いのでしょうか。

私は統計学を体系的に学んだことはありませんが、どうか御指導よろしくお願いします。

このQ&Aに関連する最新のQ&A

A 回答 (3件)

その職業を明確に定義できる条件があるなら、


母数30は十分な数字だと思います。
(所得については、副業をもっているかどうかなどの
確認が必要です。まばらだったら、30は少ないですね。
全員が、その職業からだけの所得なら、問題なく統計処理
していいと思います。)

まずは例外的事情がありそうなものを除いたサンプルから、
平均と分散、最大値、最小値、中央値を求めてください。
そして一般の職業のものと比較してください。

明確な差が出ればそれでいいと思いますし、差が出なければ
1.差が出るような計算方法を考える
2.どうしてその方法だと差が出るのか考える
という作業をすることになります。

とにかくはじめはグラフを書いて、イメージを膨らませてみることですね。
    • good
    • 0
この回答へのお礼

早々のご返事有り難うございます。職業を明確に定義できる条件とはどの様な物でしょうか?

たとえば、日本国債を取り扱う専門部署に配属されているディーラーが対象の場合、明確な定義があるといえますでしょうか。この場合、ディーリングが可能な企業と日本国債を取り扱う専門部署に勤務しているということで明確な定義があると感じますが・・・。

また、30人が十分な数であるということを説明するにはどのような手法がありますでしょうか。一部の統計知識など全くない教授連中が単なる感覚だけで、「母数が少ない、一人の意見で3,4%も値が変わるアンケートに意義がない」と文句を言ってくるので、なんとか黙らせたいのです(なお味方の教授も統計知識がないので困っています)。

お礼日時:2006/10/08 12:28

データ処理の方法も結局、項目を見なければなんともいえません。



しかしそのご質問はもはや研究指導のレベルです。
指導教官に聞いてください。お分かりになられないということなら、
学内で分かりそうな先生を探してください。
すみませんがここで説明しきるのは無理です。
    • good
    • 1

うーん、そのあたりは具体的な例がないと何ともいえませんね。



仰るような国債のディーラーの場合だと、会社間の給与格差も
ありますから、社内他部署との比較だと少ない母数でも
意味があるでしょうが、業界全体となるとかなり多くのサンプルが
必要になると思います。

つまり、統計の基準となる条件をどれだけ明確にできるか
ということです。

お話のような状況を乗り越えるのは、ちょっと難しいかも
しれませんね。

基本的には、見つけられた差異に意味があるかどうかの
チェックのときに、母数が効いてきます。

一人の回答で数パーセント変わるのでしたら、
・数パーセントの差は誤差であるといえる。
・50パーセントの差には意味があるといえる。
というのはおわかりいただけると思います。

検定、有意差、有意水準などのキーワードで検索
してみてください。
    • good
    • 0
この回答へのお礼

なんども有り難うございます。具体的には特定分野を専門に投資をしているファンドマネージャーを対象とした調査を行う予定です。また、給与は例示に過ぎず、実際のアンケート項目は学歴や職歴、各種意識調査を予定しております。

学歴・職歴と言った要件の比較であれば、おっしゃる通りに検定の考えで何とか対応できそうです。この辺はもう少し勉強をしてみます。

また、意識調査の場合は比較ではなく、「アンケート調査によると、このような考えを持っている人の割合が多く、母数全体としても同じ傾向があると思われる」と主張する形になると思います。このため、統計的に検定とは別の処理が必要になると考えております。

何度も申し訳ございませんが、迷惑ついでに意識調査の項目のデータ処理の方法についてアドバイスをいただければと思います。よろしくお願いします。

お礼日時:2006/10/08 13:03

このQ&Aに関連する人気のQ&A

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!

このQ&Aを見た人はこんなQ&Aも見ています

このQ&Aを見た人が検索しているワード

このQ&Aと関連する良く見られている質問

Q統計学的に信頼できるサンプル数って?

統計の「と」の字も理解していない者ですが、
よく「統計学的に信頼できるサンプル数」っていいますよね。

あれって「この統計を調べたいときはこれぐらいのサンプル数があれば信頼できる」という決まりがあるものなのでしょうか?
また、その標本数はどのように算定され、どのような評価基準をもって客観的に信頼できると判断できるのでしょうか?
たとえば、99人の専門家が信頼できると言い、1人がまだこの数では信頼できないと言った場合は信頼できるサンプル数と言えるのでしょうか?

わかりやすく教えていただけると幸いです。

Aベストアンサー

> この統計を調べたいときはこれぐらいのサンプル数があれば信頼できる・・・
 調べたいどの集団でも、ある一定数以上なら信頼できるというような決まりはありません。
 何かサンプルを集め、それをなんかの傾向があるかどうかという仮説を検証するために統計学的検定を行って、仮設が否定されるかされないかを調べる中で、どの検定方法を使うかで、最低限必要なサンプル数というのはあります。また、集めたサンプルを何か基準とすべき別のサンプルと比べる検定して、基準のサンプルと統計上差を出すに必要なサンプル数は、比べる検定手法により計算できるものもあります。
 最低限必要なサンプル数ということでは、例えば、ある集団から、ある条件で抽出したサンプルと、条件付けをしないで抽出したサンプル(比べるための基準となるサンプル)を比較するときに、そのサンプルの分布が正規分布(正規分布解説:身長を5cmきざみでグループ分けし、低いグループから順に並べたときに、日本人男子の身長なら170cm前後のグループの人数が最も多く、それよりも高い人のグループと低い人のグループの人数は、170cmのグループから離れるほど人数が減ってくるような集団の分布様式)でない分布形態で、しかし分布の形は双方とも同じような場合「Wilcoxon符号順位検定」という検定手法で検定することができますが、この検定手法は、サンプルデータに同じ値を含まずに最低6つのサンプル数が必要になります。それ以下では、いくらデータに差があるように見えても検定で差を検出できません。
 また、統計上差を出すのに必要なサンプル数の例では、A国とB国のそれぞれの成人男子の身長サンプルがともに正規分布、または正規分布と仮定した場合に「t検定」という検定手法で検定することができますが、このときにはその分布を差がないのにあると間違える確率と、差があるのにないと間違える確率の許容値を自分で決めた上で、そのサンプルの分布の値のばらつき具合から、計算して求めることができます。ただし、その計算は、現実に集めたそれぞれのサンプル間で生じた平均値の差や分布のばらつき具合(分散値)、どのくらいの程度で判定を間違える可能性がどこまで許されるかなどの条件から、サンプル間で差があると認められるために必要なサンプル数ですから、まったく同じデータを集めた場合でない限り、計算上算出された(差を出すために)必要なサンプル数だけサンプルデータを集めれば、差があると判定されます(すなわち、サンプルを無制限に集めることができれば、だいたい差が出るという判定となる)。よって、集めるサンプルの種類により、計算上出された(差を出すために)必要なサンプル数が現実的に妥当なものか、そうでないのかを、最終的には人間が判断することになります。

 具体的に例示してみましょう。
 ある集団からランダムに集めたデータが15,12,18,12,22,13,21,12,17,15,19、もう一方のデータが22,21,25,24,24,18,18,26,21,27,25としましょう。一見すると後者のほうが値が大きく、前者と差があるように見えます。そこで、差を検定するために、t検定を行います。結果として計算上差があり、前者と後者は計算上差がないのにあると間違えて判断する可能性の許容値(有意確率)何%の確率で差があるといえます。常識的に考えても、これだけのサンプル数で差があると計算されたのだから、差があると判断しても差し支えないだろうと判断できます。
 ちなみにこの場合の差が出るための必要サンプル数は、有意確率5%、検出力0.8とした場合に5.7299、つまりそれぞれの集団で6つ以上サンプルを集めれば、差を出せるのです。一方、サンプルが、15,12,18,12,21,20,21,25,24,19の集団と、22,21125,24,24,15,12,18,12,22の集団ではどうでしょう。有意確率5%で差があるとはいえない結果になります。この場合に、このサンプルの分布様式で拾い出して差を出すために必要なサンプル数は551.33となり、552個もサンプルを抽出しないと差が出ないことになります。この計算上の必要サンプル数がこのくらい調査しないといけないものならば、必要サンプル数以上のサンプルを集めて調べなければなりませんし、これだけの数を集める必要がない、もしくは集めることが困難な場合は差があるとはいえないという判断をすることになるかと思います。

 一方、支持率調査や視聴率調査などの場合、比べるべき基準の対象がありません。その場合は、サンプル数が少ないレベルで予備調査を行い、さらにもう少しサンプル数を増やして予備調査を行いを何回か繰り返し、それぞれの調査でサンプルの分布形やその他検討するべき指数を計算し、これ以上集計をとってもデータのばらつきや変化が許容範囲(小数点何桁レベルの誤差)に納まるようなサンプル数を算出していると考えます。テレビ視聴率調査は関東では300件のサンプル数程度と聞いていますが、調査会社ではサンプルのとり方がなるべく関東在住の家庭構成と年齢層、性別などの割合が同じになるように、また、サンプルをとる地域の人口分布が同じ割合になるようにサンプル抽出条件を整えた上で、ランダムに抽出しているため、数千万人いる関東の本当の視聴率を割合反映して出しているそうです。これはすでに必要サンプル数の割り出し方がノウハウとして知られていますが、未知の調査項目では必要サンプル数を導き出すためには試行錯誤で適切と判断できる数をひたすら調査するしかないかと思います。

> どのような評価基準をもって客観的に信頼できると判断・・・
 例えば、工場で作られるネジの直径などは、まったくばらつきなくぴったり想定した直径のネジを作ることはきわめて困難です。多少の大きさのばらつきが生じてしまいます。1mm違っても規格外品となります。工場では企画外品をなるべく出さないように、統計を取って、ネジの直径のばらつき具合を調べ、製造工程をチェックして、不良品の出る確率を下げようとします。しかし、製品をすべて調べるわけにはいきません。そこで、調べるのに最低限必要なサンプル数を調査と計算を重ねてチェックしていきます。
 一方、農場で生産されたネギの直径は、1mmくらいの差ならほぼ同じロットとして扱われます。また、農産物は年や品種の違いにより生育に差が出やすく、そもそも規格はネジに比べて相当ばらつき具合の許容範囲が広くなっています。ネジに対してネギのような検査を行っていたのでは信頼性が損なわれます。
 そもそも、統計学的検定は客観的判断基準の一指針ではあっても絶対的な評価になりません。あくまでも最終的に判断するのは人間であって、それも、サンプルの質や検証する精度によって、必要サンプルは変わるのです。

 あと、お礼の欄にあった専門家:統計学者とありましたが、統計学者が指摘できるのはあくまでもそのサンプルに対して適切な検定を使って正しい計算を行ったかだけで、たとえ適切な検定手法で導き出された結果であっても、それが妥当か否か判断することは難しいと思います。そのサンプルが、何を示し、何を解き明かし、何に利用されるかで信頼度は変化するからです。
 ただ、経験則上指標的なものはあります。正規分布を示すサンプルなら、20~30のサンプル数があれば検定上差し支えない(それ以下でも問題ない場合もある)とか、正規分布でないサンプルは最低6~8のサンプル数が必要とか、厳密さを要求される調査であれば50くらいのサンプル数が必要であろうとかです。でも、あくまでも指標です。

> この統計を調べたいときはこれぐらいのサンプル数があれば信頼できる・・・
 調べたいどの集団でも、ある一定数以上なら信頼できるというような決まりはありません。
 何かサンプルを集め、それをなんかの傾向があるかどうかという仮説を検証するために統計学的検定を行って、仮設が否定されるかされないかを調べる中で、どの検定方法を使うかで、最低限必要なサンプル数というのはあります。また、集めたサンプルを何か基準とすべき別のサンプルと比べる検定して、基準のサンプルと統計上差を出すに必要な...続きを読む

Q統計学のサンプル数2000の根拠は?

みなさんこんにちは.

既出でしたら申し訳ないですが,トリビアの泉等で何か統計を調べる際に,統計の専門家が出てきて「2000人も調査すればデータの信頼性は十分だ」などと言っていますよね.

その根拠となる数式なり方法論なりがあるのかな?と思って調べてみたらどうやら↓のページに掲載されている数式のようなのですが,このページを作られている方もその数式の妥当性に疑問を感じておられるらしく,読んでいて余計わからなくなってしまいました.

世論調査におけるサンプリング数の決定
http://www.wound-treatment.jp/next/wound225.htm

どなたか統計学にお詳しい方,簡潔に教えていただけませんでしょうか?(あまりに専門的な議論は理解不能ですのでお手柔らかに‥)よろしくお願いします.

Aベストアンサー

統計的な結果を出す際に、ある信頼度を確保するために必要となる必要サンプル数を決定することはできます。実際、臨床試験や疫学調査などでは必ず行われます。しかしその求め方は、サンプリングや割付の方法といった研究デザインや結果指標として何を見るか、どのような統計的分析方法を使うかによって変わります。それが決まったとしてもどの程度の信頼度を確保するかによって得られる必要サンプル数は変わります。
例えばご質問のリンク先に示されているのは、「単純無作為抽出で結果指標を 2 値の割合とし、正規近似に基づく 2 項確率の推定を行う」場合の式です(サイトの作者はそこまで理解はされていないようですが)。従って「単純無作為抽出で対象者を選び、内閣支持率といった割合で、その真値が極端に 0% や 100% に偏っていないと考えられる場合に、その割合を推定する」のには有効です。そうではなく例えば 2 段階層化抽出で世帯収入の平均値を推定したいといった場合にはまた違った式になります。

つまりどのような場合でも通用するような最小サンプル数といったことは本来言えませんが、ごく一般的に世論調査のような形で単純に内閣支持率のようなものを“それなりの”信頼度をもって調査するのに必要なサンプル数は、通常は 2,000 よりももっと少ないと思います。例えば関東や関西の視聴率調査などはそれぞれ 600 世帯のサンプルに基づいています。その意味で「2,000 あれば十分」という言い方は間違ってはいないと思いますが…。

しかし統計調査の信頼性はサンプル数ももちろん重要ですが、それ以上に調査対象の選定方法(サンプリング方法)が重要です。そのことに言及せずサンプル数がいくつあれば信頼性は充分などと言うのはおかしな話です。1936 年の米国大統領選挙の際にリテラリーダイジェスト社が多額の費用をかけて膨大な人数のアンケート結果を元に共和党の勝利を予想したのにもかかわらず、民主党のルーズベルトが当選して見事に予想が外れたのは有名な話です。これはその後の分析で調査対象に偏りがあったことが主な原因と言われています。

ちなみに「データの信頼性」と「結果の信頼性」は指しているものが異なりますのでご注意ください。サンプル数は「結果の信頼性」にはかかわりますが「データの信頼性」には関係ありません。対して、調査対象の選定方法は両方にかかわります。

統計的な結果を出す際に、ある信頼度を確保するために必要となる必要サンプル数を決定することはできます。実際、臨床試験や疫学調査などでは必ず行われます。しかしその求め方は、サンプリングや割付の方法といった研究デザインや結果指標として何を見るか、どのような統計的分析方法を使うかによって変わります。それが決まったとしてもどの程度の信頼度を確保するかによって得られる必要サンプル数は変わります。
例えばご質問のリンク先に示されているのは、「単純無作為抽出で結果指標を 2 値の割合とし、正...続きを読む

Q標本数が少ないときの検定の仕方

まず、私が今、行おうとしている検定の仕方をご説明します。
1. 非常に時間のかかる測定結果が数件あり、そのうちの1件(標本A)が平均から大きく外れた値を示しています。おそらく測定時になにかの外乱があり、このような値を示したのでしょう。原因を追求するのは、困難なのでこの値をすててしまいたいところです。
2. そこで平均、分散、標準偏差を計算しました。***
3. 標本が正規分布をなすことを仮定して、標本Aよりも大きな平均よりのずれを示す確率を正規分布確率表で確認したところ、16%と出ました。
4. と、いうことはそのような値が生じる確率は16%ある訳で、この値を捨てるのは適切ではない。うーん。残念。←今、ここ。

さて、お聞きしたいのは***の部分です。
今回の場合、この異常値・標本Aを平均、分散、標準偏差の計算に用いることで、大きくこれらの値が変わってしまっています。
たとえば、標本Aを取り除いた上で、平均、分散、標準偏差の計算を行ってみると、標本Aの値が生じ得る確率は0.04%になります。ということはなにか変なことが起こったんだろうね、ということでこの値は捨てていいことになると思います。

しかし、異常値かもしれない値を、最初から取り除いて(つまり特別扱いして)行う検定というのもなんだか、ズルをしているようで変な気がします。

このような計算の仕方(検定の対象となる異常値をあらかじめ除いて検定を行うやりかた)は統計上、正しい手順なのでしょうか?
そもそも標本数が少ないときにはもっと別の手順で検定を行うべきなのでしょうか?

なにぶん、素人なので定義に反した用語の使い方をしているかも知れませんが、何卒よろしくお願いいたします。

まず、私が今、行おうとしている検定の仕方をご説明します。
1. 非常に時間のかかる測定結果が数件あり、そのうちの1件(標本A)が平均から大きく外れた値を示しています。おそらく測定時になにかの外乱があり、このような値を示したのでしょう。原因を追求するのは、困難なのでこの値をすててしまいたいところです。
2. そこで平均、分散、標準偏差を計算しました。***
3. 標本が正規分布をなすことを仮定して、標本Aよりも大きな平均よりのずれを示す確率を正規分布確率表で確認したところ、16%と出ました。
4...続きを読む

Aベストアンサー

かけ離れた値を捨てる処方としては棄却検定があります。
http://www10.plala.or.jp/biostatistics/rejectiontest.htm
http://www1.doshisha.ac.jp/~kibuki/computer/resume/chap13.pdf
などをご参照下さい。

Q相関係数についてくるP値とは何ですか?

相関係数についてくるP値の意味がわかりません。

r=0.90 (P<0.001)

P=0.05で相関がない

という表現は何を意味しているのでしょうか?
またMS Excelを使ってのP値の計算方法を教えてください。

よろしくお願い致します。

Aベストアンサー

pは確率(probability)のpです。全く相関のない数字を組み合わせたときにそのr値が出る確率をあらわしています。

統計・確率には100%言い切れることはまずありません。というか100%言い切れるのなら統計・確率を使う必要は有りません。
例えばサイコロを5回振って全て同じ目が出る確率は0.08%です。そんな時、そのサイコロを不良品(イカサマ?)と結論つけるとわずかに間違っている可能性が残っています。ただ、それが5%以下ならp=0.05でそのサイコロは正常ではないと結論付けます。
それが危険率です。(この場合はp=0.1%でもいいと思いますが)
相関係数においても相関の有無を結論つけるにはそのrが偶然出る確率を出すか、5%の確率ならrがどれぐらいの値が出るかを知っておく必要が有ります。

>r=0.90 (P<0.001)

相関係数は0.90と計算された。相関がないのに偶然r=0.90 となる確率は0.001以下だと言ってます。

>P=0.05で相関がない

相関がないと結論。(間違っている確率は5%以下)だと言ってます。

エクセルでの計算ですが、まず関数CORRELを使ってr値を出します。xデータがA1からA10に、yデータがB1からB10に入っているとして

r=CORREL(A1:A10,B1:B10)

次にそのr値をt値に変換します。

t=r*(n-2)^0.5/(1-r^2)^0.5

ここでnは組みデータの数です。((x1,y1),(x2,y2),・・・(xn,yn))
最後に関数TDISTで確率に変換します。両側です。

p=TDIST(t値,n-2,2)

もっと簡単な方法があるかも知れませんが、私ならこう計算します。(アドインの分析ツールを使う以外は)

pは確率(probability)のpです。全く相関のない数字を組み合わせたときにそのr値が出る確率をあらわしています。

統計・確率には100%言い切れることはまずありません。というか100%言い切れるのなら統計・確率を使う必要は有りません。
例えばサイコロを5回振って全て同じ目が出る確率は0.08%です。そんな時、そのサイコロを不良品(イカサマ?)と結論つけるとわずかに間違っている可能性が残っています。ただ、それが5%以下ならp=0.05でそのサイコロは正常ではないと結論付けます。
それが危険率です。(この場...続きを読む

Qアンケートの集計分析の基礎(無回答の扱い、標本数など)

統計はズブの素人です。施設利用者の満足度アンケート調査をしました。集計分析について下記2点後教授お願い申し上げます。


【1】空欄・無回答の扱い?
   例えば、「あなたは○○に満足しましたか?」という設問の解答は<5:とても満足>~<1:とても不満>までの5段階での回答となっております。
   このとき、集計及びグラフ作成において、度数による棒グラフ(1は10件、2は30件、、、、)と、%による円グラフの表現がわかりやすいと考えております。
   その場合に、無回答の項目も入れるのでしょうか? 
   それてもアンケートにおいて、無回答の取り扱いは、設問の種類(単一回答か、複数科回答か、自由記載か)や内容(「利用が初めてか?」など無回答が理論的にあり得ない場合と、満足度の5段階評価のケースのように無回答が「5段階の評価では回答できない(-1だ!)」というようなことが推測できる場合、などにより対応を考えるべきなのでしょうか? 

【2】標本数について 
 施設は医療施設です。母集団は1年間の利用者数を考えるべきでしょうか? それとも一ヶ月あたりの利用者数(ほとんどの利用者が1ヶ月に一度は施設を利用すると推測できる)を想定するべきでしょうか?
 その母集団の数値(はじき出すことが可能です)を基に、信頼度とか誤差とかといった数値も出すものでしょうか? これら含めて、アンケート報告書に記載すべき基礎的なことと及び常識・慣例的なことを教えて下しさい。アンケートの結果報告書は、主に施設の管理者に対するレベル(公表が必要と判断されれば、利用者にも公開する)とお考え下さい。

 どうかよろしくお願い申し上げます。
  

統計はズブの素人です。施設利用者の満足度アンケート調査をしました。集計分析について下記2点後教授お願い申し上げます。


【1】空欄・無回答の扱い?
   例えば、「あなたは○○に満足しましたか?」という設問の解答は<5:とても満足>~<1:とても不満>までの5段階での回答となっております。
   このとき、集計及びグラフ作成において、度数による棒グラフ(1は10件、2は30件、、、、)と、%による円グラフの表現がわかりやすいと考えております。
   その場合に、無回答の項...続きを読む

Aベストアンサー

No.2で回答した者です、補足を拝見いたしました。

>利用者全体としてどのような傾向があるか
に注目している事と、設問が一つずつ独立している(らしい)という事から、「設問ごとに有効回答のみで統計、ただし無回答の人数もしくは割合も隅っこに記録しておく」というやり方が私の肌には合っていますね。

No.3様への補足中「無回答も含めるのが客観的?」に対しては、No.5様の回答「無回答は質問紙の不備だろう」と私も思います。

ところで、無回答にばかり目がいってしまったので別の観点から。
→データの信頼性、すなわち「施設利用者がへそを曲げて回答したとは言えない根拠」はとれていますか?
例えば、心の底から満足して「満足」に○をつけるのと、「何かよく分からんけれど面倒だから全部『満足』に○つけちゃえ」とは違うものと見なすべきだと思うのですが、その点はOKですか?

ってなことを考えると、そんなに無回答にこだわる意味は無いんですよ。

Qパーセンテージの出し方

パーセンテージの出し方をおしえてください

Aベストアンサー

主人公÷母体×100

Q複数回答のアンケート結果をグラフ化することはできますか

よろしくお願いします。

アンケートを集計している過程で、ふと複数回答をグラフ化することはできるのか?という疑問を持ちました。
いろいろ調べてみましたが、統計学が難しくてわかりません。どなたか説明していただけないでしょうか?

Aベストアンサー

> 選択肢が8つあるとします。
> それぞれ3つ選んだり、5つ選んだりした場合はどうするのですか?

そのアンケートの中身を具体的に聞いて、選択肢もじっくり考える必要がありますが、

(1) 0.333333の重み付けにする(3つ選んだ場合)
(2) 0.25の重み付けにする(5つ選んだ場合)
(3) 0.125 * 3 = 0.375(3つ選んだ場合)、0.125 * 5 = 0.625(5つ選んだ場合)の重み付けにする。

たとえば、アンケートが安い商品に関するもので、8つのうち5つ選んだすべてを買う気になれば買えるというなら(3)、
あるいは、高価な製品の場合、3つに絞った方が5つの時より買える可能性がおおきいと判断するなら、(1), (2)ではないか?

Q[統計]「●●な人は△△ですか?」 必要な標本数は?

俺は統計は素人です。

よく人間関係カテゴリで見かける気がする

「背の低い人はダメですか?」
とかその他諸々。

自分はあまり回答を読みに行かないのだが、自分の経験から話す人が多く、実験やらソースやらを示している人は少ないんじゃないかと考えた。

もちろん、「人によって異なる」とか「誤差が出る」のだろうけど、「日本国民の90%以上の人についてはYESである」と明言するためにはアンケートで何人ぐらいの標本を採ればいいのだろう?

教えてgooのアンケートで回答する回答者にも偏りがあるだろうが、ここでは無視したいなぁ・・・
========
うまく質問内容が伝わっているだろうか?

Aベストアンサー

 母集団である対象人口Nが小さい場合はイロイロ細かいことが出て来て難しくなりますんで、ここではNがすごく大きいとします。で、ある質問に「YES」と答える人がNp人(0≦p≦1)いるとします。
 すると、このN人の中からランダムにM人を選んで同じ質問をしたとき、「YES」と答える人の数が丁度r人になる確率は二項分布
B(M,p,r) = combin(M,r) (p^r) ((1-p)^(M-r))
になります。平均は m= Mp, 分散は σ^2 = Mp(1-p) です。
 さて、Mが大きいとき、B(M,p,r)は平均m,分散σ^2の正規分布で近似できます。従って、r/Mがm/M-ε~m/M+εの範囲に入る確率を例えば95%以上にしたければ、εM≒2σになるようにσを決めれば良い。一般にεM≒kσ(kは信頼度係数)とすると、
(εM)^2≒(k^2)Mp(1-p)
だから、
M≒((k/ε)^2)p(1-p)
となります。p=1/2のときにMは最大になって、
Mmax ≒ ((k/ε)^2)/4

 ここでさらにk=2(95%の信頼度)に固定してみると、
Mmax(k=2) ≒ (1/ε)^2
ですから、例えばMmax(k=2)=1500とすると逆に、ε≒1/√1500≒1/40=2.5ポイントと分かります。つまり、「±2.5ポイント程度の誤差を許して、95%の信頼度なら1500人ぐらい」というコトです。(±2.5ポイントっていうのは、例えば、「YESと答える人が40~45%です」という時の幅である5の半分です。)

 ところでご質問ではp=0.9ですから、
M≒0.09((k/ε)^2)
k=2(95%の信頼度)にすると、誤差範囲±2.5ポイントなら600人ぐらい、±0.5ポイントなら14000人ぐらいってこってすね。もちろん、pがあらかじめ予想できていない場合には、最悪のケース、つまりp=0.5で調査対象人数Mを決めるしかありません。

 母集団である対象人口Nが小さい場合はイロイロ細かいことが出て来て難しくなりますんで、ここではNがすごく大きいとします。で、ある質問に「YES」と答える人がNp人(0≦p≦1)いるとします。
 すると、このN人の中からランダムにM人を選んで同じ質問をしたとき、「YES」と答える人の数が丁度r人になる確率は二項分布
B(M,p,r) = combin(M,r) (p^r) ((1-p)^(M-r))
になります。平均は m= Mp, 分散は σ^2 = Mp(1-p) です。
 さて、Mが大きいとき、B(M,p,r)は平均m,分散σ^2の正規分布で近似できます。従って、r/...続きを読む

Q母数の意味

母数という言葉の意味を教えてください。

母集団の特性を表す値などという説明がありますが、
わかったようでわかりません。

標本数と同義で母数という単語を使っている人がいるので、
母数とは標本数と同義で使っていいのでしょうか?
今のところ、母数とは母集団の全体の数という意味だと思っています。

例えば、国会議員は日本国民の代表であるなどと言う場合、
国会議員が標本数で日本国民全体が母数という意味だと思っていますが、
ある人は国会議員の数を母数という意味で使っています。

母数とはそのような使い方もあるのでしょうか?

よろしくお願いします。

Aベストアンサー

こんばんは、
標本数と母数は違います。
標本数は母数から無作為(ある一定の規則の基)に抽出された数のことですので、標本数=母数とはしません。標本数が母数ほどないが、母数に近いくらい多い場合や、誤差を無視できる場合、標本数=母数とする場合があります。
たとえにある国会議員の例はあまりいい例ではありません。身近な例としてはわかりやすいのですが、本質をとらえようとすると、良くありません。
例の議員数を母数とする使い方もあります。
例えば、全議員のうち無作為の100人のアンケートとといった場合全議員(=母数)、100人の議員(標本数)
となります。しかし、その数字は数学的には全く信用ならない数字ですが。
次に、貴方の例での用法の検証です。
国民の代表の用法ですが、感覚的使用としてはOKですが(初学者対象とした導入例もでもOK)、数学的意味では全くだめです。
なぜ、だめかというと、議員の(選出)抽出の仕方に問題があるからです。標本数の抽出には意図が混ざってはいけないのです。日本の当選のシステムでは、この数学的要件(意図的要素がないこと)を満たしませんし、投票率も5割6割程度ではとても国民の代表とはいえません。

こんばんは、
標本数と母数は違います。
標本数は母数から無作為(ある一定の規則の基)に抽出された数のことですので、標本数=母数とはしません。標本数が母数ほどないが、母数に近いくらい多い場合や、誤差を無視できる場合、標本数=母数とする場合があります。
たとえにある国会議員の例はあまりいい例ではありません。身近な例としてはわかりやすいのですが、本質をとらえようとすると、良くありません。
例の議員数を母数とする使い方もあります。
例えば、全議員のうち無作為の100人のアンケートとと...続きを読む

QWord 文字を打つと直後の文字が消えていく

いつもお世話になっています。
Word2000を使っているものです。
ある文書を修正しているのですが,文章中に字を打ち込むと後ろの字が消えてしまいます。
分かりにくいですが,
「これを修正します。」
という文章の「これを」と「修正します。」の間に「これから」という単語を入れたときに,その場所にカーソルを合わせて「これから」と打つと,
「これをこれからす。」
となってしまいます。
他の文書では平気です。
何か解決する方法があれば教えて下さい。

Aベストアンサー

入力モードが「挿入」(普通の入力)から、「上書き」になってしまっているのだと思われます。
キーボードに[Insert]というキーがあると思いますので、1度押してみてください。


このQ&Aを見た人がよく見るQ&A

人気Q&Aランキング