初歩の統計の質問です

Question

たとえば、何の花が好きかというアンケートを5年間取り、以下の結果が出たとします。
（被験者数は不揃いで、100人、50人、40人、80人、30人とします。）

○「コスモス」が毎年最多で、年ごとに回答の70%、65%、60%、61%、64%だった。

このなかで、70%だけが少し高いのですが、これが誤差範囲なのか、それとも少し「高い」と
言えるかを統計で判断する場合についての質問です。

この5年分の値（実数では府ぞ沿いなので%でもいいのでしょうか）を平均し、これを期待値
として使用する。
コスモスが、その期待値から離れていると言えるかどうかを検定する（t検定でしょうか･･･）

以上のなかで、期待値の立て方と検定方法はこれでいいのでしょうか。
教えてくださいましたら助かります。
よろしくお願いいたします。

yhr2 · Accepted Answer

No.7です。「お礼」に書かれたことについて。

＞お書きになっている「各年の平均コスコス愛好人数」というのは、11年間の平均値、
という理解でよろしいでしょうか。
（各年のコスモス愛好人数はすでにわかっていますので、その平均ですね？）

いいえ。
11年間の「トータルのコスモス愛好者率」を求めて、これは年によって変わらないと仮定して、各年の「アンケート人数」にこの「平均愛好者率」をかけて、各年の「アンケート人数中の期待されるコスモス愛好者数」を求めるということです。この「期待される愛好者数」と「実際にアンケートでコスモスが好きと回答した人数」の差が「偏差」となると思います。

このやり方が常に正解というわけではありませんが、「11年間の母集団のコスモス愛好者率は変わらない」と仮定するなら、こういうやり方が適切かと思います。

あとは、統計は、「概略のあたりを付ける」（傾向や、損得のいずれかの判定など）という場面と、「詳細に数値を求める」（賭け事で1円でも多くリターンがあるようにする、損得を詳細に予測するなど）という場面がありますので、場合によって方法を使い分けることも必要かと思います。

yhr2 · Answer

No.5です。やはり気になっていた通りでした。

＞平均値もこの11回分のパーセンテージの平均の値となります。

パーセンテージをそのまま平均してはだめですよ！　母数が違うのですから。
投票した総数と、「コスモス」に投票した人の総数から計算すべきです。

100人、50人、40人、80人、30人の合計　300人　が投票して、
70%=70人、65%=32.5人、60%=24人、61%=48.8人、64%=19.2人　の合計194.5人　がコスモスに投票（何で端数が出るのでしょうね？）

よって、コスモス愛好率は、64.83％　です。
合っていますか？

標準偏差も、パーセンテージからではなく、上記のコスモス愛好率から各年の平均コスモス愛好人数を割り出して、毎年のアンケートの人数とで計算しなければだめですよ。

統計は、数字のお遊びやマジックではありませんから、「意味のある数字」を使って処理することが大事なのです。

スチールウール · Answer

例えばです
「
11本のりんごの木から果実を収穫した(木ごとにりんごの数は違う)。
各木ごとに商品として出荷できるりんごを数えたら～％(No.4の回答に書いたもの)のようになった
大体全体的に見ると60%ほど使える
9本目では44%だったが、これはこの木が悪かった(日当たりが悪い、虫にたかられた、遺伝的なものetc...)のか？それとも偶然？
」
こういう感じで考えてみます

たとえば、9本目の木で実が5個しか取れなかったとしたら、期待される良い実は3個でしょう
でも、偶然2個になる可能性もありますよね？2個になってしまったらそれだけで40%です
ですので、試しに全部の実を混ぜて5個取り出すことを100回してみましょう
じゃあ、当たりが0個の時もあれば5個の時もあるでしょう
まぁ、3個が一番多いでしょうが
で、2個になる確率(もしくは、2個、1個、0個になる確率)も100回中何回あったか数えたら求まります
これが、1回とかしかないならめったに起きないことなので、この木はダメだなぁとなります
一方、10回とか起きるなら、まぁ偶然かなぁと思って来年に様子を見ます(悪かったとは言えない。決して普通といえるわけではない)
さらに実際にやるのではなく、出荷に使える実を○、ダメな実を☓としてコンピュータシミュレーションできるので、100万回とか試してより確実な確率分布を求めます
この場合は、他の10グループで差はないものとしている(差を許容できるものとしてみなしている)ので、その差そのものが許容できないようなものの場合は使えないです

No.2で言ったのはこういうことを可能ならされてみては？ということです
9グループ目の母数で全体から取り出してみた時に44%以下となることがめったにないなら、偶然ではなく何らかの要因のせいで悪いのかもね、と言えるかなと思います
そういうのみでやってる統計がありそうな気はしますが

もしくはブートストラップ法を9グループ目に実行するかですね
りんごの例に戻ると、9本目の木から取れた5個のみから1個取り出して戻します。これを5回繰り返します。そして当たりの数を数えます。
(これは、「りんごが今回5個しかないけど50個あったとしたら20個は当たりのはずだよね。じゃあ、その中から5個収穫したらどうなるかをみてみよう」という操作です)
この場合も0個の時もあれば5個の時もあります
これを100万回とか繰り返して0個の時xx回、1個の時xx回みたいなヒストグラムや平均、分散を計算します
で、その分散から60%(3個)以上になることが、偶然で起こりえるような数かどうかをみます (平均40, 分散20とかなら十分起こりえますし、分散5とかなら60は滅多に起きません)

たぶん、これであってると思いますが自信はないです

yhr2 · Answer

No.3です。「お礼」に書かれたことについて。

＞平均から標準偏差の範囲外に当たる場合に「差がある」とみなしているものを
読んだことがあるのですが、そういう基準では難しいでしょうか･･･。

ご質問のようなケースの場合、アンケートの答えに「コスモス」と書いた数を数えているだけなので、「標準偏差」とか「分散」といった概念はあてはまりません。
たとえば、「100人中。70人が「コスモス」と回答した」ということに対する「標準偏差」とは何ですか？

お書きなのは、「検定」ということかと思いますが、その場合には「信頼度10％」とか「5％」ということで、かなり「平均値から大きく外れている」ことを議論します。
たとえば、標準偏差の2倍以上外れているのが、ほぼ全体の「5％」です。
標準偏差の1倍以内には、全体の約68％しか入りません。全体の1/3弱が、標準偏差の範囲外に外れるということです。

＞わたしの場合、そのように計算すると、標準化変量が2.5を超えますので
ここだけ多い、と言えるような気もするのですが、自信ありません。

ご質問の毎年のデータから、平均値や標準偏差を計算したということですか？
毎年の「コスモス愛好率」の「平均」とか「標準偏差」を計算しても、「母集団の平均、標準偏差自体が変化している」のか、サンプリングに偏りが大きいのか、サンプリング数が影響しているのか、複数の条件の何が影響しているのかは分かりません。
「この程度の変動ならあり得る」「こんなに変動するはずがない」という議論をするための根拠が足らないのです。

スチールウール · Answer

私も統計家ではないですし、統計嫌いで勉強しない人なのであれですが・・・

とりあえず、どういう仮定を置いているのかを明確にしないと答えようがないと思います
「2~4年はバラつきがあるもののこれは母集団(全人類)から取り出した時に起こりうる自然で標準的なバラつきであり、1年目のみ何らかの原因により異常である」
これを統計的に優位かどうかを調べたいということで良いですか？（何らかの要因がブームやアンケート場所がコスモスの公園だったなど何だったのかを解き明かすのはまた別の話です）

すみませんが、補足コメントの「サンプルではなく、それ自体を測る目的のもの」というのが余りわからないです
好き、嫌いの2値ではなく、300gとかの数値
ということでしょうか？(データ数は複数の物が複セット。例えば複数の被験者や物体相手に、同じ試行を何度か繰り返してる)
それとも例えば
「合金があり、その重さが100g, 50g, 80g, 30gで、比熱を図ったら70J/g, 65J/g, 60J/g, 61J/g, 64J/gだった」（データはかなり適当です）
という感じですか？（データは5つしかない）

ちょっと、もう少し実際のデータに近い例じゃないと答えようがない(そもそも出されても私には手に負えない可能性が大ですが)気がします

No.3さんの回答のお礼に「標準偏差外なら～」とありますが、正規分布を仮定すると1σ以上になる確率は15%以上です (正規分布表で調べて下さい)
せめて1.7σぐらい(5%優位)は必要だと思います
以上、もしくは以下の確率(つまり平均から外れていない確率)だと2σで95%となります (要するに平均から2σ以上離れる確率は5%未満。偶然ではあまり起きない。)
どちらにしろ1σは甘すぎると思います

yhr2 · Answer

この場合のバラツキには、「もともとの母集団の変動要素」と、それに加えて「母集団とサンプルの差」、「サンプル数に起因する誤差」といった要素があって、正確には評価できないと思います。

ただし、「もともとの母集団の変動要素」や「母集団とサンプルの差」はないとして、これがアンケート対象者の数でどう変わるかは評価できると思います。
サンプル数に依存する誤差は、おおむね「サンプル数の平方根」に比例すると言われています。

概算のため、「サンプル数の平方根そのもの」と仮定して評価すると、
　　100人のとき　　√100＝10　→ 70人 ± 10人 → 70 ± 10%
　　50人のとき　　√50＝7　→ 32.5人 ± 7人　→ 65  ± 14%
　　40人のとき　　√40＝6.3　→ 24人 ± 6.3人　→ 60  ± 16%
　　80人のとき　　√80＝8.9　→ 48.8人 ± 8.9人　→ 61  ± 11%
　　30人のとき　　√30＝8.9　→ 19.2人 ± 5.5人　→ 64  ± 18%

正確なものではありませんが、こんな程度の誤差は持っていると考えられますので、まあ「誤算の範囲内」と考えてよいのではないかと思います。
正確に調べるには、例えば1万人にアンケートすれば、誤差は√10000＝100人で、１％ということになります。

スチールウール · Answer

かなり適当に答えますが

何をしたいかとりあえず整理しましょう
一年目のコスモスと答えた率がほかより多い(コスモスブームが起きた)かどうかを知りたいのか、コスモスそのものが人気なのか知りたいのかどちらです？
後半ではコスモスが人気かどうか知りたいように聞こえますが
これはどの年も優位に50超えてるので、人気と言えると思いますが

前者なら、標本数が少すぎる気がします
あってるか分かりませんが、とりあえずの方法を
全年度のデータを混ぜます
その中から適当な人数(1年目の人数に合わせて100人)取り出し、何人の人が好きと答えてるかを数えます
また、100人取り直して…とすれば全年度を通しての平均値Eとその分散が求まります
(これは大数の法則により正規分布に従うはずです)
あとは、Z変換で70%以上になる確率求めれば、それらしい値は出るかと

ファンタ · Answer

どこまで正確な統計を取るかにもよりますけど、
時代背景なんかのエビデンス位は抑えておいた方がいいかも？

たとえば、７０％の年に新種のコスモスが発見されたり
開発されていたりコスモスが好きだと言う人が増えそうな
要素があれば誤差に含めてしまうと少々無理がありますし、
そういうものがなければ偶然出あったり誤差である可能性が
毅いですよね。

初歩の統計の質問です

No.7です。

No.5です。

例えばです

No.3です。

私も統計家ではないですし、統計嫌いで勉強しない人なのであれですが・・・

この場合のバラツキには、「もともとの母集団の変動要素」と、それに加えて「母集団とサンプルの差」、「サンプル数に起因する誤差」といった要素があって、正確には評価できないと思います。

かなり適当に答えますが

どこまで正確な統計を取るかにもよりますけど、

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング