![](http://oshiete.xgoo.jp/images/v2/pc/qa/question_title.png?e8efa67)
たとえば、何の花が好きかというアンケートを5年間取り、以下の結果が出たとします。
(被験者数は不揃いで、100人、50人、40人、80人、30人とします。)
○「コスモス」が毎年最多で、年ごとに回答の70%、65%、60%、61%、64%だった。
このなかで、70%だけが少し高いのですが、これが誤差範囲なのか、それとも少し「高い」と
言えるかを統計で判断する場合についての質問です。
この5年分の値(実数では府ぞ沿いなので%でもいいのでしょうか)を平均し、これを期待値
として使用する。
コスモスが、その期待値から離れていると言えるかどうかを検定する(t検定でしょうか・・・)
以上のなかで、期待値の立て方と検定方法はこれでいいのでしょうか。
教えてくださいましたら助かります。
よろしくお願いいたします。
No.8ベストアンサー
- 回答日時:
No.7です。
「お礼」に書かれたことについて。>お書きになっている「各年の平均コスコス愛好人数」というのは、11年間の平均値、
という理解でよろしいでしょうか。
(各年のコスモス愛好人数はすでにわかっていますので、その平均ですね?)
いいえ。
11年間の「トータルのコスモス愛好者率」を求めて、これは年によって変わらないと仮定して、各年の「アンケート人数」にこの「平均愛好者率」をかけて、各年の「アンケート人数中の期待されるコスモス愛好者数」を求めるということです。この「期待される愛好者数」と「実際にアンケートでコスモスが好きと回答した人数」の差が「偏差」となると思います。
このやり方が常に正解というわけではありませんが、「11年間の母集団のコスモス愛好者率は変わらない」と仮定するなら、こういうやり方が適切かと思います。
あとは、統計は、「概略のあたりを付ける」(傾向や、損得のいずれかの判定など)という場面と、「詳細に数値を求める」(賭け事で1円でも多くリターンがあるようにする、損得を詳細に予測するなど)という場面がありますので、場合によって方法を使い分けることも必要かと思います。
たびたびどうもありがとうございます。
偏差に相当すると考えていたものが誤っていたことに、はっきりと
気付きました。
ご説明くださった内容にとても納得がいきました。
そうですね、偏差はそこのところの数値ですね。
わたしは、パーセンテージで測り、期待値を、そのパーセンテージの
平均と設定してしまっていました・・・。
また、目的によって統計の方法を使い分けることに関しても、
ご助言、どうもありがとうございました。
今回は正確な数値でなく、「増減」や「不変」などが言えればよい
という状況でした。
本当に助かりました。
ご教示くださいました方法で、なんとか数値を出してみます!
No.7
- 回答日時:
No.5です。
やはり気になっていた通りでした。>平均値もこの11回分のパーセンテージの平均の値となります。
パーセンテージをそのまま平均してはだめですよ! 母数が違うのですから。
投票した総数と、「コスモス」に投票した人の総数から計算すべきです。
100人、50人、40人、80人、30人の合計 300人 が投票して、
70%=70人、65%=32.5人、60%=24人、61%=48.8人、64%=19.2人 の合計194.5人 がコスモスに投票(何で端数が出るのでしょうね?)
よって、コスモス愛好率は、64.83% です。
合っていますか?
標準偏差も、パーセンテージからではなく、上記のコスモス愛好率から各年の平均コスモス愛好人数を割り出して、毎年のアンケートの人数とで計算しなければだめですよ。
統計は、数字のお遊びやマジックではありませんから、「意味のある数字」を使って処理することが大事なのです。
比率の比較というのは成立しないのでしょうか・・・すくなくとも、こういうやり方では
無理なのでしょうね。
どれだけの人がそれに投票したかというのは、投票した割合を知りたいということで、
割合そのものを比べてみては?と思ったものですから。
(さきほど提示しましたパーセンテージは概数です。)
もちろん、母数が違うもの同士で40%と60%の平均が50%である、などというのが
おかしいとは思います。
思いつつもやってしまっていました・・・。
お書きになっている「各年の平均コスコス愛好人数」というのは、11年間の平均値、
という理解でよろしいでしょうか。
(各年のコスモス愛好人数はすでにわかっていますので、その平均ですね?)
そして、単に平均するだけでは母数の違いが反映されないので、アンケートの人数も
加味するという理解でよろしいでしょうか。
(・・・最初そんなふうに地味にやっていたところ、先輩に一蹴されてしまったのですが。)
畑違いのにわか修行者には、当たり前の原理さえまだちゃんと見えておりません・・・。
ただ、データが示すことをちゃんと提示したいので、教えてくださいました内容、
たいへんありがたく、感謝しております。
考え直してまたやってみます。
No.6
- 回答日時:
例えばです
「
11本のりんごの木から果実を収穫した(木ごとにりんごの数は違う)。
各木ごとに商品として出荷できるりんごを数えたら~%(No.4の回答に書いたもの)のようになった
大体全体的に見ると60%ほど使える
9本目では44%だったが、これはこの木が悪かった(日当たりが悪い、虫にたかられた、遺伝的なものetc...)のか?それとも偶然?
」
こういう感じで考えてみます
たとえば、9本目の木で実が5個しか取れなかったとしたら、期待される良い実は3個でしょう
でも、偶然2個になる可能性もありますよね?2個になってしまったらそれだけで40%です
ですので、試しに全部の実を混ぜて5個取り出すことを100回してみましょう
じゃあ、当たりが0個の時もあれば5個の時もあるでしょう
まぁ、3個が一番多いでしょうが
で、2個になる確率(もしくは、2個、1個、0個になる確率)も100回中何回あったか数えたら求まります
これが、1回とかしかないならめったに起きないことなので、この木はダメだなぁとなります
一方、10回とか起きるなら、まぁ偶然かなぁと思って来年に様子を見ます(悪かったとは言えない。決して普通といえるわけではない)
さらに実際にやるのではなく、出荷に使える実を○、ダメな実を☓としてコンピュータシミュレーションできるので、100万回とか試してより確実な確率分布を求めます
この場合は、他の10グループで差はないものとしている(差を許容できるものとしてみなしている)ので、その差そのものが許容できないようなものの場合は使えないです
No.2で言ったのはこういうことを可能ならされてみては?ということです
9グループ目の母数で全体から取り出してみた時に44%以下となることがめったにないなら、偶然ではなく何らかの要因のせいで悪いのかもね、と言えるかなと思います
そういうのみでやってる統計がありそうな気はしますが
もしくはブートストラップ法を9グループ目に実行するかですね
りんごの例に戻ると、9本目の木から取れた5個のみから1個取り出して戻します。これを5回繰り返します。そして当たりの数を数えます。
(これは、「りんごが今回5個しかないけど50個あったとしたら20個は当たりのはずだよね。じゃあ、その中から5個収穫したらどうなるかをみてみよう」という操作です)
この場合も0個の時もあれば5個の時もあります
これを100万回とか繰り返して0個の時xx回、1個の時xx回みたいなヒストグラムや平均、分散を計算します
で、その分散から60%(3個)以上になることが、偶然で起こりえるような数かどうかをみます (平均40, 分散20とかなら十分起こりえますし、分散5とかなら60は滅多に起きません)
たぶん、これであってると思いますが自信はないです
詳しく書いてくださって本当にどうもありがとうございます。
ブートストラップ法ですか、初めて耳にしました・・・
これについて理解できるよう、原理と具体的な方法を自分でも調べてみます。
明日は早朝から別件で一日奪われますが、月曜日までに何とかできればと思います。
貴重なご助言に助けられております。
No.5
- 回答日時:
No.3です。
「お礼」に書かれたことについて。>平均から標準偏差の範囲外に当たる場合に「差がある」とみなしているものを
読んだことがあるのですが、そういう基準では難しいでしょうか・・・。
ご質問のようなケースの場合、アンケートの答えに「コスモス」と書いた数を数えているだけなので、「標準偏差」とか「分散」といった概念はあてはまりません。
たとえば、「100人中。70人が「コスモス」と回答した」ということに対する「標準偏差」とは何ですか?
お書きなのは、「検定」ということかと思いますが、その場合には「信頼度10%」とか「5%」ということで、かなり「平均値から大きく外れている」ことを議論します。
たとえば、標準偏差の2倍以上外れているのが、ほぼ全体の「5%」です。
標準偏差の1倍以内には、全体の約68%しか入りません。全体の1/3弱が、標準偏差の範囲外に外れるということです。
>わたしの場合、そのように計算すると、標準化変量が2.5を超えますので
ここだけ多い、と言えるような気もするのですが、自信ありません。
ご質問の毎年のデータから、平均値や標準偏差を計算したということですか?
毎年の「コスモス愛好率」の「平均」とか「標準偏差」を計算しても、「母集団の平均、標準偏差自体が変化している」のか、サンプリングに偏りが大きいのか、サンプリング数が影響しているのか、複数の条件の何が影響しているのかは分かりません。
「この程度の変動ならあり得る」「こんなに変動するはずがない」という議論をするための根拠が足らないのです。
再びどうもありがとうございます。
比較していますのは、そのように回答した数の比率です。
No4さんの「お礼」の欄に追記させていただきましたが、11回分の割合です。
ですので、その回答数の偏りを見ようと思いました。
平均値もこの11回分のパーセンテージの平均の値となります。
実際にわかっているのは、該当の回答数(および該当しない回答数)で、
実数としては10程度から60程度とかなりばらつきがあり、
パーセンテージでは先の「お礼」に記しましたような数です。
・・・皆さま本当に大切なことをご指摘くださって、どうもありがとうございます。
ご親切に心から感謝申し上げます。
No.4
- 回答日時:
私も統計家ではないですし、統計嫌いで勉強しない人なのであれですが・・・
とりあえず、どういう仮定を置いているのかを明確にしないと答えようがないと思います
「2~4年はバラつきがあるもののこれは母集団(全人類)から取り出した時に起こりうる自然で標準的なバラつきであり、1年目のみ何らかの原因により異常である」
これを統計的に優位かどうかを調べたいということで良いですか?(何らかの要因がブームやアンケート場所がコスモスの公園だったなど何だったのかを解き明かすのはまた別の話です)
すみませんが、補足コメントの「サンプルではなく、それ自体を測る目的のもの」というのが余りわからないです
好き、嫌いの2値ではなく、300gとかの数値
ということでしょうか?(データ数は複数の物が複セット。例えば複数の被験者や物体相手に、同じ試行を何度か繰り返してる)
それとも例えば
「合金があり、その重さが100g, 50g, 80g, 30gで、比熱を図ったら70J/g, 65J/g, 60J/g, 61J/g, 64J/gだった」(データはかなり適当です)
という感じですか?(データは5つしかない)
ちょっと、もう少し実際のデータに近い例じゃないと答えようがない(そもそも出されても私には手に負えない可能性が大ですが)気がします
No.3さんの回答のお礼に「標準偏差外なら~」とありますが、正規分布を仮定すると1σ以上になる確率は15%以上です (正規分布表で調べて下さい)
せめて1.7σぐらい(5%優位)は必要だと思います
以上、もしくは以下の確率(つまり平均から外れていない確率)だと2σで95%となります (要するに平均から2σ以上離れる確率は5%未満。偶然ではあまり起きない。)
どちらにしろ1σは甘すぎると思います
二度にわたり、どうもありがとうございます。
曖昧な説明ですみません。
私の場合、大きな母集団のサンプルから、その母集団を推測するというものではなく、
取り出したデータそのものの値だけを対象にしています。
(偏差で言えば標本標準偏差ではなく母標準偏差に当たります。)
書いてくださっている例のように数値が対象ですが、投票数のようなものです。
ただ、データそのものは取れた数が異なり、単純に比較できませんので、取れた数に
対する該当数をパーセンテージで示し、それは11個あります。
簡単な数字で示すと、60%、61%、62%、57%、58%、60%、61%、55%、
44%、64%、67% といった値です。(順不同で失礼いたします。)
この44%が低いと言えないかな?と思った次第です。
ただ、標準偏差が1σではやはり緩過ぎますね・・・
さきほど自分のやりたいことと近いものはないかネットを調べていると、企業ですが、
このような記事がありました。
http://labs.xica-inc.com/2014/11/introduction-to …
ただこれも1σですので、基準は甘いですね。
統計は傍らで聞きかじっただけですので、必要に迫られた今、苦労しています。
ご助言、どうもありがとうございます。
No.3
- 回答日時:
この場合のバラツキには、「もともとの母集団の変動要素」と、それに加えて「母集団とサンプルの差」、「サンプル数に起因する誤差」といった要素があって、正確には評価できないと思います。
ただし、「もともとの母集団の変動要素」や「母集団とサンプルの差」はないとして、これがアンケート対象者の数でどう変わるかは評価できると思います。
サンプル数に依存する誤差は、おおむね「サンプル数の平方根」に比例すると言われています。
概算のため、「サンプル数の平方根そのもの」と仮定して評価すると、
100人のとき √100=10 → 70人 ± 10人 → 70 ± 10%
50人のとき √50=7 → 32.5人 ± 7人 → 65 ± 14%
40人のとき √40=6.3 → 24人 ± 6.3人 → 60 ± 16%
80人のとき √80=8.9 → 48.8人 ± 8.9人 → 61 ± 11%
30人のとき √30=8.9 → 19.2人 ± 5.5人 → 64 ± 18%
正確なものではありませんが、こんな程度の誤差は持っていると考えられますので、まあ「誤算の範囲内」と考えてよいのではないかと思います。
正確に調べるには、例えば1万人にアンケートすれば、誤差は√10000=100人で、1%ということになります。
ご回答、どうもありがとうございました。
最初に書いてくださっている二行分の内容、本当にそうだと思います。
統計は数学と似ていると言われますが、このようなグレーな部分の解釈というのは
通常の数学よりも難しく感じられます。
平均から標準偏差の範囲外に当たる場合に「差がある」とみなしているものを
読んだことがあるのですが、そういう基準では難しいでしょうか・・・。
わたしの場合、そのように計算すると、標準化変量が2.5を超えますので
ここだけ多い、と言えるような気もするのですが、自信ありません。
No.2
- 回答日時:
かなり適当に答えますが
何をしたいかとりあえず整理しましょう
一年目のコスモスと答えた率がほかより多い(コスモスブームが起きた)かどうかを知りたいのか、コスモスそのものが人気なのか知りたいのかどちらです?
後半ではコスモスが人気かどうか知りたいように聞こえますが
これはどの年も優位に50超えてるので、人気と言えると思いますが
前者なら、標本数が少すぎる気がします
あってるか分かりませんが、とりあえずの方法を
全年度のデータを混ぜます
その中から適当な人数(1年目の人数に合わせて100人)取り出し、何人の人が好きと答えてるかを数えます
また、100人取り直して…とすれば全年度を通しての平均値Eとその分散が求まります
(これは大数の法則により正規分布に従うはずです)
あとは、Z変換で70%以上になる確率求めれば、それらしい値は出るかと
ご回答どうもありがとうございます。
求めたいのは、前者に関する判断です。
これを母集団として、新たにサンプルを取り出すような感じでしょうか。
先生は標準化変量云々と仰っていましたが、確認できませんでした。
現実的にサンプル数が限られていますのでその点は仕方がないのですが、
誤差かどうかを提示したいと思っています。
・・・計画的にとったデータではなく、データありきの実証課題です。
No.1
- 回答日時:
どこまで正確な統計を取るかにもよりますけど、
時代背景なんかのエビデンス位は抑えておいた方がいいかも?
たとえば、70%の年に新種のコスモスが発見されたり
開発されていたりコスモスが好きだと言う人が増えそうな
要素があれば誤差に含めてしまうと少々無理がありますし、
そういうものがなければ偶然出あったり誤差である可能性が
毅いですよね。
早々にありがとうございます。
そういうことも検討する必要がありますね。
ただ、数字でも出す必要があります。
それで期待値等の質問をさせていただきました。
あれから考えて、自分としては、この場合、平均値=期待値のように思えます。
あと、検定は標準化変量を見た方がいいでしょうか。
そのあたり、アドバイスくださると助かります。
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
似たような質問が見つかりました
- 高校受験 夏休み、本気で勉強を頑張りたい 2 2022/07/03 16:33
- 統計学 確率統計の問題です。 3 2022/04/07 04:39
- 大学・短大 大学 統計学 1 2022/09/14 11:27
- 統計学 統計学の質問【帰無仮説】 高校の新学習指導要領では、統計的仮説検定の基本的な考え方が必修単元となった 5 2023/05/23 21:00
- 統計学 t検定について教えてください 2 2023/02/23 16:35
- 統計学 どの統計を使えばいいのか教えてください(EZ-Rを使用) 5 2022/10/11 13:28
- 統計学 偏差値に直すための線形変換に解が無い。がベストアンサーとは如何か 2 2022/07/06 20:56
- 統計学 統計学が分かりません!詳しい解説と回答を教えてくださる方お願いいします! 5 2022/08/23 03:10
- 統計学 処理Aと処理A+Bの2群の差から、AとBの効果や相対的重要性を定量したい 5 2023/02/22 09:42
- 統計学 前回イベントと今回イベントのデータ集計について 質問させてください。 イベント参加者の内アンケートを 3 2022/09/30 22:23
おすすめ情報
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
統計でいう「n」は、何の略な...
-
N数?n数?サンプル数の「エヌ...
-
評価者により採点に差が出るこ...
-
t検定のt値について
-
統計学-母集団が少ない場合の...
-
仮説検定
-
有意差があってもサンプルサイ...
-
多数決 統計学に詳しい方教え...
-
エクセルで「集団から最大値、...
-
サンプルサイズで悩んでいます
-
行列の行と列に対称性がないり...
-
分布からみた 標準偏差、標準...
-
試行回数と誤差の関係
-
数量化3類について
-
「中心極限定理でサンプリング...
-
t検定って何ですか
-
統計学の検出力の問題が分から...
-
内閣支持率に差があるか、の検...
-
Zスコアと標準偏差について
-
モーメント法による母集団の偏...
おすすめ情報
すみません、補足させてください。
先ほど「これを母集団として、新たにサンプルを取り出すような感じでしょうか。」と
書きましたが、これはこちらからお尋ねしている内容でした。
わたしのデータはサンプルではなく、それ自体を測る目的のものです。
(コスモスというのはたとえです。)
意味がわかりにくくてすみませんでした。
ご回答くださいました皆さまがた、本当にどうもありがとうございました。
お陰さまで、何とか数字を出して提示することができました。
統計は独学ですが、こうして教えてくださる方がおられれたために、今回はクリアできました。
これからはもっと数値と関わっていくことになるかもしれませんが、頑張っていこうと思います。
心から感謝申し上げます。
個別にお礼をお伝えしたかったのですが、今見ると、お礼は一度しか書けないことに
なっていましたので、こちらに書きます。
スチールウールさん、方法を、とても詳しく何度もご教示くださって、また基本的な
注意点もお示しくださって、どうもありがとうございました。
そしてyhr2さん、最後に書いてくださった方法で、数値を出しました。わかりやすく
説明してくださって、とても助かりました。どうもありがとうございました。