これからの季節に親子でハイキング! >>

あるデータを統計処理しています。
加重平均(重み付き平均)を計算し、
その標準偏差を求めようとしています。
私はあまり統計に詳しくないので、
加重平均の標準偏差の求め方が分かりません。
どなたかご存知の方がおられましたら是非教えて下さい。
よろしくお願い致します。

このQ&Aに関連する最新のQ&A

A 回答 (4件)

#3です。


分散の具体的な求め方です。
「重み」は相対的なものですから、0.2 0.6 0.3 0.4 0.6 を 2 6 3 4 6 と読み替えても同じことです。
つまり、データが 30 30 21 21 21 21 21 21 40 40 40 25 25 25 25 18 18 18 18 18 18 の21個だと考え、ふつうの方法で平均や分散を計算します。

ただし、データはあくまで5個しかないのですから、平均値や分散の信頼度を論じるときには「データが21個もあるのだから、求めた値はそれだけ精度が高いのだ」などと考えると落とし穴にはまりますよ。
    • good
    • 1
この回答へのお礼

ご回答ありがとうございます。
いろいろ勉強になりました。
加重平均の分散を求めるのはなかなか難しいのですね。

お礼日時:2007/03/01 23:00

#2さんの言われるとおり、加重平均の値だけから、加重標準偏差は出せません。

もとのデータまでさかのぼる必要があります。
考え方は単純です。
5という1個の値のデータに3という重みがついていたら、5というデータが3個あったとみなして標準偏差を計算してください。

この回答への補足

ご回答ありがとうございます。
私が現在処理しているデータの重みは、全て1以下の数字です。
したがって、標準偏差の計算の際、nを求めますが、
これをどの様に求めればよいのか分かりません。
例えば、
データ 重み
30   0.2
21   0.6
40   0.3
25   0.4
18   0.6
の加重平均は約24となりますが、
この加重平均の標準偏差はどのようになるのでしょうか?
もし、宜しければご教授下さい。
よろしくお願い致します。

補足日時:2007/03/01 15:40
    • good
    • 0

加重平均されているということですが、加重平均から単純に標準偏差は出ません。

標準偏差は、ばらつき(分散)具合ですから、データのばらつきが要ります。
どういう重み付けをするのかわかりませんが、個々のデータに重み付けをしたデータで標準偏差を出すことになると思います。
例えば、あるデータの集合に対してはそのまま使うが、あるデータ集団に対してはそのデータ数をそれぞれ3倍にするとか。
    • good
    • 1

ここ↓


http://ja.wikipedia.org/wiki/%E7%A2%BA%E7%8E%87% …
とここ↓
http://vsop.mtk.nao.ac.jp/~kameno/MODELFIT/avera …
をご覧になられるといいでしょう。
    • good
    • 2

このQ&Aに関連する人気のQ&A

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!

このQ&Aを見た人はこんなQ&Aも見ています

このQ&Aを見た人が検索しているワード

このQ&Aと関連する良く見られている質問

Q加重平均と平均の違い

加重平均と平均の違いってなんですか?
値が同じになることが多いような気がするんですけど・・・
わかりやす~い例で教えてください。

Aベストアンサー

例えば,テストをやって,A組の平均点80点,B組70点,C組60点だったとします.
全体の平均は70点!・・・これが単純な平均ですね.
クラスごとの人数が全く同じなら問題ないし,
わずかに違う程度なら誤差も少ないです.

ところが,A組100人,B組50人,C組10人だったら?
これで「平均70点」と言われたら,A組の生徒は文句を言いますよね.
そこで,クラスごとに重みをつけ,
(80×100+70×50+60×10)÷(100+50+10)=75.6
とやって求めるのが「加重平均」です.

QExcelで加重平均を出す方法

Excelで加重平均を出す方法を教えてください。ちんぷんかんぷんです。

Aベストアンサー

#1を式で言えば
値がA1:A10
重みがB1:B10
に入っていれば
加重平均
=SUMPRODUCT(A1:A10,B1:B10)/SUM(B1:B10)
になります

Qエクセル STDEVとSTDEVPの違い

エクセルの統計関数で標準偏差を求める時、STDEVとSTDEVPがあります。両者の違いが良くわかりません。
宜しかったら、恐縮ですが、以下の具体例で、『噛み砕いて』教えて下さい。
(例)
セルA1~A13に1~13の数字を入力、平均値=7、STDEVでは3.89444、STDEVPでは3.741657となります。
また、平均値7と各数字の差を取り、それを2乗し、総和を取る(182)、これをデータの個数13で割る(14)、この平方根を取ると3.741657となります。
では、STDEVとSTDEVPの違いは何なのでしょうか?統計のことは疎く、お手数ですが、サルにもわかるようご教授頂きたく、お願い致します。

Aベストアンサー

データが母集団そのものからとったか、標本データかで違います。また母集団そのものだったとしても(例えばクラス全員というような)、その背景にさらならる母集団(例えば学年全体)を想定して比較するような時もありますので、その場合は標本となります。
で標本データの時はSTDEVを使って、母集団の時はSTDEVPをつかうことになります。
公式の違いは分母がn-1(STDEV)かn(STDEVP)かの違いしかありません。まぁ感覚的に理解するなら、分母がn-1になるということはそれだけ結果が大きくなるわけで、つまりそれだけのりしろを多くもって推測に当たるというようなことになります。
AとBの違いがあるかないかという推測をする時、通常は標本同士の検証になるわけですので、偏差を余裕をもってわざとちょっと大きめに見るということで、それだけ確証の度合いを上げるというわけです。

Qデータの加重平均について

加重(重み付き)平均について、これまでの類似の質問を読んでもわからないことがあるので
お教え下さい。共通テストでの各小学校ごとの平均点の加重平均や平均株価などでは、重みが
生徒数や株式発行数になるのは理解できるのですが、単なる測定データの場合は重みはどうす
ればよいのでしょう。例えば、理論的には同じ値になる(どんな値になるかはわからない)は
ずの測定を100回したとすると、得られた値はばらつくのですが、普通に相加平均をとると、
すごく他から離れた値があったりした時に、悪い結果になってしまいます。そういう値の影響
を小さくするために相加平均ではなく加重平均を取りたい訳なんですが、その場合の重みは、
一応、相加平均を計算して、「それぞれの値と相加平均との差の絶対値の逆数」ということで
良いのでしょうか。それとも別のもっといい方法があるのでしょうか。よろしくお願いします。

Aベストアンサー

 ご質問の3行目までを拝見すると、加重平均を正しく理解していらっしゃることが分かります。要するに「データが幾つかのグループに分けてあって、各グループの平均値が分かっている。ここで、全部のデータの平均を計算したい。その場合、全部のデータから平均値を計算し直す代わりに、グループの平均値を利用して同じ答を簡単に計算できる」というだけの、単なる「要領の良い計算方法」に過ぎません。

 一方、ご質問の問題は、計算の形としては加重平均と同じことになるけれども、その意味が全く違いますので、区別が必要です。

[1] まず「平均値って数学的にはどういう意味なのか」を確認しましょう。
「理論的には同じ値になるはずの測定である」ということは、j回目の測定値をx[j]とするとき、
x[j]= a + ε[j]
という理論がある訳です。この式をモデルと言います。で、モデルを実測データx[j](j=1,2,…,N)になるべく合うように当てはめます。「なるべく合う」という感覚的な話じゃどうにもならないので、モデルと実測データのずれを測るための
E(a) = Σ(ε[j]^2) (Σはj=1,2,…,Nについての総和、^2は二乗)
という尺度を考え、「E(a)が小さいほどモデルと実測データが良く合っている」とします。
すると、E(a)が最小になるようにaを決定すれば良い。
 これは「最小二乗法」と呼ばれる方法です。

 実際にどうやって計算するかというと、E(a)はaを変えると変化する訳ですが、E(a)が最小になるようなaの近辺ではE(a)の変化がなくなりますから、
dE(a)/da = 0
となる。このことを利用して
dE(a)/da
= Σd(ε[j]^2)/da
= 2Σ(ε[j](d(ε[j])/da))
= 2Σ(ε[j](d(a + ε[j])/da))
= 2Σ(ε[j](da/da))
= 2Σε[j]
= 2Σa - 2Σx[j]
= 2Na - 2Σx[j]
これが0になるようにaを決めるのだから、
a = (Σx[j])/N
とすれば良い。これは平均値の計算方法そのものですね。
 つまり、「平均値を計算する」ということの数学的な意味は
「E(a) = Σ(ε[j]^2) (Σはj=1,2,…,Nについての総和、^2は二乗)
とするとき、E(a)が最小になるようにaを決定する。」
ということに他ならないのです。(これはガウスによって確立された理論であり、この理論によって平均値というものが他の代表値(中央値、最頻値など)とは違う、明確な意味を獲得したのです。丁度フランス革命の頃の話。)

[2] 毎回の計測で計測誤差が同じでない場合の重み付き平均。
すごく他から離れた値があったとき、それが測定方法に起因するランダムな誤差によるものである場合には、最小二乗法の範疇で処置できます。測定の度に使う計測器が異なっていて、j回目の測定に使った計測器は誤差が標準偏差σ[j]を持つ分布に従うとしましょう。この場合、誤差の標準偏差が小さい測定結果は重要ですし、大きいものは重要でない。そこで、
「E(a) = Σ((ε[j])/σ[j])^2) (Σはj=1,2,…,Nについての総和、^2は二乗)
とするとき、E(a)が最小になるようにaを決定する。」
のです。これを重み付き最小二乗法と言います。上記と同様にして具体的な計算方法を出してみると
a = (Σ(x[j]/σ[j]))/(Σ(1/σ[j]))
という重み付き平均になります。重みは1/σ[j]ですね。

[3] 「あり得ない」測定値が入る場合
 「いや、計測手段は毎回同じなので、誤差のばらつきも同程度の筈である。だからデータがだいたい揃う筈だ」という知識があり、なのにその知識から考えてあり得ないような凄く離れた値が混じっているという場合。測り間違いとか、転記ミスなどの、外乱による異常値が入っているおそれがある訳です。
 そういう異常値の影響を少なくするためには上記の尺度Eでは旨く行きませんので、いろいろな工夫がされていて、「ロバスト・フィッティング」と呼ばれます。(ある種の重みを付けるんですが、それらの具体的な方法と評価については、「最小二乗法による実験データ解析」(東京大学出版会)をお勧めします。)
 ただし、そういう工夫をすると、算出したaの意味は[1][2]のような単純なものではなくなってしまいますし、「恣意的にデータの選別をしたのではないか。気に入らないデータを無視し都合の良いものだけを選んで計算したイカサマの数値じゃないか」という批判が可能で、このため客観的結果とは言えなくなります。

[4]以上をご承知の上で、ですね、ご質問がお求めなのはロバスト・フィッティングをやりたい、ということでしょうか。すると、
(1) |ε[j]|が小さいなら、最小二乗法とほとんど同じになって欲しい。
(2) |ε[j]|がうんと大きいなら、その測定値x[j]はほとんど無視したい。
 個々のデータについてこの二つのルールのどっちを適用するかの判断には、|ε[j]|が小さいとか大きいとかいうための比較基準が必要です。どうしましょうか。
 もし、沢山のデータの中にごく僅かの異常値が入っているのであれば、まずは普通に最小二乗法を使って、a(つまり平均値)とε[j]の標準偏差(つまり普通の標準偏差)bを計算しても、bの値は大きくは狂わないでしょう。ならば、この標準偏差bを基準にできます。例えば
●|ε[j]|>2b なら重みを0にする。さもなくば重みを1にする。
というのもアリです。でも異常値が2bを越えるかどうかで扱いがまるで変わるのが気に入らないと仰るならば、滑らかに変化する重み(ただし|ε[j]|が0に近いときは1、うんと大きい時は0)を付ければいいでしょう。例えば
● |kε[j]/b)|>πなら重みを0にする。さもなくば重みを(1/2)(1+cos( kε[j]/b))にする。(kは適当な定数です。たとえばk=1ぐらいとか。)

 ご質問の3行目までを拝見すると、加重平均を正しく理解していらっしゃることが分かります。要するに「データが幾つかのグループに分けてあって、各グループの平均値が分かっている。ここで、全部のデータの平均を計算したい。その場合、全部のデータから平均値を計算し直す代わりに、グループの平均値を利用して同じ答を簡単に計算できる」というだけの、単なる「要領の良い計算方法」に過ぎません。

 一方、ご質問の問題は、計算の形としては加重平均と同じことになるけれども、その意味が全く違いますの...続きを読む

Qエクセルで計算すると2.43E-19などと表示される。Eとは何ですか?

よろしくお願いします。
エクセルの回帰分析をすると有意水準で2.43E-19などと表示されますが
Eとは何でしょうか?

また、回帰分析の数字の意味が良く分からないのですが、
皆さんは独学されましたか?それとも講座などをうけたのでしょうか?

回帰分析でR2(決定係数)しかみていないのですが
どうすれば回帰分析が分かるようになるのでしょうか?
本を読んだのですがいまいち難しくて分かりません。
教えてください。
よろしくお願いします。

Aベストアンサー

★回答
・最初に『回帰分析』をここで説明するのは少し大変なので『E』のみ説明します。
・回答者 No.1 ~ No.3 さんと同じく『指数表記』の『Exponent』ですよ。
・『指数』って分かりますか?
・10→1.0E+1(1.0×10の1乗)→×10倍
・100→1.0E+2(1.0×10の2乗)→×100倍
・1000→1.0E+3(1.0×10の3乗)→×1000倍
・0.1→1.0E-1(1.0×1/10の1乗)→×1/10倍→÷10
・0.01→1.0E-2(1.0×1/10の2乗)→×1/100倍→÷100
・0.001→1.0E-3(1.0×1/10の3乗)→×1/1000倍→÷1000
・になります。ようするに 10 を n 乗すると元の数字になるための指数表記のことですよ。
・よって、『2.43E-19』とは?
 2.43×1/(10の19乗)で、
 2.43×1/10000000000000000000となり、
 2.43×0.0000000000000000001だから、
 0.000000000000000000243という数値を意味します。

補足:
・E+数値は 10、100、1000 という大きい数を表します。
・E-数値は 0.1、0.01、0.001 という小さい数を表します。
・数学では『2.43×10』の次に、小さい数字で上に『19』と表示します。→http://ja.wikipedia.org/wiki/%E6%8C%87%E6%95%B0%E8%A1%A8%E8%A8%98
・最後に『回帰分析』とは何?下の『参考URL』をどうぞ。→『数学』カテゴリで質問してみては?

参考URL:http://ja.wikipedia.org/wiki/%E5%9B%9E%E5%B8%B0%E5%88%86%E6%9E%90

★回答
・最初に『回帰分析』をここで説明するのは少し大変なので『E』のみ説明します。
・回答者 No.1 ~ No.3 さんと同じく『指数表記』の『Exponent』ですよ。
・『指数』って分かりますか?
・10→1.0E+1(1.0×10の1乗)→×10倍
・100→1.0E+2(1.0×10の2乗)→×100倍
・1000→1.0E+3(1.0×10の3乗)→×1000倍
・0.1→1.0E-1(1.0×1/10の1乗)→×1/10倍→÷10
・0.01→1.0E-2(1.0×1/10の2乗)→×1/100倍→÷100
・0.001→1.0E-3(1.0×1/10の3乗)→×1/1000倍→÷1000
・になります。ようするに 10 を n 乗すると元の数字になるた...続きを読む

Q相関係数についてくるP値とは何ですか?

相関係数についてくるP値の意味がわかりません。

r=0.90 (P<0.001)

P=0.05で相関がない

という表現は何を意味しているのでしょうか?
またMS Excelを使ってのP値の計算方法を教えてください。

よろしくお願い致します。

Aベストアンサー

pは確率(probability)のpです。全く相関のない数字を組み合わせたときにそのr値が出る確率をあらわしています。

統計・確率には100%言い切れることはまずありません。というか100%言い切れるのなら統計・確率を使う必要は有りません。
例えばサイコロを5回振って全て同じ目が出る確率は0.08%です。そんな時、そのサイコロを不良品(イカサマ?)と結論つけるとわずかに間違っている可能性が残っています。ただ、それが5%以下ならp=0.05でそのサイコロは正常ではないと結論付けます。
それが危険率です。(この場合はp=0.1%でもいいと思いますが)
相関係数においても相関の有無を結論つけるにはそのrが偶然出る確率を出すか、5%の確率ならrがどれぐらいの値が出るかを知っておく必要が有ります。

>r=0.90 (P<0.001)

相関係数は0.90と計算された。相関がないのに偶然r=0.90 となる確率は0.001以下だと言ってます。

>P=0.05で相関がない

相関がないと結論。(間違っている確率は5%以下)だと言ってます。

エクセルでの計算ですが、まず関数CORRELを使ってr値を出します。xデータがA1からA10に、yデータがB1からB10に入っているとして

r=CORREL(A1:A10,B1:B10)

次にそのr値をt値に変換します。

t=r*(n-2)^0.5/(1-r^2)^0.5

ここでnは組みデータの数です。((x1,y1),(x2,y2),・・・(xn,yn))
最後に関数TDISTで確率に変換します。両側です。

p=TDIST(t値,n-2,2)

もっと簡単な方法があるかも知れませんが、私ならこう計算します。(アドインの分析ツールを使う以外は)

pは確率(probability)のpです。全く相関のない数字を組み合わせたときにそのr値が出る確率をあらわしています。

統計・確率には100%言い切れることはまずありません。というか100%言い切れるのなら統計・確率を使う必要は有りません。
例えばサイコロを5回振って全て同じ目が出る確率は0.08%です。そんな時、そのサイコロを不良品(イカサマ?)と結論つけるとわずかに間違っている可能性が残っています。ただ、それが5%以下ならp=0.05でそのサイコロは正常ではないと結論付けます。
それが危険率です。(この場...続きを読む

Q2つの正規分布を合成したらどうなるのでしょうか?

現在大学の研究の過程で統計学を学ぶ必要がでてきました。僕自身は統計学に詳しくはないので知識のある方の回答は非常に助かります。
どうかご教授よろしくおねがいします。


平均μ、分散σで表される正規分布はf(x)=1/((√2π)σ) exp-{((x-μ)^2)/2σ^2}で表されますが



例えば互いに独立で

国語の平均点、分散を(μ1,σ1)としての正規分布f(国語)
数学の平均点、分散を(μ2,σ2)としての正規分布f(数学)

とした時の国語と数学の合計得点の分布f(国語+数学)はどのように表せばよいのでしょうか?

もしμ3=μ1+μ2,σ3=σ1+σ2のように平均も分散も和で考えてよいのなら

f(国語+数学)=1/((√2π)σ3) exp-{((x-μ3)^2)/2σ3^2}

が答えだと思っているのですが、それとは別のやり方で



f(国語)=1/((√2π)σ1) exp-{((x-μ1)^2)/2σ1^2}と
f(数学)=1/((√2π)σ2) exp-{((x-μ2)^2)/2σ2^2}をたたみこみ積分すれば答えがでるのではないかと考えています。

しかし、僕の数学の知識ではこれができなくて困っています。ガウス積分の公式を使ったりしなければいけないのではないかとも考えいるのですが行き詰っています。

アドバイスよろしくお願いいたします。

現在大学の研究の過程で統計学を学ぶ必要がでてきました。僕自身は統計学に詳しくはないので知識のある方の回答は非常に助かります。
どうかご教授よろしくおねがいします。


平均μ、分散σで表される正規分布はf(x)=1/((√2π)σ) exp-{((x-μ)^2)/2σ^2}で表されますが



例えば互いに独立で

国語の平均点、分散を(μ1,σ1)としての正規分布f(国語)
数学の平均点、分散を(μ2,σ2)としての正規分布f(数学)

とした時の国語と数学の合計得点の分布f(国語+数学)はどのように表せばよいのでしょうか?

...続きを読む

Aベストアンサー

> 平均μ、分散σで表される正規分布はf(x)=1/((√2π)σ) exp-{((x-μ)^2)/2σ^2}で表されますが
一般的には分散をσ^2と表し、標準偏差はその平方根でσと表します。
質問者さんが示された確率密度関数は、平均 μ、分散 「σ^2 」の正規分布のものです。分散と標準偏差の扱いをもう少しきちんとしましょう。

> μ3=μ1+μ2, σ3=σ1+σ2のように平均も分散も和で考えてよいのなら
2つの確率変数 X, Y があり、それぞれの平均と「分散」がμ1, (σ1)^2, μ2, (σ2)^2 であるとします。確率変数 Z を Z = X + Y で定め、Z の平均と「分散」をμ3, (σ3)^2 とすると・・・

μ3 = μ1 + μ2
は、X, Y がどのような分布であっても(X, Y が異なる分布であっても)成立しますし、X, Y が互いに独立であるか否かに関わらず成立します。
また、X, Y が互いに独立であれば(それらの分布によらず)、
(σ3)^2 = (σ1)^2 + (σ2)^2
が成立します。(このとき Z = X + Y の「標準偏差」σ3 は、σ3 = √( (σ1)^2 + (σ2)^2 ) )

> f(国語+数学)=1/((√2π)σ3) exp-{((x-μ3)^2)/2σ3^2}
> が答えだと思っているのですが
X, Y が互いに独立な確率変数であり、共に正規分布に従うならば、X + Y もまた正規分布に従うという事実は確かにありますが、これは正規分布の「再生性」と呼ばれる特別な性質であることを理解していなければなりません。その点、大丈夫ですか?

> それとは別のやり方で
> f(国語)=1/((√2π)σ1) exp-{((x-μ1)^2)/2σ1^2}と
> f(数学)=1/((√2π)σ2) exp-{((x-μ2)^2)/2σ2^2}をたたみこみ積分すれば答えがでるのではないかと考えています。
上述したように、正規分布の再生性を示す必要があるならば、畳み込み積分でそれを示すのが一法なのであって、何も「別のやり方」ではありません。
案ずるより計算するが易しです。式の整理が面倒なだけで、特別な知識は不要です。
f(x) = 1/((√2π)σ1) exp-{((x-μ1)^2)/2σ1^2}
g(x) = 1/((√2π)σ2) exp-{((x-μ2)^2)/2σ2^2}
h(x) = ∫f(t) g(x - t) dt
  = 1/(2πσ1 σ2) ∫exp{ - (t - μ1)^2 / (2σ1^2) - (x - t - μ2)^2 / (2σ2^2) } dt
  epx( ) の指数部を t で平方完成して
  = 1/(2πσ1 σ2) ∫exp{ - (t - 何ちゃら )^2 / (2σ1^2 σ2^2 / (σ1^2 + σ2^2)) - (x - μ1 - μ2)^2 / 2 (σ1^2 + σ^2) } dt
  = 1/(2πσ1 σ2) exp{ - (x - μ1 - μ2)^2 / 2 (σ1^2 + σ^2) } ∫exp{ - (t - 何ちゃら )^2 / (2σ1^2 σ2^2 / (σ1^2 + σ2^2))} dt
  = 1/√(2π(σ1^2 + σ2^2)) exp{ - (x - μ1 - μ2)^2 / 2 (σ1^2 + σ^2) }
  (∵ ∫ exp ( - (t - A)^2 / 2B^2 ) dt = √(2π) B )
μ3 = μ1 + μ2, σ3^2 = σ1^2 + σ2^2 とおけば
h(x) = 1/(√(2π) σ3) exp( - (x - μ3)^2 / 2 σ3^2 )
途中、「何ちゃら」の部分は省略してますので、興味があれば追っかけてみてください。

なお、本件は確率論において、ごくごく基本的な事項です。
もし、これから確率統計を使って研究をされるのならば、このような件を簡単に質問して済ませるのは危うい感じがします。ちゃんと書籍を読まれ、その上で質問されるのが宜しいでしょう。

> 平均μ、分散σで表される正規分布はf(x)=1/((√2π)σ) exp-{((x-μ)^2)/2σ^2}で表されますが
一般的には分散をσ^2と表し、標準偏差はその平方根でσと表します。
質問者さんが示された確率密度関数は、平均 μ、分散 「σ^2 」の正規分布のものです。分散と標準偏差の扱いをもう少しきちんとしましょう。

> μ3=μ1+μ2, σ3=σ1+σ2のように平均も分散も和で考えてよいのなら
2つの確率変数 X, Y があり、それぞれの平均と「分散」がμ1, (σ1)^2, μ2, (σ2)^2 であるとします。確率変数 Z を Z = X + Y で定め、Z ...続きを読む

Q統計学的に信頼できるサンプル数って?

統計の「と」の字も理解していない者ですが、
よく「統計学的に信頼できるサンプル数」っていいますよね。

あれって「この統計を調べたいときはこれぐらいのサンプル数があれば信頼できる」という決まりがあるものなのでしょうか?
また、その標本数はどのように算定され、どのような評価基準をもって客観的に信頼できると判断できるのでしょうか?
たとえば、99人の専門家が信頼できると言い、1人がまだこの数では信頼できないと言った場合は信頼できるサンプル数と言えるのでしょうか?

わかりやすく教えていただけると幸いです。

Aベストアンサー

> この統計を調べたいときはこれぐらいのサンプル数があれば信頼できる・・・
 調べたいどの集団でも、ある一定数以上なら信頼できるというような決まりはありません。
 何かサンプルを集め、それをなんかの傾向があるかどうかという仮説を検証するために統計学的検定を行って、仮設が否定されるかされないかを調べる中で、どの検定方法を使うかで、最低限必要なサンプル数というのはあります。また、集めたサンプルを何か基準とすべき別のサンプルと比べる検定して、基準のサンプルと統計上差を出すに必要なサンプル数は、比べる検定手法により計算できるものもあります。
 最低限必要なサンプル数ということでは、例えば、ある集団から、ある条件で抽出したサンプルと、条件付けをしないで抽出したサンプル(比べるための基準となるサンプル)を比較するときに、そのサンプルの分布が正規分布(正規分布解説:身長を5cmきざみでグループ分けし、低いグループから順に並べたときに、日本人男子の身長なら170cm前後のグループの人数が最も多く、それよりも高い人のグループと低い人のグループの人数は、170cmのグループから離れるほど人数が減ってくるような集団の分布様式)でない分布形態で、しかし分布の形は双方とも同じような場合「Wilcoxon符号順位検定」という検定手法で検定することができますが、この検定手法は、サンプルデータに同じ値を含まずに最低6つのサンプル数が必要になります。それ以下では、いくらデータに差があるように見えても検定で差を検出できません。
 また、統計上差を出すのに必要なサンプル数の例では、A国とB国のそれぞれの成人男子の身長サンプルがともに正規分布、または正規分布と仮定した場合に「t検定」という検定手法で検定することができますが、このときにはその分布を差がないのにあると間違える確率と、差があるのにないと間違える確率の許容値を自分で決めた上で、そのサンプルの分布の値のばらつき具合から、計算して求めることができます。ただし、その計算は、現実に集めたそれぞれのサンプル間で生じた平均値の差や分布のばらつき具合(分散値)、どのくらいの程度で判定を間違える可能性がどこまで許されるかなどの条件から、サンプル間で差があると認められるために必要なサンプル数ですから、まったく同じデータを集めた場合でない限り、計算上算出された(差を出すために)必要なサンプル数だけサンプルデータを集めれば、差があると判定されます(すなわち、サンプルを無制限に集めることができれば、だいたい差が出るという判定となる)。よって、集めるサンプルの種類により、計算上出された(差を出すために)必要なサンプル数が現実的に妥当なものか、そうでないのかを、最終的には人間が判断することになります。

 具体的に例示してみましょう。
 ある集団からランダムに集めたデータが15,12,18,12,22,13,21,12,17,15,19、もう一方のデータが22,21,25,24,24,18,18,26,21,27,25としましょう。一見すると後者のほうが値が大きく、前者と差があるように見えます。そこで、差を検定するために、t検定を行います。結果として計算上差があり、前者と後者は計算上差がないのにあると間違えて判断する可能性の許容値(有意確率)何%の確率で差があるといえます。常識的に考えても、これだけのサンプル数で差があると計算されたのだから、差があると判断しても差し支えないだろうと判断できます。
 ちなみにこの場合の差が出るための必要サンプル数は、有意確率5%、検出力0.8とした場合に5.7299、つまりそれぞれの集団で6つ以上サンプルを集めれば、差を出せるのです。一方、サンプルが、15,12,18,12,21,20,21,25,24,19の集団と、22,21125,24,24,15,12,18,12,22の集団ではどうでしょう。有意確率5%で差があるとはいえない結果になります。この場合に、このサンプルの分布様式で拾い出して差を出すために必要なサンプル数は551.33となり、552個もサンプルを抽出しないと差が出ないことになります。この計算上の必要サンプル数がこのくらい調査しないといけないものならば、必要サンプル数以上のサンプルを集めて調べなければなりませんし、これだけの数を集める必要がない、もしくは集めることが困難な場合は差があるとはいえないという判断をすることになるかと思います。

 一方、支持率調査や視聴率調査などの場合、比べるべき基準の対象がありません。その場合は、サンプル数が少ないレベルで予備調査を行い、さらにもう少しサンプル数を増やして予備調査を行いを何回か繰り返し、それぞれの調査でサンプルの分布形やその他検討するべき指数を計算し、これ以上集計をとってもデータのばらつきや変化が許容範囲(小数点何桁レベルの誤差)に納まるようなサンプル数を算出していると考えます。テレビ視聴率調査は関東では300件のサンプル数程度と聞いていますが、調査会社ではサンプルのとり方がなるべく関東在住の家庭構成と年齢層、性別などの割合が同じになるように、また、サンプルをとる地域の人口分布が同じ割合になるようにサンプル抽出条件を整えた上で、ランダムに抽出しているため、数千万人いる関東の本当の視聴率を割合反映して出しているそうです。これはすでに必要サンプル数の割り出し方がノウハウとして知られていますが、未知の調査項目では必要サンプル数を導き出すためには試行錯誤で適切と判断できる数をひたすら調査するしかないかと思います。

> どのような評価基準をもって客観的に信頼できると判断・・・
 例えば、工場で作られるネジの直径などは、まったくばらつきなくぴったり想定した直径のネジを作ることはきわめて困難です。多少の大きさのばらつきが生じてしまいます。1mm違っても規格外品となります。工場では企画外品をなるべく出さないように、統計を取って、ネジの直径のばらつき具合を調べ、製造工程をチェックして、不良品の出る確率を下げようとします。しかし、製品をすべて調べるわけにはいきません。そこで、調べるのに最低限必要なサンプル数を調査と計算を重ねてチェックしていきます。
 一方、農場で生産されたネギの直径は、1mmくらいの差ならほぼ同じロットとして扱われます。また、農産物は年や品種の違いにより生育に差が出やすく、そもそも規格はネジに比べて相当ばらつき具合の許容範囲が広くなっています。ネジに対してネギのような検査を行っていたのでは信頼性が損なわれます。
 そもそも、統計学的検定は客観的判断基準の一指針ではあっても絶対的な評価になりません。あくまでも最終的に判断するのは人間であって、それも、サンプルの質や検証する精度によって、必要サンプルは変わるのです。

 あと、お礼の欄にあった専門家:統計学者とありましたが、統計学者が指摘できるのはあくまでもそのサンプルに対して適切な検定を使って正しい計算を行ったかだけで、たとえ適切な検定手法で導き出された結果であっても、それが妥当か否か判断することは難しいと思います。そのサンプルが、何を示し、何を解き明かし、何に利用されるかで信頼度は変化するからです。
 ただ、経験則上指標的なものはあります。正規分布を示すサンプルなら、20~30のサンプル数があれば検定上差し支えない(それ以下でも問題ない場合もある)とか、正規分布でないサンプルは最低6~8のサンプル数が必要とか、厳密さを要求される調査であれば50くらいのサンプル数が必要であろうとかです。でも、あくまでも指標です。

> この統計を調べたいときはこれぐらいのサンプル数があれば信頼できる・・・
 調べたいどの集団でも、ある一定数以上なら信頼できるというような決まりはありません。
 何かサンプルを集め、それをなんかの傾向があるかどうかという仮説を検証するために統計学的検定を行って、仮設が否定されるかされないかを調べる中で、どの検定方法を使うかで、最低限必要なサンプル数というのはあります。また、集めたサンプルを何か基準とすべき別のサンプルと比べる検定して、基準のサンプルと統計上差を出すに必要な...続きを読む

Qパーセンテージの平均の出し方は?

1月:90%
2月:90%
3月:86%

1月~3月までの平均のパーセンテージは?
という時に、(90+90+86)÷3
という計算方法が間違いである理由がどうしてもわからないのですが、わかりやすく教えていただけませんか?

宜しくお願いいたします。

Aベストアンサー

はじめまして。
単純に割合の平均は求めてはいけません。
割合は全体に対するものです。
例えば
1月
本が100冊売れた。 漫画本はその内50冊。
(漫画本の割合は50%ですよね)
2月
本が10冊売れた。 漫画本はその内10冊。
(漫画本の割合は100%ですよね)
3月
本が1000冊売れた。 漫画本はその内0冊。
(漫画本の割合は0%ですよね)

さて、1・2・3月トータルで漫画本の割合は
(50+100+0)/3=50でいいのでしょうか?
本当にトータルで50%も漫画本は売れたでしょうか?
本当は
1110冊売れて、内60冊が漫画本ですから、
60/1110*100=約5.4%になります

ですから、割合を出すときは
とにかく分母は全体です。
(この場合1~3月の全体が分母になります)


似た問題でAからBまで150kmを1時間、
BからCまで150kmは2時間
かかりました。
問題1.AからBの時速は
  2.BからCの時速は
  3.AからCの時速は

ここで3を求めるとき同じ距離だから、
1と2の平均を出す人がいるのですが・・・・
答えは300kmを3時間なので・・・・。
と言うことになり、単純に平均を取ればよいと言う問題ではないのです。

はじめまして。
単純に割合の平均は求めてはいけません。
割合は全体に対するものです。
例えば
1月
本が100冊売れた。 漫画本はその内50冊。
(漫画本の割合は50%ですよね)
2月
本が10冊売れた。 漫画本はその内10冊。
(漫画本の割合は100%ですよね)
3月
本が1000冊売れた。 漫画本はその内0冊。
(漫画本の割合は0%ですよね)

さて、1・2・3月トータルで漫画本の割合は
(50+100+0)/3=50でいいのでしょうか?
本当にトータルで50%も漫画...続きを読む

Q統計_重みを計算で出すこと

カテゴリーが4つ(たとえばABCD)あり、Aの下位分類にa1 a2があるとします。BCDについてもそれぞれ下位分類がb1 b2、c1 c2、d1 d2のように2つずつあります。
データ総数が7529個で、各カテゴリーが次のように分布しているとき、重みを求めるにはどうすればいいのでしょうか。

カテゴリー 1系列の実数 割合 重み
A a1=121/168 72% ?
B b1=3200/5459 59% ?
C c1=653/1418 46% ?
D d1=172/484 36% ?

表がうまく表れませんが、「カテゴリー」の下にABCDがあり、「1系列の実数」の下にa1=121/168などがあり、「割合」の下に72%などがあり、「重み」の下に?があります。そんな表です。
a1,b1,c1,d1のそれぞれの%が、72%、59%,46%,36%となりますが、その全体に対する重みを計算で出したいのですが、どうすればいいのでしょうか。
上には1系列だけ示しましたが、2系列は略してもわかると思ったからです。ちなみにa2の%は、100-72=28%となりますよね。
うまく説明ができませんが、質問の意味はわかっていただけたでしょうか。よろしくお願いします。

カテゴリーが4つ(たとえばABCD)あり、Aの下位分類にa1 a2があるとします。BCDについてもそれぞれ下位分類がb1 b2、c1 c2、d1 d2のように2つずつあります。
データ総数が7529個で、各カテゴリーが次のように分布しているとき、重みを求めるにはどうすればいいのでしょうか。

カテゴリー 1系列の実数 割合 重み
A a1=121/168 72% ?
B b1=3200/5459 59% ?
C c1=653/1418 46% ?
D d1=172/484 36% ?

表がうまく表れませんが、「カ...続きを読む

Aベストアンサー

#2の補足ありがとうございます.

カテゴリーごとの(数学的)意味が分かっていなかったのですが,補足のおかげで少し前進しました.

例えば,カテゴリーAはBに比べて現れるデータ数が少ないから重要度が低いといった意味ではなく,
「疑問詞」「普通名詞」「代名詞」「名詞節」という種類ごとに「zero形」の出現割合(確率)を比較するという話のようですね.

#2の考え(試算)では
各カテゴリーごとの割合,72%,59%,46%,36%を単純に平均して53.25%ですが,これにはいちおう意味があって,(カテゴリーを区別しないときの)全使用数中での平均出現確率が53.25%ということです.

そうすると,#2で書いた形式的試算は次のような意味があります.

全体平均の出現確率(約53%)を基準(0.5=50%に換算)として,各カテゴリーではそれぞれどのくらい基準(全体平均)よりも出現確率が高いかそれとも低いかの「相対的な重み」を表します.

つまり,#2によれば
4つの単純平均は,詳しくやると
M=53.06%で,
P(a1)/2M=0.679 (←平均よりもかなり高い)
P(b1)/2M=0.552 (←平均よりも少し高い)
P(c1)/2M=0.434 (←平均よりもやや低い)
P(d1)/2M=0.335 (←平均よりもかなり低い)

というように,単純な絶対的出現確率を見るのでなく,平均的使用率に比べて相対的に現れる率が高いか低いかを見るためのものではないでしょうか.
(補足の値と比べると誤差にしてもややずれが気になりますが,原因は分かりません.いちおう話が正しい信じて進みます.)

例えば全体平均が80%ならば72%は高いとは言えないが,
全体平均が53%ならば72%は高いと言える.
といったように,相対比較のために換算したのではないでしょうか.
ただし,するとなぜ基準を0.5にとったのかは不明です.
(論理的には,平均を1=100%としてもいい.でもまあ,偏差値も平均を50にとって基準値としますから,ご研究の分野での習慣かも知れません.)

ただし,上の話では全体平均として,4つのカテゴリーを全て対等の重みで扱って,
72%,59%,46%,36%を単純に平均して53.25%
としましたが,もう一つ可能性があって,

各カテゴリーの使用頻度を反映させた加重平均を全体平均の値として採用すると,
(121+3200+653+172)/7529×100=55.07%
で,これは用例が多いBの値によって主に決まってしまいます.

これを用いると
M=55.07%で,
P(a1)/2M=0.654
P(b1)/2M=0.532
P(c1)/2M=0.418
P(d1)/2M=0.323
となります.

これも細かくみるといくらかずれていて,悩ましいです.
ともあれ結論としては,適切な平均値に対する,相対的な重みのようです.
どの平均値を使っているのかはどうぞご検討下さい.

#2の補足ありがとうございます.

カテゴリーごとの(数学的)意味が分かっていなかったのですが,補足のおかげで少し前進しました.

例えば,カテゴリーAはBに比べて現れるデータ数が少ないから重要度が低いといった意味ではなく,
「疑問詞」「普通名詞」「代名詞」「名詞節」という種類ごとに「zero形」の出現割合(確率)を比較するという話のようですね.

#2の考え(試算)では
各カテゴリーごとの割合,72%,59%,46%,36%を単純に平均して53.25%ですが,これにはいちおう意味があって,(カ...続きを読む


このQ&Aを見た人がよく見るQ&A

人気Q&Aランキング