マンガでよめる痔のこと・薬のこと

最大値と最小値だけが分かっている状態で標準偏差って計算できるでしょうか?

たとえば最大値が130で最小値が90と想定したとき、平均は(130+90)/2=110と想定計算できますが、標準偏差はどう計算すればよいでしょうか?

教えてください。

このQ&Aに関連する最新のQ&A

A 回答 (10件)

無理。

    • good
    • 0

確認しておきたいことがあります。


例えば
80, 90, 100, 110, 120
というデータだったとき、最大値は120、最小値は80、標準偏差は
√[{(80-100)^2 + (90-100)^2 + (100-100)^2 + (110-100)^2 + (120-100)^2} /5] = 10√2
となりますが、最大値と最小値から10√2を推定したいということですか?
それとも私が回答したように母標準偏差の推定をしたいということですか?

前者であれば、皆さんが既に指摘されているように無理なことです。

ANo.6お礼
> 最大値130で最小値90の間で正規分布しており、平均値は真ん中の110と考える。標準偏差は、最大値と平均値の差の1シグマ分の約32%で計算してみる。

32%の根拠がわかりません。
    • good
    • 0
この回答へのお礼

回答ありがとうございます。

質問の仕方がへたくそですいません。

皆様の回答で無理ということは十分にわかりました。
ありがとうございます。


32%の根拠は、1シグマが68.26%の区間ですので、使えないかと考えただけです。
最大値と最小値は平均から3シグマほどの数値となり、その数値の間で正規分布していると仮定した場合にこの計算で標準偏差を推定できるのではないかと考えました。


質問の前提が変わったりして混乱させましてすいませんでした。

お礼日時:2011/07/17 15:21

A No.7 は、「←A No.2 補足」だった。


アンカーミス、他意はない。
    • good
    • 0

←A No.1 補足


ばかいっちゃなんね。
データが全部で2個なら、計算できる。
そうでなければ計算できない…て言いおろ?
回答をねじ曲げて意味を変えないように。
数学以前に、人間として要反省。
    • good
    • 0
この回答へのお礼

たしかにおっしゃる通りですね。
反省します。。

お礼日時:2011/07/17 10:50

ANo.4の訂正


> 母平均は最大値と最小値の平均で、母標準偏差は上述の式でd2=0.5907を用いて計算しました。

正しくは
> 母平均は最大値と最小値の平均で、母標準偏差は上述の式で1/d2=0.5907を用いて推定しました。
です。

ANo.4の補足
> このd2はどうやって計算するのでしょうか?
> 申し訳ないです。資料見てもわかりませんでした。。

サンプルサイズが2の場合は
http://okwave.jp/qa/q4803054.html
をご覧ください。
    • good
    • 0
この回答へのお礼

回答ありがとうございます。

難しくてすぐには理解できそうにないですが色々な計算方法があることを知れて良かったです。

しつこくて申し訳ございませんが、データが正規分布しているという条件を付けて、以下のように考えてはダメでしょうか?

最大値130で最小値90の間で正規分布しており、平均値は真ん中の110と考える。標準偏差は、最大値と平均値の差の1シグマ分の約32%で計算してみる。
この場合は、(130-110)*0.32=6.4が標準偏差と想定する。

お礼日時:2011/07/17 10:48

No.3の回答者です。



>>>データの分布が均等であるとか何か別の条件があれば計算できますかね?
>>>それでもやはり強引すぎますかね?

んー、均等だったら正規分布ではないですね。

別の条件を付け加えるのであれば、No.4様がすでに示されたとおり、(詳しくは知りませんが)N(測定数もしくはサンプル数)の情報を加えるのが一つ。

あと、ものすごくNが多くない場合では、最大・最小に加えて2番目に大きい値と2番目に小さい値がわかっても推定できそうな気がします。
具体的にどうやるかわかりませんが、Nが大きくなるほど1番目と2番目の差が小さくなろうとするはずですから意味のある情報になると思います。
    • good
    • 0

母集団が正規分布に従うと仮定できるなら、最大値と最小値から母標準偏差を推定することはできます。



まずは、日本工業標準調査会のサイトからシューハート管理図(Z9021)を検索してください。
この規格の表2のd2を使った
(最大値-最小値)/d2
が母標準偏差の推定値となります。

例として、標準正規分布からサンプルサイズ3の標本を得て、母平均と母標準偏差を推定するということを1000回繰り返し、結果を散布図にプロットしてみました。
母平均は最大値と最小値の平均で、母標準偏差は上述の式でd2=0.5907を用いて計算しました。

1000回の結果の平均は、母平均の推定値の方が-0.0006876163、母標準偏差の推定値の方が1.002291と良い値なのですが、個々の値はかなり散らばっているように見えます。
しかし、これはサンプルサイズが3と小さいので仕方がありません。

参考URL:http://www.jisc.go.jp/index.html
「標準偏差の計算方法」の回答画像4
    • good
    • 0
この回答へのお礼

回答ありがとうございます。

色々あるものですね。

このd2はどうやって計算するのでしょうか?
申し訳ないです。資料見てもわかりませんでした。。

お礼日時:2011/07/16 16:38

こんにちは。



>>>平均は(130+90)/2=110と想定計算できますが、

まあ、110がもっとも確からしいといえば確からしいです。

>>>>標準偏差はどう計算すればよいでしょうか?

できません。
これは少しだけ考えてみるとわかるのですが、計測回数あるいは試行回数を増やすたびに、最大値はより大きくなろうとし、最小値はより小さくなろうとします。
ダーツがへたくそな人が矢を投げるとき、投げる回数が多いほど、その回数の中で最も外れたところは、より真ん中から遠くなります。つまり、「外れ距離の新記録」が更新されていきます。
このことだけからも、最大値と最小値から標準偏差を推定しようとする考えは正しくないことがわかります。
    • good
    • 0
この回答へのお礼

回答ありがとうございます。

そうですね。
強引すぎですね。

データの分布が均等であるとか何か別の条件があれば計算できますかね?
それでもやはり強引すぎますかね?

お礼日時:2011/07/16 15:29

いくつかあるデータの中から最大値と最小値だけが判っているのなら、


平均を求めることもできません。
例えば、データが 3 個数で、最大値が 130、最小値が 90 であれば、
平均は 110 とは限らないし、
あと一つのデータが判らないと、平均は求められません。

データが全部で 2 個しかないということなら、
普通に、分散 ={ (130-平均)2乗 + (90-平均)2乗 }/2 = 400 から、
標準偏差 = √分散 = 20 と計算すればよいです。
    • good
    • 0
この回答へのお礼

回答ありがとうございます。

平均も強引に出しているので、たしかにデータは2個としてこの計算でも概算値は出ますね。

お礼日時:2011/07/16 15:26

最小値と最大値だけでは標準偏差は出ません。



標準偏差の取る範囲は絞れますけど意味はありません。
計算方法から明らかだと思いますけど。

ちなみに平均値の推定方法もそれでは間違いです、推定としては雑過ぎです。
    • good
    • 0
この回答へのお礼

回答ありがとうございます。

たしかに雑過ぎですね。

もし、この最小値と最大値の間で均等に分布している条件がつけられれば、どうでしょうか?

お礼日時:2011/07/16 15:20

このQ&Aに関連する人気のQ&A

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!

このQ&Aを見た人はこんなQ&Aも見ています

このQ&Aを見た人が検索しているワード

このQ&Aと関連する良く見られている質問

Qエクセル STDEVとSTDEVPの違い

エクセルの統計関数で標準偏差を求める時、STDEVとSTDEVPがあります。両者の違いが良くわかりません。
宜しかったら、恐縮ですが、以下の具体例で、『噛み砕いて』教えて下さい。
(例)
セルA1~A13に1~13の数字を入力、平均値=7、STDEVでは3.89444、STDEVPでは3.741657となります。
また、平均値7と各数字の差を取り、それを2乗し、総和を取る(182)、これをデータの個数13で割る(14)、この平方根を取ると3.741657となります。
では、STDEVとSTDEVPの違いは何なのでしょうか?統計のことは疎く、お手数ですが、サルにもわかるようご教授頂きたく、お願い致します。

Aベストアンサー

データが母集団そのものからとったか、標本データかで違います。また母集団そのものだったとしても(例えばクラス全員というような)、その背景にさらならる母集団(例えば学年全体)を想定して比較するような時もありますので、その場合は標本となります。
で標本データの時はSTDEVを使って、母集団の時はSTDEVPをつかうことになります。
公式の違いは分母がn-1(STDEV)かn(STDEVP)かの違いしかありません。まぁ感覚的に理解するなら、分母がn-1になるということはそれだけ結果が大きくなるわけで、つまりそれだけのりしろを多くもって推測に当たるというようなことになります。
AとBの違いがあるかないかという推測をする時、通常は標本同士の検証になるわけですので、偏差を余裕をもってわざとちょっと大きめに見るということで、それだけ確証の度合いを上げるというわけです。

Qサンプルの平均値と上限値と下限値から標準偏差を推定することはできますか。

サンプルの平均値と上限値と下限値から標準偏差を予測することはできますか。
平均値と標準偏差を用いて統合解析を行いたいのですが、標準偏差の代わりに上限値と下限値が記された文献情報の取り扱いに苦慮しております。
確度は低くても一般的にこんなのがあるよ、というような情報をご教授下さい。

Aベストアンサー

厳密には無理ですが,ある程度推定することはできます。

サンプルの個数が非常に多い場合で,上限値下限値がわかっている場合には上限値,下限値を3シグマと見てよいと思われます。
この場合には平均値は上限値と下限値の中央に来ているはずです。

これは平均±3シグマに99.7%が入るのでほとんどすべてと見てよいからです。
http://www.sci.kagoshima-u.ac.jp/~itls/Japanese/chapter4/keyword/sigma.html

平均が上限値,下限値の中央に無い場合にはサンプル数が少ないことを意味しており,上限値,下限値を3シグマと考えてはまずく,シグマとか2シグマと見なす必要がある(つまり標準偏差は大きい)と思います。

Q範囲から標準偏差を推定する方法

n=2やn=3の範囲(R)から標準偏差を推定する方法があると聞きました。統計の本を見たりしたのですが、方法がわかりません。
計算方法がわかる方がいらっしゃいましたら教えて下さい。

Aベストアンサー

管理図法の管理限界を決めるための指標として、シグマの推定値を求めるために使われる手法があります。
範囲 R にサンプル数によって決まる係数を掛けてやります。式で書けば
 標準偏差の推定値=係数×R
となります。
この係数はサンプル数が増えれば小さくなります。
n=2 のとき 係数=0.886
n=3 のとき 係数=0.591
という具合です。正規分布を仮定して理論的に導出されたものです。理論の詳細はJISを参照してください。

Q標準偏差について詳しい方お願いします

お世話になります。
標準偏差は平均からのばらつき・・とききますが、「標準偏差が大きい」「小さい」という、その目安がわかりません。

たとえば、50人の集団で平均年齢30歳、標準偏差1.2だったらどうでしょうか?

また、平均年齢が同じぐらいでも、標準偏差が1.0と10.0と違う2つの集団についていろんなデータを比べると、何か問題がありますか?

どちらかでもいいので、わかるかたがいましたらおねがいいたします。

Aベストアンサー

とりあえず、「標準偏差」の定義はURLを読んでいただくとして。

標準偏差は「分散」の平方根ですから、その集団の標準偏差が大きい
ということは、その集団のデータのばらつきが大きいということです。

とりあえず、以下の話は母集団が正規分布をするという仮定で行います。

仮に平均年齢が同じ30歳で、標準偏差が1の集団の場合、その集団には
28歳~32歳の人しかいない(95%程度の確率でその中にデータがある)
ということですし、標準偏差が10ならば35歳の人も結構フツーにその
中にいる(同じ確率では10~50歳になります)ということです。

逆に、例えばテストの点などを考えますと、同じ60点でも平均65点、
標準偏差5、の場合と平均70点、標準偏差10の場合では、どれだけ
違うか直接には比較出来ません。これらを「平均50、標準偏差10」
に換算して比較するのが「偏差値」の考え方です。
(上記の場合、どちらも同じ偏差値40になります)

ということで標準偏差は、ばらつきの度合いを平均値と同時にチェック
する時に使う値です。標準偏差の違う集団を直接に比較するかどうかは
その母集団の性質によって違いますよ。

参考URL:http://ja.wikipedia.org/wiki/%E6%A8%99%E6%BA%96%E5%81%8F%E5%B7%AE

とりあえず、「標準偏差」の定義はURLを読んでいただくとして。

標準偏差は「分散」の平方根ですから、その集団の標準偏差が大きい
ということは、その集団のデータのばらつきが大きいということです。

とりあえず、以下の話は母集団が正規分布をするという仮定で行います。

仮に平均年齢が同じ30歳で、標準偏差が1の集団の場合、その集団には
28歳~32歳の人しかいない(95%程度の確率でその中にデータがある)
ということですし、標準偏差が10ならば35歳の人も結構フツーにその
中にいる(同じ確率...続きを読む

Q母標準偏差・標本標準偏差と標本平均(Xバー)の標準偏差

(聞きたいのは、最後の3行がメインです)
http://oshiete1.goo.ne.jp/qa3478996.html
の質問をしたものです。

標準偏差を求めるとき、(ルートの中の)分母が「n」か「n-1」
の2種類があることはわかりました。
母標準偏差であっても標本標準偏差であっても「n」で求められる
が、標本から母標準偏差を推定するときが「n-1」を使うという
ことで理解しました。

ところで、「n」にしても「n-1」にしてもそんなに値としては
変わらないということなんですよね?

高校の時の教科書で、「標本平均(Xバー)の標準偏差」という
のがありました。
 「母平均m、母標準偏差sの母集団から大きさnの無作為標本
 抽出するとき、標本平均Xバーの標準偏差σ=s/(ルートn)」
というのがありました。
 「標本標準偏差」とこの「標本平均Xバーの標準偏差」というの
は全然違うものなんですよね?(値も全然違うものになってしま
うと思います。)

Aベストアンサー

 統計学での目的は、集団全体のこと、すなわち母集団について知ることです。

 標準偏差は、集団のばらつきの程度を示し、本当に知りたいのは母集団の標準偏差、すなわち、母標準偏差です。しかし、母標準偏差が現実には求められない場合があります。一つは標本数が多すぎる場合、もう一つは蛍光灯の寿命のように全てを調べると商品が残らなくなつてしまう場合です。
 そこで、仕方なくその一部を取り出す(=抽出して)、母集団のバラツキを推定します。母集団を推定するためには、いくつかを標本として選び、その標準偏差、すなわち標本標準偏差(不偏標準偏差ともいう)を代わりに用いることになります。標本は、ランダムサンプリングをするので、選ぶたびに異なり、そのバラツキは母集団とは同一の標本にはなりません
 そこで、母標準偏差はnで割るので、標本標準偏差はn-1で割っておけばやや広い範囲になるので、標本の選択が少々不味くても、広めに取ってあるのでカバーできることになります(数学的には証明できるようですが、私には無理なので、直感的に表現しました)。もちろん、標本数が大きければ、nであろうが、n-1であろうが大差はありません。このようにして、計算が非現実的な母集団のバラツキを推定するわけです。標本標準偏差は、母標準偏差の代理なのです。

>標本平均Xバーの標準偏差
 標準偏差は、母集団のバラツキを示します。標本標準偏差は、母集団のバラツキの推定値です。
 これは、標準誤差で、母集団から抽出した「標本の平均値のバラツキ」を示しています。平均ですから、再度nで割り算することになります。外国人の論文には、バラツキがグラフ上などでは小さく見えるので、標本標準偏差(母集団のバラツキの推定値)ではなく、この標準誤差(標本の平均値のバラツキ)で示したものを見かけます。

 なお、標準偏差は、英語ではStandard Deviation、エクセルではSTDEVPでPの根拠が不明。標準誤差は、英語ではPartial Standard Deviation、エクセルはSTDEVで、Patialの単語の部分が見当たりません。エクセルの関数を使うときは、逆にやりそうで、いつも混乱しています。

 統計学での目的は、集団全体のこと、すなわち母集団について知ることです。

 標準偏差は、集団のばらつきの程度を示し、本当に知りたいのは母集団の標準偏差、すなわち、母標準偏差です。しかし、母標準偏差が現実には求められない場合があります。一つは標本数が多すぎる場合、もう一つは蛍光灯の寿命のように全てを調べると商品が残らなくなつてしまう場合です。
 そこで、仕方なくその一部を取り出す(=抽出して)、母集団のバラツキを推定します。母集団を推定するためには、いくつかを標本として選び、...続きを読む

Q標準偏差に「通常の範囲」はありますか?(初心者の質問です)

現在、仕事で必要のため大変困っています。

大量のデータ(物件の見積金額)のばらつきを出すために「STDEVP」関数を用いて「標準偏差」を出しました。
この標準偏差というのは、よくある「山のようなグラフ」(すみません、名前がわかりません)の平均からどれだけ離れているか・・・ということをみるものでよかったでしょうか?

また、この標準偏差に「通常の範囲」というのはありますか?たとえば「マイナス」にはならないとか100以上の数値はない・・・など

そしてこのデータを「山のようなグラフ」にして見た目にすぐにわかるようにしたいのですが、どのようにしたら良いですか?

くだらないご質問だとはお思いでしょうが、なんとかお力を貸してください。

Aベストアンサー

>よくある「山のようなグラフ」
●正規分布グラフのことでしょう。
●標準偏差は、1峰の山型分布に限らず、平均を出せるデータがあれば(また平均はどんな場合でも出せますから)
(データ-平均)の2乗を全てのデータに亘って加えた
(Σ)もの(分散)から計算するからです。その平方根(+の方を採る約束)です。(不偏分散に付いては略)
●正規分布かそれに近い分布でないと、「もの」(推論)が言えないだけです。(例えば「平均値 ± 1 標準偏差の範囲内には全データの 68.27% が含まれる」など)
誤差に関係するようなものは使えます。正規分布以外の分布は沢山あります。むしろ正規分布が特殊でしょう。
>この標準偏差に「通常の範囲」というのはありますか
プラス値であることだけです。値について、1より小とかの原理的範囲はありません。公式から判ります。データが2個しかないと仮定して、仮定で平均を決め、平均+α、平均-αのαの値を大きくすればいくらでも「分散」値は大きくなることで判ります。
>そしてこのデータを「山のようなグラフ」にして
現実データの現実分布の形によるのです。無理に山のような形に出来るものでもなく、して良いものでもありません。
現実の分布の形が「まずありき」であって、現実をモデル
分布に強引に当てはめては、本末顛倒です。
経験的に理論的に正規分布をするはずのものが、そうなっていない時には、QC活動でおなじみの、何か外因的作用(機械の故障)や何かの要因が加わっていると、疑うわけです。試験成績であれば、あるクラスではその出題関連単元を教え、他のクラスでは教えなかったとか、カンニングが行われたのではないか、問題があまりにも易しすぎたのではないかなど。
パチンコの例の解説がありました。
http://www.yi-web.com/~ps/java/kakuritu_syoho11.htm
http://www.yi-web.com/~ps/
小生はダメですが、この方面に興味があれば理解のキッカケが掴めるかも。

>よくある「山のようなグラフ」
●正規分布グラフのことでしょう。
●標準偏差は、1峰の山型分布に限らず、平均を出せるデータがあれば(また平均はどんな場合でも出せますから)
(データ-平均)の2乗を全てのデータに亘って加えた
(Σ)もの(分散)から計算するからです。その平方根(+の方を採る約束)です。(不偏分散に付いては略)
●正規分布かそれに近い分布でないと、「もの」(推論)が言えないだけです。(例えば「平均値 ± 1 標準偏差の範囲内には全データの 68.27% が含まれる」など)
誤差...続きを読む

Q加重平均と平均の違い

加重平均と平均の違いってなんですか?
値が同じになることが多いような気がするんですけど・・・
わかりやす~い例で教えてください。

Aベストアンサー

例えば,テストをやって,A組の平均点80点,B組70点,C組60点だったとします.
全体の平均は70点!・・・これが単純な平均ですね.
クラスごとの人数が全く同じなら問題ないし,
わずかに違う程度なら誤差も少ないです.

ところが,A組100人,B組50人,C組10人だったら?
これで「平均70点」と言われたら,A組の生徒は文句を言いますよね.
そこで,クラスごとに重みをつけ,
(80×100+70×50+60×10)÷(100+50+10)=75.6
とやって求めるのが「加重平均」です.

Q測定したデータの誤差を計算する方法

集めたデータのばらつきを求めるときに使う計算法として、標準偏差がありますが、「誤差=平均値±標準偏差」と考えていいのでしょうか?
ほかに標準誤差というのがあるようなのですが、説明を読んでも何を意味している誤差なのか理解できません。
ちなみに、データは以下の通りです。

データ数:60
最高値:39.00
最低値:11.00
平均値:22.56
標準偏差:5.261
標準誤差:0.679(5.261/√60)
標準偏差を誤差と考えると22.56±5.261で、総データの70.0%が含まれます。
標準誤差を誤差と考えると22.56±0.679で、総データの10.0%が含まれます。

回答よろしくお願いします。

Aベストアンサー

ここで言う標準誤差は,平均値の確度を表す指標です.
(私自身は標準誤差という名称は初めてですが...)
なので母集団の平均の推定値は算出した平均値±α*標準誤差
(αは推定値の信頼度によって変化します.詳しくは
統計の教科書のt-分布のあたりをご覧下さい)

あと質問者さんは誤差を求めたいようですが,誤差の定義は
誤差=測定値-真値
であり,一般に真値は分からないので誤差は分からないことになります.
また何の誤差をお知りになりたいのかも不明です.上のデータが何をあらわしてるのかは不明ですが,
同一のものを60回測定した結果であれば,母集団の平均の推定値がほぼ真値を表しますので,誤差は,ほぼ標準偏差と考えることができるように思います.
一方60個の別のものを測定したとすれば,母集団の平均の推定値は母集団の平均値であり,標準偏差は60個のものの分布を表していることとなり,誤差という話はあまり出てきません.(無理に言えば,製造の誤差と言えなくもありませんが)

Q統計学的に信頼できるサンプル数って?

統計の「と」の字も理解していない者ですが、
よく「統計学的に信頼できるサンプル数」っていいますよね。

あれって「この統計を調べたいときはこれぐらいのサンプル数があれば信頼できる」という決まりがあるものなのでしょうか?
また、その標本数はどのように算定され、どのような評価基準をもって客観的に信頼できると判断できるのでしょうか?
たとえば、99人の専門家が信頼できると言い、1人がまだこの数では信頼できないと言った場合は信頼できるサンプル数と言えるのでしょうか?

わかりやすく教えていただけると幸いです。

Aベストアンサー

> この統計を調べたいときはこれぐらいのサンプル数があれば信頼できる・・・
 調べたいどの集団でも、ある一定数以上なら信頼できるというような決まりはありません。
 何かサンプルを集め、それをなんかの傾向があるかどうかという仮説を検証するために統計学的検定を行って、仮設が否定されるかされないかを調べる中で、どの検定方法を使うかで、最低限必要なサンプル数というのはあります。また、集めたサンプルを何か基準とすべき別のサンプルと比べる検定して、基準のサンプルと統計上差を出すに必要なサンプル数は、比べる検定手法により計算できるものもあります。
 最低限必要なサンプル数ということでは、例えば、ある集団から、ある条件で抽出したサンプルと、条件付けをしないで抽出したサンプル(比べるための基準となるサンプル)を比較するときに、そのサンプルの分布が正規分布(正規分布解説:身長を5cmきざみでグループ分けし、低いグループから順に並べたときに、日本人男子の身長なら170cm前後のグループの人数が最も多く、それよりも高い人のグループと低い人のグループの人数は、170cmのグループから離れるほど人数が減ってくるような集団の分布様式)でない分布形態で、しかし分布の形は双方とも同じような場合「Wilcoxon符号順位検定」という検定手法で検定することができますが、この検定手法は、サンプルデータに同じ値を含まずに最低6つのサンプル数が必要になります。それ以下では、いくらデータに差があるように見えても検定で差を検出できません。
 また、統計上差を出すのに必要なサンプル数の例では、A国とB国のそれぞれの成人男子の身長サンプルがともに正規分布、または正規分布と仮定した場合に「t検定」という検定手法で検定することができますが、このときにはその分布を差がないのにあると間違える確率と、差があるのにないと間違える確率の許容値を自分で決めた上で、そのサンプルの分布の値のばらつき具合から、計算して求めることができます。ただし、その計算は、現実に集めたそれぞれのサンプル間で生じた平均値の差や分布のばらつき具合(分散値)、どのくらいの程度で判定を間違える可能性がどこまで許されるかなどの条件から、サンプル間で差があると認められるために必要なサンプル数ですから、まったく同じデータを集めた場合でない限り、計算上算出された(差を出すために)必要なサンプル数だけサンプルデータを集めれば、差があると判定されます(すなわち、サンプルを無制限に集めることができれば、だいたい差が出るという判定となる)。よって、集めるサンプルの種類により、計算上出された(差を出すために)必要なサンプル数が現実的に妥当なものか、そうでないのかを、最終的には人間が判断することになります。

 具体的に例示してみましょう。
 ある集団からランダムに集めたデータが15,12,18,12,22,13,21,12,17,15,19、もう一方のデータが22,21,25,24,24,18,18,26,21,27,25としましょう。一見すると後者のほうが値が大きく、前者と差があるように見えます。そこで、差を検定するために、t検定を行います。結果として計算上差があり、前者と後者は計算上差がないのにあると間違えて判断する可能性の許容値(有意確率)何%の確率で差があるといえます。常識的に考えても、これだけのサンプル数で差があると計算されたのだから、差があると判断しても差し支えないだろうと判断できます。
 ちなみにこの場合の差が出るための必要サンプル数は、有意確率5%、検出力0.8とした場合に5.7299、つまりそれぞれの集団で6つ以上サンプルを集めれば、差を出せるのです。一方、サンプルが、15,12,18,12,21,20,21,25,24,19の集団と、22,21125,24,24,15,12,18,12,22の集団ではどうでしょう。有意確率5%で差があるとはいえない結果になります。この場合に、このサンプルの分布様式で拾い出して差を出すために必要なサンプル数は551.33となり、552個もサンプルを抽出しないと差が出ないことになります。この計算上の必要サンプル数がこのくらい調査しないといけないものならば、必要サンプル数以上のサンプルを集めて調べなければなりませんし、これだけの数を集める必要がない、もしくは集めることが困難な場合は差があるとはいえないという判断をすることになるかと思います。

 一方、支持率調査や視聴率調査などの場合、比べるべき基準の対象がありません。その場合は、サンプル数が少ないレベルで予備調査を行い、さらにもう少しサンプル数を増やして予備調査を行いを何回か繰り返し、それぞれの調査でサンプルの分布形やその他検討するべき指数を計算し、これ以上集計をとってもデータのばらつきや変化が許容範囲(小数点何桁レベルの誤差)に納まるようなサンプル数を算出していると考えます。テレビ視聴率調査は関東では300件のサンプル数程度と聞いていますが、調査会社ではサンプルのとり方がなるべく関東在住の家庭構成と年齢層、性別などの割合が同じになるように、また、サンプルをとる地域の人口分布が同じ割合になるようにサンプル抽出条件を整えた上で、ランダムに抽出しているため、数千万人いる関東の本当の視聴率を割合反映して出しているそうです。これはすでに必要サンプル数の割り出し方がノウハウとして知られていますが、未知の調査項目では必要サンプル数を導き出すためには試行錯誤で適切と判断できる数をひたすら調査するしかないかと思います。

> どのような評価基準をもって客観的に信頼できると判断・・・
 例えば、工場で作られるネジの直径などは、まったくばらつきなくぴったり想定した直径のネジを作ることはきわめて困難です。多少の大きさのばらつきが生じてしまいます。1mm違っても規格外品となります。工場では企画外品をなるべく出さないように、統計を取って、ネジの直径のばらつき具合を調べ、製造工程をチェックして、不良品の出る確率を下げようとします。しかし、製品をすべて調べるわけにはいきません。そこで、調べるのに最低限必要なサンプル数を調査と計算を重ねてチェックしていきます。
 一方、農場で生産されたネギの直径は、1mmくらいの差ならほぼ同じロットとして扱われます。また、農産物は年や品種の違いにより生育に差が出やすく、そもそも規格はネジに比べて相当ばらつき具合の許容範囲が広くなっています。ネジに対してネギのような検査を行っていたのでは信頼性が損なわれます。
 そもそも、統計学的検定は客観的判断基準の一指針ではあっても絶対的な評価になりません。あくまでも最終的に判断するのは人間であって、それも、サンプルの質や検証する精度によって、必要サンプルは変わるのです。

 あと、お礼の欄にあった専門家:統計学者とありましたが、統計学者が指摘できるのはあくまでもそのサンプルに対して適切な検定を使って正しい計算を行ったかだけで、たとえ適切な検定手法で導き出された結果であっても、それが妥当か否か判断することは難しいと思います。そのサンプルが、何を示し、何を解き明かし、何に利用されるかで信頼度は変化するからです。
 ただ、経験則上指標的なものはあります。正規分布を示すサンプルなら、20~30のサンプル数があれば検定上差し支えない(それ以下でも問題ない場合もある)とか、正規分布でないサンプルは最低6~8のサンプル数が必要とか、厳密さを要求される調査であれば50くらいのサンプル数が必要であろうとかです。でも、あくまでも指標です。

> この統計を調べたいときはこれぐらいのサンプル数があれば信頼できる・・・
 調べたいどの集団でも、ある一定数以上なら信頼できるというような決まりはありません。
 何かサンプルを集め、それをなんかの傾向があるかどうかという仮説を検証するために統計学的検定を行って、仮設が否定されるかされないかを調べる中で、どの検定方法を使うかで、最低限必要なサンプル数というのはあります。また、集めたサンプルを何か基準とすべき別のサンプルと比べる検定して、基準のサンプルと統計上差を出すに必要な...続きを読む

Qエクセル 0や空白のセルをグラフに反映させない方法

以下の点でどなたかお教えください。

H18.1~H20.12までの毎月の売上高を表に記載し、その表を元にグラフを作成しています。グラフに反映させる表の範囲はH18.1~H20.12の全てです。
そのためまだ経過していない期間のセルが空白になり、そこがグラフに反映され見づらくなります。
データを入力する都度グラフの範囲を変更すればいいのですが、うまく算式や設定等で空白や0円となっているセルをグラフに反映させない方法はありますか?

お手数ですが、よろしくお願いいたします。

Aベストアンサー

売上高のセルは数式で求められているのですよね?
それなら
=IF(現在の数式=0,NA(),現在の数式)
としてみてください。
つまり、0の場合はN/Aエラーにしてしまうんです。N/Aエラーはグラフに反映されません。


人気Q&Aランキング