「夫を成功」へ導く妻の秘訣 座談会

ある試験の加速度(G値)を異なる2種類の方法で予測をし、予測値を出しました。
その結果が以下のようです。
実際のものはデータ数がかなりあります。

実測値  予測値1 予測値2 
80.7    78.8     70.2
88.0    75.8     90.4
68.8    75.8     75.6
51.6    54.9     45.8
 :     :       : 
 :     :       : 

予測値1と予測値2のどちらが実測値に近いかを数値的に示す方法がわかりません。
散布図で視覚的には示すことができるのですが、これを具体的な数値で示す計算方法がわかりません。
よろしくお願いします。

このQ&Aに関連する最新のQ&A

A 回答 (2件)

実測値をx1,x2,・・・ 予測値1をy1,y2,・・・ 予測値2


をz1,z2,・・・ で表したとします。
x1-y1 と x1-z1 など、差がどうなっているかを
数値的に表せばよいのです。
差をどのようにするかでいろいろあります。

No.1さんが言っているように分散を出すのが一般的かな
とも思います。
つまり、(x1-y1)^2+(x2-y2)^2+・・・と差を2乗してyとzを
比較して少ない方がより近いと思います。

2乗じゃなくても絶対値でするとか3乗にして絶対値(差を
必ず正の値にすることが重要)とか4乗するとか好きにすれば
いいと思います。

この回答への補足

ありがとうございます。
差の分散を使えば確かに、出そうです。
ただ、差の二乗和を使うと値が相当大きくなってしまうのですが他に方法はないものでしょうか?

補足日時:2007/07/16 01:05
    • good
    • 2

実測値と予測値の差の分散を計算すればいいんです。

この回答への補足

回答を頂きありがとうございます。
差の分散を使えば確かに、出そうです。
No.2さんに伺ったことと同じになるのですが、差の二乗和を使うと値が相当大きくなってしまうのは他に方法はないものでしょうか?

補足日時:2007/07/16 01:08
    • good
    • 0

このQ&Aに関連する人気のQ&A

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!

このQ&Aを見た人はこんなQ&Aも見ています

このQ&Aと関連する良く見られている質問

Q予算達成率の計算方法

予算達成率の計算方法

予算5に対して実績が3の場合の達成率は、60%だと思いますが
実績値がマイナス・ゼロになった場合の達成率は、どう計算するか教えてください。

例えば ⇒   (1)予算5に対して実績-3の達成率は?  
        (2)予算5に対して実績 0の達成率は?
        (3)予算0に対して実績5の達成率は? 
        (4)予算-3に対して実績5の達成率は?


※あと、達成率を計算する時、EXCEL(表計算)を使ってマイナス、ゼロでも
 対応できる計算式をご存知であれば教えてください。
 よろしくお願いします。

Aベストアンサー

No.1です。

「率」を計算する場合、何を率と考え、ゼロ値をどこにするかが非常に重要な問題になります。たとえば前年の利益実績が1000円で目標値が「前年比5%増し」というのであれば、目標値は50円(前年利益がゼロ値)ではなく1050円(絶対額)とし、絶対額そのものを比較(=実績額÷目標額:結果は%表示)して「何%達成した」と考えるのが一般的でしょう。そのうえで、達成率が98%だったとしたら、これを100%(分析上のゼロ値)と比較してマイナス2%とし、「今現在、目標に対してマイナス2ポイントだからあとちょっとで達成だ、頑張れ!」というような発破のかけかたをします。達成率のようなものは単なる計算上の数値であり、それをどのような意味あるものと考えるかが分析上重要です。
まさか利益の絶対値として0やマイナスを予算としているのではないと思いますが、仮に絶対値が0やマイナスだったとしたら、「達成率」の意味そのものを問い直すべきでしょう(ゼロ値をより大きなマイナス値に置くことで分析そのものは可能です)。


なお、利益予算の分析ということですが、利益というのは売上や原価などとは異なり、計算の結果の数値であって実体のあるものではありませんから、それを分析するためには、ゼロ値の取り方を考えるほかにも、その「利益」とは何かを理解することが必要です。利益は通常、収入と経費(原価や損失等を含む)との差額ですから、その達成率を分析するためには直接利益そのものを比較するだけでは表面的なものしかわからず、収入の比較、経費の比較等と組み合わせた多角的な分析が必要になります。管理会計では経費について予定配賦率を使用することが多いため、利益自体が想定値としてしか把握できないこともあります。
正しい成果を知るためには、まず何を何のために、どのように分析しようとしているのか、それを正確に理解することが必要だということです。


私は質問に対し、直接その答えを教えるのではなく、質問者自身が自分で答えを見つけられるよう、ヒントを出すように心掛けています。啓せずんば発せずということです。自分自身で見つけ出した答えはその後もいろいろ応用が利きますが、人から結果だけ教えられたことは応用も利かず、問題解決を他人任せにする習慣がつきかねません。
ご質問の書き方では分析する対象やその数値の意味などが書かれていませんが、ものごとを分析する上では、何をどう分析しようとしているのかを正確に把握することが必要なので、質問に書かれているような情報だけでは答えようがないのだということを理解してもらいたいと思い、あえて先のような回答をしました。あしからず。

No.1です。

「率」を計算する場合、何を率と考え、ゼロ値をどこにするかが非常に重要な問題になります。たとえば前年の利益実績が1000円で目標値が「前年比5%増し」というのであれば、目標値は50円(前年利益がゼロ値)ではなく1050円(絶対額)とし、絶対額そのものを比較(=実績額÷目標額:結果は%表示)して「何%達成した」と考えるのが一般的でしょう。そのうえで、達成率が98%だったとしたら、これを100%(分析上のゼロ値)と比較してマイナス2%とし、「今現在、目標に対してマイナス2ポイントだか...続きを読む

Q予測濃度と実測値の比較方法 検定、相関

 地下水の汚染物質の濃度分布をある方法で予測しました。実測値がある地点(20地点程度)について予測値との比較をして予測方法の妥当性を検討したいと思っています。何かいい方法はありませんでしょうか。とりあえず思いつくのは実測値を横軸、予測値を縦軸に取って散布図を作って相関を見てみようかというくらいしかありません。何かの検定で統計的に実測値と予測値はよく一致しているというように言えるようだといいと思うのですが。。。回答よろしくお願いします。

Aベストアンサー

No2です。

>汚染源に例えば、農業施肥と家畜排泄物があります。施肥した窒素のうち地下水に浸透する割合がパラメータAで0.2から0.4の範囲にある。同様に家畜排泄物に含まれる窒素のうち地下水に浸透する割合がパラメータBで0.3から0.5の範囲にある。
 話がかなり違ってきたので。というのは、理論式は確定していると考えました。というのは、
>実測値を横軸、予測値を縦軸に取って
とあったので、実測値が理論値にあっているかどうか、すなわち、理論値(理論式)は確定していると判断したからです。理論式が実測値にあっているかどうか、むしろ、理論式をだしたい、しかも、理論式には変数(独立変数)が2つはあるらしい、というのでは、私が想像した単回帰分析では無理です。

 重回帰分析でうまくいくと良いのですが、次の不安があります。
1) 単回帰分析に精通していないように見受けますが、重回帰分析は、・・・。単回帰分析よりは、重回帰分析の方が難しいので。
2) 数値をぶち込めば、あとはパソコンで処理できますが、導き出した重回帰式の説明ができるかどうか(適否の判断ができるか否か)。
 平均寿命の解析をしていて、平均寿命は、医師の数は多いほうが、看護婦数は少ない方が良い、という式をパソコンは導きますので。
3) 現在の重回帰分析は、説明変数は1次です。ですから、説明変数を対数や2次以上の次数に変換するか否か、この判断には、経験が必要になります。

 以前にやった経験は、y=a(sin(x+θ)+bの理論式で、a,b,θを決めました。xに測定した条件を決め、a,b,θの最適な値を、実測との相関分析によって求めました。
この3つの数値は、BASICで求めたのですが、FOR~NEXTが3段階なので、時間が掛かりました。これも、理論式はy=a(sin(x+θ)+bのハズ、と分かっていたので、可能でした。

 想定されている理論式が分からないと、なんとも言えません。
それに、説明変数も、肥料と排泄物だけではなく、餌の食べ残し、植物や微生物の死骸から、さらには雨量やN化合物からのNO2への変換効率(タンパクなのかアミノ酸なのか)、あるいは地下水だと、他の地域からの流入などなど、まだまだ変数が必要だと(素人考えですが・・・)。
 変数が不足していると、相関異数は当然小さくなって、使いものにはなりません。重回帰分析なら、変数を多く用意しておいて、相関係数が高くなる変数を加えたり減らしたりすることで、最適な式を導く方法もあります。

 もっとも、肥料と排泄物だけでやってみて、相関係数が高ければ、それでOKというのも有ですが。

No2です。

>汚染源に例えば、農業施肥と家畜排泄物があります。施肥した窒素のうち地下水に浸透する割合がパラメータAで0.2から0.4の範囲にある。同様に家畜排泄物に含まれる窒素のうち地下水に浸透する割合がパラメータBで0.3から0.5の範囲にある。
 話がかなり違ってきたので。というのは、理論式は確定していると考えました。というのは、
>実測値を横軸、予測値を縦軸に取って
とあったので、実測値が理論値にあっているかどうか、すなわち、理論値(理論式)は確定していると判断したからです。理論式...続きを読む

Q加重平均と平均の違い

加重平均と平均の違いってなんですか?
値が同じになることが多いような気がするんですけど・・・
わかりやす~い例で教えてください。

Aベストアンサー

例えば,テストをやって,A組の平均点80点,B組70点,C組60点だったとします.
全体の平均は70点!・・・これが単純な平均ですね.
クラスごとの人数が全く同じなら問題ないし,
わずかに違う程度なら誤差も少ないです.

ところが,A組100人,B組50人,C組10人だったら?
これで「平均70点」と言われたら,A組の生徒は文句を言いますよね.
そこで,クラスごとに重みをつけ,
(80×100+70×50+60×10)÷(100+50+10)=75.6
とやって求めるのが「加重平均」です.

Q実測値と予測値の同異の検定

内容を見ていただき,ありがとうございます。
心理学のカテゴリから移ってまいりました。
 (前QNo.1479096)

先日,以下の反比例式で予測できる値について,実験を行いました。
 予測 : Y=Ax^-1
そして,2つの実験条件で測定を行った結果,以下の2つの式で表せる実測値を得ました。
 (式は,Excelの近似式とSPSSにて算出しました)
 実測1: Y=0.3x^-0.2
 実測2: Y=0.8x^-0.9

これらの式をグラフにプロットしたところ,
予測と実測1は似たような反比例の曲線を描き,
予測と実測2はあまり一致しているようには見えませんでした。
そこで,予測で立てた式と実測で得られた式とが一致しているかどうかについて
検定を行いたいと考えているのですが,どのように行えば良いかわかりません。

愚考の末,対応のあるt検定にかけた結果,
予測と実測1の間はp<.05の差があり,
予測と実測2の間には差がありませんでした。
もちろん,この方法が正しいかどうかについて自信はありません。

このような予測式と実測値の式の同-異について,直接的に検定できる方法をご存知でしたら,
なにとぞご教授いただけますよう,よろしくお願いいたします。

内容を見ていただき,ありがとうございます。
心理学のカテゴリから移ってまいりました。
 (前QNo.1479096)

先日,以下の反比例式で予測できる値について,実験を行いました。
 予測 : Y=Ax^-1
そして,2つの実験条件で測定を行った結果,以下の2つの式で表せる実測値を得ました。
 (式は,Excelの近似式とSPSSにて算出しました)
 実測1: Y=0.3x^-0.2
 実測2: Y=0.8x^-0.9

これらの式をグラフにプロットしたところ,
予測と実測1は似たような反比例の曲線を描き,
予測と実測2は...続きを読む

Aベストアンサー

こんにちは。心理学カテゴリで投稿されている時から質問を読んでいました。

気になっていたのですが,質問者さんは何を調べられようとしているのでしょうか? 確かに質問タイトルには「予測値と実測値との同意の検定」とは書かれています。このタイトルを見たときには,「a)予測値データと実測値データがどの程度一致しているのか?」を調べたいのだと思いました。その場合であれば,下記の(1),(2)のいずれかを行えばよいと思いました。

(1)「予測値と実測値の相関係数を求める,この相関係数が有意であるかどうかを調べたいのならば相関係数の有意性判定」

(2)χ2の適合度検定

しかし,質問を読んでみると,予測値と実測値の一致性というよりは,「b)複数の予測式の中で最も精度が高い式を選ぶ」ということに関心があるように思われます。
目的(a)と(b)は一見似たようなものと思われるかもしれませんが,明確に異なります。統計学的に考える場合,両者のどちらを調べるかを明確にしなければなりません。

さて,後者の(b)を調べたい場合。予測式が似ているかどうかを調べると言っても,係数が異なるわけですから直接的に式を比較することはできません。そこで,「複数の予測値のうち,実測値をなるべく的確に調べているものはどれか,予測の説明力(適合度)はいくらか?」という適合度指標の考えを導入して考えざるを得ないと思います。適合度指標としてたくさん開発されていますが,有名なものに(基本的なものに)AICがあります(専門書を見て下さい。今ではAICを改良したものとして多数の指標があります)。


ただし……本来,実測値データの式を作ると言うことはしません。式を作っても,その式では説明できないロスト情報を生んでしまうからです。
しかし,正直意図がよく分かりませんが,質問者さんがどうしても実測値の表現式を作りたいならば,この表現式を予測式とみなして,他に作った予測式とで比較するという方法を思いつきました。
そして,表現式と予測式1と予測式2のAICを求めて,このAICという情報量がχ2分布に従うことを利用して,「表現式-予測式1」と「表現式-予測式2」の有意差検定を行い,有意差がないペアの予測式を表現式と類似していると考える……という判断を行うやり方があるかもしれません。

説明している本人がいうのもあれですが,正直*の方法で精度の高い予測式を選んだ研究報告を出されても,「何で,実測値データを式に変換するんだ?」と考えてしまうと思います。実測値データの表現式を使う方法を,私ならばしないと思います。

こんにちは。心理学カテゴリで投稿されている時から質問を読んでいました。

気になっていたのですが,質問者さんは何を調べられようとしているのでしょうか? 確かに質問タイトルには「予測値と実測値との同意の検定」とは書かれています。このタイトルを見たときには,「a)予測値データと実測値データがどの程度一致しているのか?」を調べたいのだと思いました。その場合であれば,下記の(1),(2)のいずれかを行えばよいと思いました。

(1)「予測値と実測値の相関係数を求める,この相関係数が有意である...続きを読む

Qエクセル STDEVとSTDEVPの違い

エクセルの統計関数で標準偏差を求める時、STDEVとSTDEVPがあります。両者の違いが良くわかりません。
宜しかったら、恐縮ですが、以下の具体例で、『噛み砕いて』教えて下さい。
(例)
セルA1~A13に1~13の数字を入力、平均値=7、STDEVでは3.89444、STDEVPでは3.741657となります。
また、平均値7と各数字の差を取り、それを2乗し、総和を取る(182)、これをデータの個数13で割る(14)、この平方根を取ると3.741657となります。
では、STDEVとSTDEVPの違いは何なのでしょうか?統計のことは疎く、お手数ですが、サルにもわかるようご教授頂きたく、お願い致します。

Aベストアンサー

データが母集団そのものからとったか、標本データかで違います。また母集団そのものだったとしても(例えばクラス全員というような)、その背景にさらならる母集団(例えば学年全体)を想定して比較するような時もありますので、その場合は標本となります。
で標本データの時はSTDEVを使って、母集団の時はSTDEVPをつかうことになります。
公式の違いは分母がn-1(STDEV)かn(STDEVP)かの違いしかありません。まぁ感覚的に理解するなら、分母がn-1になるということはそれだけ結果が大きくなるわけで、つまりそれだけのりしろを多くもって推測に当たるというようなことになります。
AとBの違いがあるかないかという推測をする時、通常は標本同士の検証になるわけですので、偏差を余裕をもってわざとちょっと大きめに見るということで、それだけ確証の度合いを上げるというわけです。

Q前年比の%の計算式を教えてください

例えば前年比115%とかよくいいますよね?

その計算の仕方が分かりません・・・
例えば 前年度の売り上げ2.301.452円
    今年度の売り上げ2.756.553円
の場合前年比何%アップになるのでしょうか?計算式とその答えを
解りやすく教えて下さい・・・
バカな質問でゴメンなさい(><)

よろしくお願いします。

Aベストアンサー

 
(今年の売上÷前年の売上×100)-100=19.8%の売上増加

 

Qエクセルで計算すると2.43E-19などと表示される。Eとは何ですか?

よろしくお願いします。
エクセルの回帰分析をすると有意水準で2.43E-19などと表示されますが
Eとは何でしょうか?

また、回帰分析の数字の意味が良く分からないのですが、
皆さんは独学されましたか?それとも講座などをうけたのでしょうか?

回帰分析でR2(決定係数)しかみていないのですが
どうすれば回帰分析が分かるようになるのでしょうか?
本を読んだのですがいまいち難しくて分かりません。
教えてください。
よろしくお願いします。

Aベストアンサー

★回答
・最初に『回帰分析』をここで説明するのは少し大変なので『E』のみ説明します。
・回答者 No.1 ~ No.3 さんと同じく『指数表記』の『Exponent』ですよ。
・『指数』って分かりますか?
・10→1.0E+1(1.0×10の1乗)→×10倍
・100→1.0E+2(1.0×10の2乗)→×100倍
・1000→1.0E+3(1.0×10の3乗)→×1000倍
・0.1→1.0E-1(1.0×1/10の1乗)→×1/10倍→÷10
・0.01→1.0E-2(1.0×1/10の2乗)→×1/100倍→÷100
・0.001→1.0E-3(1.0×1/10の3乗)→×1/1000倍→÷1000
・になります。ようするに 10 を n 乗すると元の数字になるための指数表記のことですよ。
・よって、『2.43E-19』とは?
 2.43×1/(10の19乗)で、
 2.43×1/10000000000000000000となり、
 2.43×0.0000000000000000001だから、
 0.000000000000000000243という数値を意味します。

補足:
・E+数値は 10、100、1000 という大きい数を表します。
・E-数値は 0.1、0.01、0.001 という小さい数を表します。
・数学では『2.43×10』の次に、小さい数字で上に『19』と表示します。→http://ja.wikipedia.org/wiki/%E6%8C%87%E6%95%B0%E8%A1%A8%E8%A8%98
・最後に『回帰分析』とは何?下の『参考URL』をどうぞ。→『数学』カテゴリで質問してみては?

参考URL:http://ja.wikipedia.org/wiki/%E5%9B%9E%E5%B8%B0%E5%88%86%E6%9E%90

★回答
・最初に『回帰分析』をここで説明するのは少し大変なので『E』のみ説明します。
・回答者 No.1 ~ No.3 さんと同じく『指数表記』の『Exponent』ですよ。
・『指数』って分かりますか?
・10→1.0E+1(1.0×10の1乗)→×10倍
・100→1.0E+2(1.0×10の2乗)→×100倍
・1000→1.0E+3(1.0×10の3乗)→×1000倍
・0.1→1.0E-1(1.0×1/10の1乗)→×1/10倍→÷10
・0.01→1.0E-2(1.0×1/10の2乗)→×1/100倍→÷100
・0.001→1.0E-3(1.0×1/10の3乗)→×1/1000倍→÷1000
・になります。ようするに 10 を n 乗すると元の数字になるた...続きを読む

Qexcel関数で変動率を求めるには?

質問させていただきます。

時系列で下記の金額の推移があったとして
変動率をExcelで算出するには
どの関数を使えばいいのでしょうか?
もしくはどのように計算させればいいのでしょうか?

(例) <単位:円>
   1月  2月  3月  4月 平均
12000 10300 15000 12500 12450

それと、変動率と変動係数の違いを
教えていただけると更にありがたいです。
ぜひよろしくお願いいたします。

Aベストアンサー

#1さんとほぼ同じですが。

変動係数は、身長と体重のように異なるデータ単位のバラツキを比較しようとすると、平均値が大きいほうが大きくバラついてしまい、うまくありません。そこで、平均値が異なる標本の標準偏差を比較できるように、標準偏差を平均値で割ったのもが、変動係数です。
EXCELでは、
=STDEV(セル範囲)/AVERAGE(セル範囲)
となります。

一方、変動率は、質問の例でいえば、前の月と次の月の比をとり、さらに自然対数をとったものになります。
(例)2月/1月=10300/12000=0.858333
ln(0.858333)=-0.15726(-15.7%)
という具合です。

EXCELでは、セルA2に12000、セルB2に10300があるとすれば、
=ln(B2/A2)
となります。

ただし、#1さんも言っておりますが、変動率は、色々な表し方があるようです。単に比をとって%で表すだけなど。

Q測定したデータの誤差を計算する方法

集めたデータのばらつきを求めるときに使う計算法として、標準偏差がありますが、「誤差=平均値±標準偏差」と考えていいのでしょうか?
ほかに標準誤差というのがあるようなのですが、説明を読んでも何を意味している誤差なのか理解できません。
ちなみに、データは以下の通りです。

データ数:60
最高値:39.00
最低値:11.00
平均値:22.56
標準偏差:5.261
標準誤差:0.679(5.261/√60)
標準偏差を誤差と考えると22.56±5.261で、総データの70.0%が含まれます。
標準誤差を誤差と考えると22.56±0.679で、総データの10.0%が含まれます。

回答よろしくお願いします。

Aベストアンサー

ここで言う標準誤差は,平均値の確度を表す指標です.
(私自身は標準誤差という名称は初めてですが...)
なので母集団の平均の推定値は算出した平均値±α*標準誤差
(αは推定値の信頼度によって変化します.詳しくは
統計の教科書のt-分布のあたりをご覧下さい)

あと質問者さんは誤差を求めたいようですが,誤差の定義は
誤差=測定値-真値
であり,一般に真値は分からないので誤差は分からないことになります.
また何の誤差をお知りになりたいのかも不明です.上のデータが何をあらわしてるのかは不明ですが,
同一のものを60回測定した結果であれば,母集団の平均の推定値がほぼ真値を表しますので,誤差は,ほぼ標準偏差と考えることができるように思います.
一方60個の別のものを測定したとすれば,母集団の平均の推定値は母集団の平均値であり,標準偏差は60個のものの分布を表していることとなり,誤差という話はあまり出てきません.(無理に言えば,製造の誤差と言えなくもありませんが)

Q統計学的に信頼できるサンプル数って?

統計の「と」の字も理解していない者ですが、
よく「統計学的に信頼できるサンプル数」っていいますよね。

あれって「この統計を調べたいときはこれぐらいのサンプル数があれば信頼できる」という決まりがあるものなのでしょうか?
また、その標本数はどのように算定され、どのような評価基準をもって客観的に信頼できると判断できるのでしょうか?
たとえば、99人の専門家が信頼できると言い、1人がまだこの数では信頼できないと言った場合は信頼できるサンプル数と言えるのでしょうか?

わかりやすく教えていただけると幸いです。

Aベストアンサー

> この統計を調べたいときはこれぐらいのサンプル数があれば信頼できる・・・
 調べたいどの集団でも、ある一定数以上なら信頼できるというような決まりはありません。
 何かサンプルを集め、それをなんかの傾向があるかどうかという仮説を検証するために統計学的検定を行って、仮設が否定されるかされないかを調べる中で、どの検定方法を使うかで、最低限必要なサンプル数というのはあります。また、集めたサンプルを何か基準とすべき別のサンプルと比べる検定して、基準のサンプルと統計上差を出すに必要なサンプル数は、比べる検定手法により計算できるものもあります。
 最低限必要なサンプル数ということでは、例えば、ある集団から、ある条件で抽出したサンプルと、条件付けをしないで抽出したサンプル(比べるための基準となるサンプル)を比較するときに、そのサンプルの分布が正規分布(正規分布解説:身長を5cmきざみでグループ分けし、低いグループから順に並べたときに、日本人男子の身長なら170cm前後のグループの人数が最も多く、それよりも高い人のグループと低い人のグループの人数は、170cmのグループから離れるほど人数が減ってくるような集団の分布様式)でない分布形態で、しかし分布の形は双方とも同じような場合「Wilcoxon符号順位検定」という検定手法で検定することができますが、この検定手法は、サンプルデータに同じ値を含まずに最低6つのサンプル数が必要になります。それ以下では、いくらデータに差があるように見えても検定で差を検出できません。
 また、統計上差を出すのに必要なサンプル数の例では、A国とB国のそれぞれの成人男子の身長サンプルがともに正規分布、または正規分布と仮定した場合に「t検定」という検定手法で検定することができますが、このときにはその分布を差がないのにあると間違える確率と、差があるのにないと間違える確率の許容値を自分で決めた上で、そのサンプルの分布の値のばらつき具合から、計算して求めることができます。ただし、その計算は、現実に集めたそれぞれのサンプル間で生じた平均値の差や分布のばらつき具合(分散値)、どのくらいの程度で判定を間違える可能性がどこまで許されるかなどの条件から、サンプル間で差があると認められるために必要なサンプル数ですから、まったく同じデータを集めた場合でない限り、計算上算出された(差を出すために)必要なサンプル数だけサンプルデータを集めれば、差があると判定されます(すなわち、サンプルを無制限に集めることができれば、だいたい差が出るという判定となる)。よって、集めるサンプルの種類により、計算上出された(差を出すために)必要なサンプル数が現実的に妥当なものか、そうでないのかを、最終的には人間が判断することになります。

 具体的に例示してみましょう。
 ある集団からランダムに集めたデータが15,12,18,12,22,13,21,12,17,15,19、もう一方のデータが22,21,25,24,24,18,18,26,21,27,25としましょう。一見すると後者のほうが値が大きく、前者と差があるように見えます。そこで、差を検定するために、t検定を行います。結果として計算上差があり、前者と後者は計算上差がないのにあると間違えて判断する可能性の許容値(有意確率)何%の確率で差があるといえます。常識的に考えても、これだけのサンプル数で差があると計算されたのだから、差があると判断しても差し支えないだろうと判断できます。
 ちなみにこの場合の差が出るための必要サンプル数は、有意確率5%、検出力0.8とした場合に5.7299、つまりそれぞれの集団で6つ以上サンプルを集めれば、差を出せるのです。一方、サンプルが、15,12,18,12,21,20,21,25,24,19の集団と、22,21125,24,24,15,12,18,12,22の集団ではどうでしょう。有意確率5%で差があるとはいえない結果になります。この場合に、このサンプルの分布様式で拾い出して差を出すために必要なサンプル数は551.33となり、552個もサンプルを抽出しないと差が出ないことになります。この計算上の必要サンプル数がこのくらい調査しないといけないものならば、必要サンプル数以上のサンプルを集めて調べなければなりませんし、これだけの数を集める必要がない、もしくは集めることが困難な場合は差があるとはいえないという判断をすることになるかと思います。

 一方、支持率調査や視聴率調査などの場合、比べるべき基準の対象がありません。その場合は、サンプル数が少ないレベルで予備調査を行い、さらにもう少しサンプル数を増やして予備調査を行いを何回か繰り返し、それぞれの調査でサンプルの分布形やその他検討するべき指数を計算し、これ以上集計をとってもデータのばらつきや変化が許容範囲(小数点何桁レベルの誤差)に納まるようなサンプル数を算出していると考えます。テレビ視聴率調査は関東では300件のサンプル数程度と聞いていますが、調査会社ではサンプルのとり方がなるべく関東在住の家庭構成と年齢層、性別などの割合が同じになるように、また、サンプルをとる地域の人口分布が同じ割合になるようにサンプル抽出条件を整えた上で、ランダムに抽出しているため、数千万人いる関東の本当の視聴率を割合反映して出しているそうです。これはすでに必要サンプル数の割り出し方がノウハウとして知られていますが、未知の調査項目では必要サンプル数を導き出すためには試行錯誤で適切と判断できる数をひたすら調査するしかないかと思います。

> どのような評価基準をもって客観的に信頼できると判断・・・
 例えば、工場で作られるネジの直径などは、まったくばらつきなくぴったり想定した直径のネジを作ることはきわめて困難です。多少の大きさのばらつきが生じてしまいます。1mm違っても規格外品となります。工場では企画外品をなるべく出さないように、統計を取って、ネジの直径のばらつき具合を調べ、製造工程をチェックして、不良品の出る確率を下げようとします。しかし、製品をすべて調べるわけにはいきません。そこで、調べるのに最低限必要なサンプル数を調査と計算を重ねてチェックしていきます。
 一方、農場で生産されたネギの直径は、1mmくらいの差ならほぼ同じロットとして扱われます。また、農産物は年や品種の違いにより生育に差が出やすく、そもそも規格はネジに比べて相当ばらつき具合の許容範囲が広くなっています。ネジに対してネギのような検査を行っていたのでは信頼性が損なわれます。
 そもそも、統計学的検定は客観的判断基準の一指針ではあっても絶対的な評価になりません。あくまでも最終的に判断するのは人間であって、それも、サンプルの質や検証する精度によって、必要サンプルは変わるのです。

 あと、お礼の欄にあった専門家:統計学者とありましたが、統計学者が指摘できるのはあくまでもそのサンプルに対して適切な検定を使って正しい計算を行ったかだけで、たとえ適切な検定手法で導き出された結果であっても、それが妥当か否か判断することは難しいと思います。そのサンプルが、何を示し、何を解き明かし、何に利用されるかで信頼度は変化するからです。
 ただ、経験則上指標的なものはあります。正規分布を示すサンプルなら、20~30のサンプル数があれば検定上差し支えない(それ以下でも問題ない場合もある)とか、正規分布でないサンプルは最低6~8のサンプル数が必要とか、厳密さを要求される調査であれば50くらいのサンプル数が必要であろうとかです。でも、あくまでも指標です。

> この統計を調べたいときはこれぐらいのサンプル数があれば信頼できる・・・
 調べたいどの集団でも、ある一定数以上なら信頼できるというような決まりはありません。
 何かサンプルを集め、それをなんかの傾向があるかどうかという仮説を検証するために統計学的検定を行って、仮設が否定されるかされないかを調べる中で、どの検定方法を使うかで、最低限必要なサンプル数というのはあります。また、集めたサンプルを何か基準とすべき別のサンプルと比べる検定して、基準のサンプルと統計上差を出すに必要な...続きを読む


人気Q&Aランキング