今だけ人気マンガ100円レンタル特集♪

いままで、なんとなくわかったつもりでいましたが、
いざ,自分が使おうとすると考え込んでしまって
どうすればいいのか、頭がゴチャゴチャしてきました・・・。
この二つの意味の違いと、どういう時に使い分けるのかを
教えてください。

このQ&Aに関連する最新のQ&A

A 回答 (2件)

まず、補足要求させてください。


できたら、最小自乗平均値の定義を教えてください。

以下、推測に基づいて書いちゃいますが、

最小自乗平均値というのは、おそらく、
ある中央値みたいなのを1つ決めると、それと各データとの差の2乗を1個1個足し算した結果が最小になるということでは?
すると、要は、最小二乗法で近似直線を求めるのと同じ考え方になりますね。

さらに、その仮定に基づいて書きますと、
正規分布(ガウス分布)か、あるいはそうでなくても、とにかく左右対称な分布ならば、単純平均値と最小自乗平均値は正確に同じ値になるはずです。

ところが、左右対称とは大きくかけ離れた分布であれば、単純平均値と最小自乗平均値は、かなり異なる値になるでしょうね。

単純平均値を用いずに、わざわざ最小自乗平均を用いるのはなぜか、というのが、ご質問の趣旨ですね?

要はこういうことなのでは?
単純平均値に対して±標準偏差を考えると、標準偏差の値が大きくなっちゃうじゃないですか。
最小自乗平均に対して±標準偏差を考えれば、当然、標準偏差の値が小さくて済みます。

ですから、例えば、あるもののばらつき許容を考えるときに、許容範囲を不必要なまでに広げる必要がなくなるというのが、最小自乗平均の利点だと思います。
というか、むしろ、最小自乗平均を使うほうが、工業的には便利そうですよね。

ただ、単純平均値も、データ全体のことを良く表している数値ですし、計算方法も万民が知っていて理解しやすいですから、捨てがたいのでしょうね。
    • good
    • 2
この回答へのお礼

どうもありがとうございます。
sanoriさんには、
「平均値±標準偏差は?」の質問でもお世話になりました
おかげさまで、前よりもすっきりして考えることがでしました。いろいろありがとうございました

お礼日時:2004/02/09 14:49

「最小自乗平均値」なるものがもしも、


「E = Σ((x[n]-a)^2) (Σはn=1~N)
を最小にするようなa」
という意味だとしますと、これは単なる平均値と同じです。
なぜなら∂E/∂a =0となるaを求めると、
∂E/∂a = Σ∂((x[n]-a)^2) /∂a
= -2Σ(x[n]-a)
ですから、
-2Σ(x[n]-a)=0
つまり
Σx[n] = Na
となり、
a= (Σx[n])/N
    • good
    • 1

このQ&Aに関連する人気のQ&A

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!

このQ&Aを見た人はこんなQ&Aも見ています

このQ&Aを見た人が検索しているワード

このQ&Aと関連する良く見られている質問

QExcelで平方2乗平均を計算するには

Excel2003で
平方2乗平均を計算するにはどうしたら良いのでしょうか?
手っ取り早い方法を教えて下さい。
よろしくお願い致します。

Aベストアンサー

訂正。

誤:平方2乗平均は、各要素を2乗した物の和の平方根です。
正:平方2乗平均は、各要素を2乗した物の和を要素数で割った物の平方根です。

従って、A1~A30の30個のセルの平方2乗平均は以下の式で求めます。
=SQRT(SUMSQ(A1:A30)/COUNT(A1:A30))

平方和を要素数で割るのを忘れてました。

Qエクセルで計算すると2.43E-19などと表示される。Eとは何ですか?

よろしくお願いします。
エクセルの回帰分析をすると有意水準で2.43E-19などと表示されますが
Eとは何でしょうか?

また、回帰分析の数字の意味が良く分からないのですが、
皆さんは独学されましたか?それとも講座などをうけたのでしょうか?

回帰分析でR2(決定係数)しかみていないのですが
どうすれば回帰分析が分かるようになるのでしょうか?
本を読んだのですがいまいち難しくて分かりません。
教えてください。
よろしくお願いします。

Aベストアンサー

★回答
・最初に『回帰分析』をここで説明するのは少し大変なので『E』のみ説明します。
・回答者 No.1 ~ No.3 さんと同じく『指数表記』の『Exponent』ですよ。
・『指数』って分かりますか?
・10→1.0E+1(1.0×10の1乗)→×10倍
・100→1.0E+2(1.0×10の2乗)→×100倍
・1000→1.0E+3(1.0×10の3乗)→×1000倍
・0.1→1.0E-1(1.0×1/10の1乗)→×1/10倍→÷10
・0.01→1.0E-2(1.0×1/10の2乗)→×1/100倍→÷100
・0.001→1.0E-3(1.0×1/10の3乗)→×1/1000倍→÷1000
・になります。ようするに 10 を n 乗すると元の数字になるための指数表記のことですよ。
・よって、『2.43E-19』とは?
 2.43×1/(10の19乗)で、
 2.43×1/10000000000000000000となり、
 2.43×0.0000000000000000001だから、
 0.000000000000000000243という数値を意味します。

補足:
・E+数値は 10、100、1000 という大きい数を表します。
・E-数値は 0.1、0.01、0.001 という小さい数を表します。
・数学では『2.43×10』の次に、小さい数字で上に『19』と表示します。→http://ja.wikipedia.org/wiki/%E6%8C%87%E6%95%B0%E8%A1%A8%E8%A8%98
・最後に『回帰分析』とは何?下の『参考URL』をどうぞ。→『数学』カテゴリで質問してみては?

参考URL:http://ja.wikipedia.org/wiki/%E5%9B%9E%E5%B8%B0%E5%88%86%E6%9E%90

★回答
・最初に『回帰分析』をここで説明するのは少し大変なので『E』のみ説明します。
・回答者 No.1 ~ No.3 さんと同じく『指数表記』の『Exponent』ですよ。
・『指数』って分かりますか?
・10→1.0E+1(1.0×10の1乗)→×10倍
・100→1.0E+2(1.0×10の2乗)→×100倍
・1000→1.0E+3(1.0×10の3乗)→×1000倍
・0.1→1.0E-1(1.0×1/10の1乗)→×1/10倍→÷10
・0.01→1.0E-2(1.0×1/10の2乗)→×1/100倍→÷100
・0.001→1.0E-3(1.0×1/10の3乗)→×1/1000倍→÷1000
・になります。ようするに 10 を n 乗すると元の数字になるた...続きを読む

Q相関係数についてくるP値とは何ですか?

相関係数についてくるP値の意味がわかりません。

r=0.90 (P<0.001)

P=0.05で相関がない

という表現は何を意味しているのでしょうか?
またMS Excelを使ってのP値の計算方法を教えてください。

よろしくお願い致します。

Aベストアンサー

pは確率(probability)のpです。全く相関のない数字を組み合わせたときにそのr値が出る確率をあらわしています。

統計・確率には100%言い切れることはまずありません。というか100%言い切れるのなら統計・確率を使う必要は有りません。
例えばサイコロを5回振って全て同じ目が出る確率は0.08%です。そんな時、そのサイコロを不良品(イカサマ?)と結論つけるとわずかに間違っている可能性が残っています。ただ、それが5%以下ならp=0.05でそのサイコロは正常ではないと結論付けます。
それが危険率です。(この場合はp=0.1%でもいいと思いますが)
相関係数においても相関の有無を結論つけるにはそのrが偶然出る確率を出すか、5%の確率ならrがどれぐらいの値が出るかを知っておく必要が有ります。

>r=0.90 (P<0.001)

相関係数は0.90と計算された。相関がないのに偶然r=0.90 となる確率は0.001以下だと言ってます。

>P=0.05で相関がない

相関がないと結論。(間違っている確率は5%以下)だと言ってます。

エクセルでの計算ですが、まず関数CORRELを使ってr値を出します。xデータがA1からA10に、yデータがB1からB10に入っているとして

r=CORREL(A1:A10,B1:B10)

次にそのr値をt値に変換します。

t=r*(n-2)^0.5/(1-r^2)^0.5

ここでnは組みデータの数です。((x1,y1),(x2,y2),・・・(xn,yn))
最後に関数TDISTで確率に変換します。両側です。

p=TDIST(t値,n-2,2)

もっと簡単な方法があるかも知れませんが、私ならこう計算します。(アドインの分析ツールを使う以外は)

pは確率(probability)のpです。全く相関のない数字を組み合わせたときにそのr値が出る確率をあらわしています。

統計・確率には100%言い切れることはまずありません。というか100%言い切れるのなら統計・確率を使う必要は有りません。
例えばサイコロを5回振って全て同じ目が出る確率は0.08%です。そんな時、そのサイコロを不良品(イカサマ?)と結論つけるとわずかに間違っている可能性が残っています。ただ、それが5%以下ならp=0.05でそのサイコロは正常ではないと結論付けます。
それが危険率です。(この場...続きを読む

Qエクセル STDEVとSTDEVPの違い

エクセルの統計関数で標準偏差を求める時、STDEVとSTDEVPがあります。両者の違いが良くわかりません。
宜しかったら、恐縮ですが、以下の具体例で、『噛み砕いて』教えて下さい。
(例)
セルA1~A13に1~13の数字を入力、平均値=7、STDEVでは3.89444、STDEVPでは3.741657となります。
また、平均値7と各数字の差を取り、それを2乗し、総和を取る(182)、これをデータの個数13で割る(14)、この平方根を取ると3.741657となります。
では、STDEVとSTDEVPの違いは何なのでしょうか?統計のことは疎く、お手数ですが、サルにもわかるようご教授頂きたく、お願い致します。

Aベストアンサー

データが母集団そのものからとったか、標本データかで違います。また母集団そのものだったとしても(例えばクラス全員というような)、その背景にさらならる母集団(例えば学年全体)を想定して比較するような時もありますので、その場合は標本となります。
で標本データの時はSTDEVを使って、母集団の時はSTDEVPをつかうことになります。
公式の違いは分母がn-1(STDEV)かn(STDEVP)かの違いしかありません。まぁ感覚的に理解するなら、分母がn-1になるということはそれだけ結果が大きくなるわけで、つまりそれだけのりしろを多くもって推測に当たるというようなことになります。
AとBの違いがあるかないかという推測をする時、通常は標本同士の検証になるわけですので、偏差を余裕をもってわざとちょっと大きめに見るということで、それだけ確証の度合いを上げるというわけです。

Q対数変換する意味?

私は数学が苦手な文系大学生です。最近「地域分析」という本を読んでいるのですが、たびたび数式を「対数変換すると・・・」と言う風に話が進みます。対数変換をすることの意味がわからないので内容が理解できません。

まず、対数変換とは何なのか?対数変換を行なうと何がどのように変わるのでしょうか?
また、一般的に対数変換とはどのような目的で行なわれるのでしょうか?

ということを文系の学生にわかりやすく教えていただけないでしょうか。
対数変換の内容を理解していないため、質問が的を得ていないかもしれませんが、よろしくお願いします。(また、ここで説明できるような内容でなければ、その旨をお伝えください。)

Aベストアンサー

まず、ここで論じられている「対数」が「常用対数」を意味する
ことを前提として話を進めましょう。

対数に変換するということは、ある数値を
任意の底の値の指数値で表すことを意味します。
具体的に言うと(ここでは常用対数に限定することにしたので)、
ある数値が10(これが常用対数の底の値)の何乗であるのか
ということです。

たとえば、100という数値の常用対数を取ると、
100は10の2乗ですから、「2」となります。
同様に1000は「3」、10000は「4」です。

このように表現すると、正の数値で1以下の小数から
万や億などの非常に大きい値に散らばる数値サンプルを
整理したり表現するのに非常に便利です。

また、対数にしてグラフを作ると、上記のように非常に
大きな数(または0.00000・・・・のように非常に小さい数)
を限られた紙面上でプロットする事ができます。
もしそのプロットした結果が直線になった場合、
その直線の傾きでサンプルの近似式を導き出すこともできます。

具体的例を挙げると、身近なものではpH値。
これはある液体の単位量あたりどのくらい水素イオンが
含まれるかを対数表現したものです。
(厳密には、モル濃度で表した水素イオン濃度の逆数の常用対数)

まとめると、対数は小数から数万・億などの広範囲に散らばる
数値を整理するために使われる道具とお考えになられたら
良いと思います。

まず、ここで論じられている「対数」が「常用対数」を意味する
ことを前提として話を進めましょう。

対数に変換するということは、ある数値を
任意の底の値の指数値で表すことを意味します。
具体的に言うと(ここでは常用対数に限定することにしたので)、
ある数値が10(これが常用対数の底の値)の何乗であるのか
ということです。

たとえば、100という数値の常用対数を取ると、
100は10の2乗ですから、「2」となります。
同様に1000は「3」、10000は「4」です。

この...続きを読む

Q加重平均と平均の違い

加重平均と平均の違いってなんですか?
値が同じになることが多いような気がするんですけど・・・
わかりやす~い例で教えてください。

Aベストアンサー

例えば,テストをやって,A組の平均点80点,B組70点,C組60点だったとします.
全体の平均は70点!・・・これが単純な平均ですね.
クラスごとの人数が全く同じなら問題ないし,
わずかに違う程度なら誤差も少ないです.

ところが,A組100人,B組50人,C組10人だったら?
これで「平均70点」と言われたら,A組の生徒は文句を言いますよね.
そこで,クラスごとに重みをつけ,
(80×100+70×50+60×10)÷(100+50+10)=75.6
とやって求めるのが「加重平均」です.

Q誤差の二乗を最小にする理由

収集したデータをある関数でフィッティングする際、収集したデータと関数の差を二乗した合計が最小になるよう、関数を求める方法がありますが、なぜ二乗なのでしょうか。
統計的な根拠があるという話を聞いたのですが、WEBで検索しても手法の説明や実際の計算の仕方ばかり検索され、根拠がなかなかみつかりません。
なぜ、絶対値の合計や3乗、4乗、平方根ではなく、二乗の和を使用するのでしょうか。

Aベストアンサー

[1] 厳密な話ならばANo.1の通りです。

 最小二乗法が厳密な意味でモデルのパラメータの最尤推定法になるためには、以下の前提が必要です。
(1) 誤差、すなわち測定値y[i]と真値y0[i]の差
  ε[i] = (y[i]-y0[i])
は平均0、分散(σ[i])^2の正規分布 N(0, (σ[i])^2)に従う。ただし、
  σ[i] = s[i] σ0
で、σ0は未知でも良いが、s[i]は既知である。
(2) 各測定は互いに独立で、それぞれの誤差の共分散は0である。
(3) パラメータのベクトルxを含む既知のモデルM(x,i)があって、真値y0[i]について、あるパラメータx0が存在して、
  M(x0,i)=y0[i]
である。

 つまり、正解のx0を使って計算した残差y[i]-M(x0,i)は、正規分布 N(0, (σ[i])^2)に従う独立なランダム変数n個それぞれから取ったサンプルになっている、ということです。

 さて、真値の推定値としてモデルが与える値 M(x,i) を使ったとき、その尤度(すなわち、測定値がy[i]であるときに真値がM(x,i)である確率)は、上記(1)(2)の仮定から、
  L(M(x,i) | y[i]) = {1/(σ[i]√(2π))} exp( -((y[i]-M(x,i))^2) / (2(σ[i])^2) )
である。xの尤度L(x | y[i](i=1,...,n))(すなわち、測定値がy[i](i=1,...,n)であるときにパラメータの正解がxである確率)は、i=1...nについてのL(M(x,i) | y[i]) の積
  L(x | y[i](i=1,...,n)) = Π L(M(x,i) | y[i])
   = [1/{((2π)^(n/2))Πσ[i]} ] exp[-E(x)/(2(σ0^2))]
である。ただし
E(x) = Σ{((y[i]-M(x,i))/s[i])^2}
としました。
 確率の意味で最も尤もらしいx0の推定値は、尤度L(x | y[i](i=1,...,n)) を最大にするようなxである(最尤推定)。そして、L(x | y[i](i=1,...,n)) の式から明らかなように
  L(x | y[i](i=1,...,n))を最大にするようなx ⇔ E(x)を最小にするx
です。

[2] しかしながら、実務においては「必ずしも最尤推定だと保証できなくてもいい」という場合が多々ある。また、「データy[i]が含む測定誤差が正規分布に従い、その分散の相対値s[i]が分かっている」という条件や「真値は(パラメータさえ正しければ)モデルで誤差なしに説明できる」という条件を満たせない場合も多い。なので、実務のセンスで言いますと、ANo.2の説明もまた適切であろうと思います。

[1] 厳密な話ならばANo.1の通りです。

 最小二乗法が厳密な意味でモデルのパラメータの最尤推定法になるためには、以下の前提が必要です。
(1) 誤差、すなわち測定値y[i]と真値y0[i]の差
  ε[i] = (y[i]-y0[i])
は平均0、分散(σ[i])^2の正規分布 N(0, (σ[i])^2)に従う。ただし、
  σ[i] = s[i] σ0
で、σ0は未知でも良いが、s[i]は既知である。
(2) 各測定は互いに独立で、それぞれの誤差の共分散は0である。
(3) パラメータのベクトルxを含む既知のモデルM(x,i)があって、真値y0[i]について、あるパラメー...続きを読む

Qカイ2乗検定って何??;;

タイトルのとおりですが…大学で統計の基礎な授業を一般教養で受けています。だけど知らない&説明のない言葉がいっぱぃで、全くついていけません(>_<))
「人が一番選ばなさそうな数字」を何度か投票した結果があって、その数字は無作為に選ばれてるかどうか、有意水準1%としてカイ2乗検定をして判断する、という問題があるのですが、カイ2乗検定自体、授業でちらっと言葉は使ったものの、計算の仕方、使い方の説明等はなく、まったく手がつかずにいます;;ネットでも調べてみましたが、どう使っていいのかまでは分かりませんでした。
知識の無い私でもわかるようなものがあれば教えて下さいっっ!お願いします。

Aベストアンサー

こんにちは.χ2(カイ二乗)検定を厳密に理解するには,数学的素養を持っている状態できっちりと統計学を学習する必要があるのですが,統計データを解析するための手段として統計学を「使う」のであれば,多少の原理を知っておけばよいでしょう.
以下初学者向けにかなり乱暴な説明をしています.正確な理解をしたければ,後で統計学の教科書などで独学して下さい.

χ2検定とは,χ2分布という確率分布を使ったデータ解析法と考えてもらう……のが一番なのですが,多分χ2分布って何? と思われるでしょう.χ2分布とは,二乗値に関する確率分布と考えることができるのですが,この辺もさらりと流して下さい.

例を使って説明します.今,道行く人にA,B,C,Dの四枚のカードの中から好きなもの一枚を選んでもらうとしましょう(ただし,選んでもらうだけで,あげるわけではありません.単にどのカードを選択仕方の情報を得るだけです).一人一枚だけの条件で,160人にカードを選んでもらいました.
さて,ここで考えてみて下さい.4枚のカードには大きな違いはなく,どれを選んでもかまわない.でたらめに選ぶとなれば,どのカードも1/4で,同じ確率で,選ばれるはずですよね? ならば,160人データならば,Aは何枚ほど選ばれる「はず」でしょうか? 同様に,B,C,Dは何枚選ばれる「はず」でしょうか?
……当然,A=B=C=D=40枚の「はず」ですよね? この40枚という数値はでたらめに(無作為に)選ばれたとしたらどんな数値になるかの【理論値】を意味します.

さて,上記はあくまでも理論値であり,実際のデータは異なる可能性があります.というよりはむしろ違っているのがふつうでしょう.そのような実際に観測された数値を【観測値】と呼びます.
仮に理論値と観測値が以下のようになったとします.

        A    B    C    D
(1)観測値   72   23   16   49
(2)理論値   40   40   40   40

当然のように観測値と理論値にズレが生じています.しかし現実と理論が異なるのはある意味当然なのですからぴったり一致することなどありえません.そこで,「ある程度一致しているか(ズレは許容範囲か)」を問題にすることになります.しかし,「ある程度」といわれても一体どのぐらいであれば「ある程度」と言えるのでしょうか? なかなか判断が難しいではないですか?
確かに判断が難しいです.そこで,この判断のために統計学の力を借りて判断するわけで,更に言えばこのような目的(理論値と観測値のズレが許容範囲かどうか)を検討するときに使われるデータ解析法がχ2検定なのです.

        A    B    C    D
(1)観測値   72   23   16   49
(2)理論値   40   40   40   40
(3)ズレ    +32   -17   -14   + 9
(4)ズレ二乗 1024   289   196   81
(5)(4)÷(2) 25.6  7.225  4.9  2.025

 χ2=25.6+7.225+4.9+2.025=49.25

計算過程をさらりと書いていますが,早い話が観測値と理論値のズレの大きさはいくらになるのか,を求めることになります.最終的には「49.25」というズレ値が算出されました.

さて,この「49.25」というズレ値が許容範囲かどうかの判定をするのですが,ここで,χ2分布という確率分布を使うことになります.詳細は統計学教科書を参考してもらうとして,χ2分布を使うと,○○というズレ値が(ある条件では)どのぐらい珍しいことなのか,という「珍しさの確率」を教えてくれます.
かりに「有意水準1%=1%よりも小さい確率で発生することはすごく珍しいと考える(許容範囲と考えられない)」とすれば,「珍しさ確率」が1%以内であれば「許容範囲ではない」と判断します.

以上,長々と書きました.今までの説明を読めばわかるように,χ2検定とはある理論値を想定した時,実際の観測値がその理論値とほぼ一致しているかどうかを調べるための統計解析法のことです.

χ2検定では,理論値をどのように設定するかは分析者の自由です.その設定の仕方で,χ2検定は「適合度の検定」や「独立性の検定」など異なる名称が付与されますが,本質は同じなのです.

質問者さんの場合は

> 「人が一番選ばなさそうな数字」を何度か投票した結果があって、その数字は無作為に選ばれてるかどうか、

これを理論値としてうまく設定することが鍵となるでしょう.

こんにちは.χ2(カイ二乗)検定を厳密に理解するには,数学的素養を持っている状態できっちりと統計学を学習する必要があるのですが,統計データを解析するための手段として統計学を「使う」のであれば,多少の原理を知っておけばよいでしょう.
以下初学者向けにかなり乱暴な説明をしています.正確な理解をしたければ,後で統計学の教科書などで独学して下さい.

χ2検定とは,χ2分布という確率分布を使ったデータ解析法と考えてもらう……のが一番なのですが,多分χ2分布って何? と思われるでしょう.χ2分布...続きを読む

Q統計学的に信頼できるサンプル数って?

統計の「と」の字も理解していない者ですが、
よく「統計学的に信頼できるサンプル数」っていいますよね。

あれって「この統計を調べたいときはこれぐらいのサンプル数があれば信頼できる」という決まりがあるものなのでしょうか?
また、その標本数はどのように算定され、どのような評価基準をもって客観的に信頼できると判断できるのでしょうか?
たとえば、99人の専門家が信頼できると言い、1人がまだこの数では信頼できないと言った場合は信頼できるサンプル数と言えるのでしょうか?

わかりやすく教えていただけると幸いです。

Aベストアンサー

> この統計を調べたいときはこれぐらいのサンプル数があれば信頼できる・・・
 調べたいどの集団でも、ある一定数以上なら信頼できるというような決まりはありません。
 何かサンプルを集め、それをなんかの傾向があるかどうかという仮説を検証するために統計学的検定を行って、仮設が否定されるかされないかを調べる中で、どの検定方法を使うかで、最低限必要なサンプル数というのはあります。また、集めたサンプルを何か基準とすべき別のサンプルと比べる検定して、基準のサンプルと統計上差を出すに必要なサンプル数は、比べる検定手法により計算できるものもあります。
 最低限必要なサンプル数ということでは、例えば、ある集団から、ある条件で抽出したサンプルと、条件付けをしないで抽出したサンプル(比べるための基準となるサンプル)を比較するときに、そのサンプルの分布が正規分布(正規分布解説:身長を5cmきざみでグループ分けし、低いグループから順に並べたときに、日本人男子の身長なら170cm前後のグループの人数が最も多く、それよりも高い人のグループと低い人のグループの人数は、170cmのグループから離れるほど人数が減ってくるような集団の分布様式)でない分布形態で、しかし分布の形は双方とも同じような場合「Wilcoxon符号順位検定」という検定手法で検定することができますが、この検定手法は、サンプルデータに同じ値を含まずに最低6つのサンプル数が必要になります。それ以下では、いくらデータに差があるように見えても検定で差を検出できません。
 また、統計上差を出すのに必要なサンプル数の例では、A国とB国のそれぞれの成人男子の身長サンプルがともに正規分布、または正規分布と仮定した場合に「t検定」という検定手法で検定することができますが、このときにはその分布を差がないのにあると間違える確率と、差があるのにないと間違える確率の許容値を自分で決めた上で、そのサンプルの分布の値のばらつき具合から、計算して求めることができます。ただし、その計算は、現実に集めたそれぞれのサンプル間で生じた平均値の差や分布のばらつき具合(分散値)、どのくらいの程度で判定を間違える可能性がどこまで許されるかなどの条件から、サンプル間で差があると認められるために必要なサンプル数ですから、まったく同じデータを集めた場合でない限り、計算上算出された(差を出すために)必要なサンプル数だけサンプルデータを集めれば、差があると判定されます(すなわち、サンプルを無制限に集めることができれば、だいたい差が出るという判定となる)。よって、集めるサンプルの種類により、計算上出された(差を出すために)必要なサンプル数が現実的に妥当なものか、そうでないのかを、最終的には人間が判断することになります。

 具体的に例示してみましょう。
 ある集団からランダムに集めたデータが15,12,18,12,22,13,21,12,17,15,19、もう一方のデータが22,21,25,24,24,18,18,26,21,27,25としましょう。一見すると後者のほうが値が大きく、前者と差があるように見えます。そこで、差を検定するために、t検定を行います。結果として計算上差があり、前者と後者は計算上差がないのにあると間違えて判断する可能性の許容値(有意確率)何%の確率で差があるといえます。常識的に考えても、これだけのサンプル数で差があると計算されたのだから、差があると判断しても差し支えないだろうと判断できます。
 ちなみにこの場合の差が出るための必要サンプル数は、有意確率5%、検出力0.8とした場合に5.7299、つまりそれぞれの集団で6つ以上サンプルを集めれば、差を出せるのです。一方、サンプルが、15,12,18,12,21,20,21,25,24,19の集団と、22,21125,24,24,15,12,18,12,22の集団ではどうでしょう。有意確率5%で差があるとはいえない結果になります。この場合に、このサンプルの分布様式で拾い出して差を出すために必要なサンプル数は551.33となり、552個もサンプルを抽出しないと差が出ないことになります。この計算上の必要サンプル数がこのくらい調査しないといけないものならば、必要サンプル数以上のサンプルを集めて調べなければなりませんし、これだけの数を集める必要がない、もしくは集めることが困難な場合は差があるとはいえないという判断をすることになるかと思います。

 一方、支持率調査や視聴率調査などの場合、比べるべき基準の対象がありません。その場合は、サンプル数が少ないレベルで予備調査を行い、さらにもう少しサンプル数を増やして予備調査を行いを何回か繰り返し、それぞれの調査でサンプルの分布形やその他検討するべき指数を計算し、これ以上集計をとってもデータのばらつきや変化が許容範囲(小数点何桁レベルの誤差)に納まるようなサンプル数を算出していると考えます。テレビ視聴率調査は関東では300件のサンプル数程度と聞いていますが、調査会社ではサンプルのとり方がなるべく関東在住の家庭構成と年齢層、性別などの割合が同じになるように、また、サンプルをとる地域の人口分布が同じ割合になるようにサンプル抽出条件を整えた上で、ランダムに抽出しているため、数千万人いる関東の本当の視聴率を割合反映して出しているそうです。これはすでに必要サンプル数の割り出し方がノウハウとして知られていますが、未知の調査項目では必要サンプル数を導き出すためには試行錯誤で適切と判断できる数をひたすら調査するしかないかと思います。

> どのような評価基準をもって客観的に信頼できると判断・・・
 例えば、工場で作られるネジの直径などは、まったくばらつきなくぴったり想定した直径のネジを作ることはきわめて困難です。多少の大きさのばらつきが生じてしまいます。1mm違っても規格外品となります。工場では企画外品をなるべく出さないように、統計を取って、ネジの直径のばらつき具合を調べ、製造工程をチェックして、不良品の出る確率を下げようとします。しかし、製品をすべて調べるわけにはいきません。そこで、調べるのに最低限必要なサンプル数を調査と計算を重ねてチェックしていきます。
 一方、農場で生産されたネギの直径は、1mmくらいの差ならほぼ同じロットとして扱われます。また、農産物は年や品種の違いにより生育に差が出やすく、そもそも規格はネジに比べて相当ばらつき具合の許容範囲が広くなっています。ネジに対してネギのような検査を行っていたのでは信頼性が損なわれます。
 そもそも、統計学的検定は客観的判断基準の一指針ではあっても絶対的な評価になりません。あくまでも最終的に判断するのは人間であって、それも、サンプルの質や検証する精度によって、必要サンプルは変わるのです。

 あと、お礼の欄にあった専門家:統計学者とありましたが、統計学者が指摘できるのはあくまでもそのサンプルに対して適切な検定を使って正しい計算を行ったかだけで、たとえ適切な検定手法で導き出された結果であっても、それが妥当か否か判断することは難しいと思います。そのサンプルが、何を示し、何を解き明かし、何に利用されるかで信頼度は変化するからです。
 ただ、経験則上指標的なものはあります。正規分布を示すサンプルなら、20~30のサンプル数があれば検定上差し支えない(それ以下でも問題ない場合もある)とか、正規分布でないサンプルは最低6~8のサンプル数が必要とか、厳密さを要求される調査であれば50くらいのサンプル数が必要であろうとかです。でも、あくまでも指標です。

> この統計を調べたいときはこれぐらいのサンプル数があれば信頼できる・・・
 調べたいどの集団でも、ある一定数以上なら信頼できるというような決まりはありません。
 何かサンプルを集め、それをなんかの傾向があるかどうかという仮説を検証するために統計学的検定を行って、仮設が否定されるかされないかを調べる中で、どの検定方法を使うかで、最低限必要なサンプル数というのはあります。また、集めたサンプルを何か基準とすべき別のサンプルと比べる検定して、基準のサンプルと統計上差を出すに必要な...続きを読む

Q誤差を考慮した最小二乗法

誤差を考慮した最小二乗法
実験で「誤差を考慮した最小二乗法で計算せよ。尚、誤差を考慮しない場合は減点する。この場合の誤差とは標準偏差の事である。」という課題何ですが誤差を考慮した最小二乗法とはどうゆう事なのでしょうか?

http://www.dotup.org/uploda/www.dotup.org828193.xls.html
のデータにて
http://www.akita-nct.ac.jp/~yamamoto/lecture/2007/5E_comp_app/interpolation/interpolation_html/node4.html
のサイト様を参考にして一次関数の最小二乗法で計算しようと思ったのですが標準偏差はどこに入れればいいのでしょうか?グラフを作った後に誤差棒として標準偏差を入れるという事なのでしょうか?

Aベストアンサー

普通は質問文に上げてあるサイトや、Wikipediaの最初のほうに書いてあるように、
最小二乗法は、残差二乗和を最小にするように係数を決める方法だと書いてあります。
しかしこれは、標準偏差がσすべて同じ場合に限られます。

各測定点でばらつきが異なりそれが既知である場合には、xとyに

y=f(x; a, b, ...)

というモデルを採用した場合には

残差二乗値

E(a,b,...) = Σi ([yi-f(xi; a, b, ...)])^2

ではなく、χ二乗値と呼ばれる

χ^2 = Σi ([yi-f(xi; a, b, ...)]/σi)^2

を最小にします。モデルが一次式ならば y = ax +b なので

χ^2 = Σi ([yi-axi-b]/σi)^2

です。したがって、

E(a,b) = Σi ([yi- axi - b])^2

をスタートにする代わりに

χ^2 = Σi ([yi-axi-b]/σi)^2

から初めて、質問文にあるサイト

http://www.akita-nct.ac.jp/~yamamoto/lecture/2007/5E_comp_app/interpolation/interpolation_html/node4.html

に書いてあることと、全く同じように求めていけばいいです。
課題ということですので、以下、ご自身で行ってください。

普通は質問文に上げてあるサイトや、Wikipediaの最初のほうに書いてあるように、
最小二乗法は、残差二乗和を最小にするように係数を決める方法だと書いてあります。
しかしこれは、標準偏差がσすべて同じ場合に限られます。

各測定点でばらつきが異なりそれが既知である場合には、xとyに

y=f(x; a, b, ...)

というモデルを採用した場合には

残差二乗値

E(a,b,...) = Σi ([yi-f(xi; a, b, ...)])^2

ではなく、χ二乗値と呼ばれる

χ^2 = Σi ([yi-f(xi; a, b, ...)]/σi)^2

を最小にします。モデルが一次式な...続きを読む


人気Q&Aランキング