はじめまして。分散の求め方で質問があります。
おわかりになる方、書き込みをお願いします。

測定値1,2,3,4,5について。

(1) 平均値=3、自乗の平均値=11より
   分散=自乗の平均値-平均値の自乗より
     =11-(3×3)=11-9=2

(2) 平方和=(1×1+2×2+3×3+4×4+5×5)-5×3×3
     =10
  自由度=5-1=4
  分散=平方和÷自由度より
    =10÷4=2.5

(1)、(2) どちらが正しいのでしょうか。

よろしくお願いします。

A 回答 (2件)

こんにちは



分散の基本的定義は、「偏差平方和」をデータの自由度で割る、です。
まずそれぞれの値から平均値を引き、2乗したものを足し合わせます(偏差平方和)。
この値を自由度(n-1)で割ったものが分散です。

偏差平方和=(1-3)^2+(2-3)^2+(3-3)^2+(4-3)^2+(5-3)^2=10
自由度=5-1=4
従って、分散=10/4=2.5 となります。

(2)の計算結果と「値」は同じですが、これは「偶然」そうなっただけで、分散を算出する計算式としては間違っています。
    • good
    • 3
この回答へのお礼

書き込み、ありがとうございます。

ご説明は理解できました。

ところで、(1)は全くの間違いということでしょうか?

もしよかったら書き込みをお願いします。

お礼日時:2006/11/15 11:59

どちらも正解ですよ。



1は標本分散
2は不偏分散

ですね。意味合いが少し違うので値が違うのは当たり前です。
また、

1/nΣ(xi-μ)^2=1/nΣxi^2-2μ/nΣxi+μ^2
=1/nΣxi^2-μ^2  (∵μ=1/nΣxi)


1/(n-1)Σ(xi-μ)^2=1/(n-1)Σxi^2-2μ/(n-1)Σxi+nμ^2/(n-1)
=1/(n-1)Σxi^2-nμ^2/(n-1)  (∵Σxi=nμ)

で計算方法も合っています。

参考URL:http://dsl4.eee.u-ryukyu.ac.jp/DOCS/error/node19 …
    • good
    • 2

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!

このQ&Aを見た人はこんなQ&Aも見ています

このQ&Aと関連する良く見られている質問

Qエクセル STDEVとSTDEVPの違い

エクセルの統計関数で標準偏差を求める時、STDEVとSTDEVPがあります。両者の違いが良くわかりません。
宜しかったら、恐縮ですが、以下の具体例で、『噛み砕いて』教えて下さい。
(例)
セルA1~A13に1~13の数字を入力、平均値=7、STDEVでは3.89444、STDEVPでは3.741657となります。
また、平均値7と各数字の差を取り、それを2乗し、総和を取る(182)、これをデータの個数13で割る(14)、この平方根を取ると3.741657となります。
では、STDEVとSTDEVPの違いは何なのでしょうか?統計のことは疎く、お手数ですが、サルにもわかるようご教授頂きたく、お願い致します。

Aベストアンサー

データが母集団そのものからとったか、標本データかで違います。また母集団そのものだったとしても(例えばクラス全員というような)、その背景にさらならる母集団(例えば学年全体)を想定して比較するような時もありますので、その場合は標本となります。
で標本データの時はSTDEVを使って、母集団の時はSTDEVPをつかうことになります。
公式の違いは分母がn-1(STDEV)かn(STDEVP)かの違いしかありません。まぁ感覚的に理解するなら、分母がn-1になるということはそれだけ結果が大きくなるわけで、つまりそれだけのりしろを多くもって推測に当たるというようなことになります。
AとBの違いがあるかないかという推測をする時、通常は標本同士の検証になるわけですので、偏差を余裕をもってわざとちょっと大きめに見るということで、それだけ確証の度合いを上げるというわけです。

Q統計学 t値の表を見るときの自由度

自由度Φ は (データ数-1) か、(データ数-2)のどちらを選ぶべきか、基準を教えて下さい。
t値の表を見るとき、迷っています。
データ数によってなのか、母平均に対応のあるないと関係があるのか・・・

Aベストアンサー

こんにちは.
t検定はその使用目的から三つの場合で自由度を見分ける必要があります.

1)ある条件の平均値と定数との差の検定の場合
 例えば,ある学級集団のIQが102であり,全国平均のIQ100よりも有意に高いといえるかどうか.このような場合にt検定を使う場合は次の計算で自由度を求めます.

 自由度=データ数-1

2)対応がない二つの条件の平均値の差の検定
 質問者さんは対応なし/ありの区別がついているようなので,以下簡単に説明をします.
 A条件で10人,B条件で8人のデータにおいてAとBの二つの平均値の差を調べる場合では次のようになります.

 自由度=Aデータ数+Bデータ数-2
 例) 16

3)対応がある二つの条件の平均値の差の検定
 この場合では,AB条件ともに同数データとなります.いまA条件データ数(=B条件データ数)が9とします.

 自由度=一方の条件データ数-1
 例) 8

Q標本分散の求め方について

3740、3680、3800、4100、3720
3900、3700、4500、3780、3880
このデータから標本分散はどう求められるのでしょうか?

標本平均は3880です
データから標本平均を引いて2乗するという計算を地道にしていかなければいけないのですか?


因みにs^2=(251.0)^2となります

Aベストアンサー

データから標本平均を引いて2乗したものの合計を、標本数で割ってた求めます。
このとおり地道に計算します。

ただ、統計計算ができるソフト、たとえばExcelなどを使えば、関数(たとえばVAR.Pなど)で簡単に求められます。

質問にある「因みにs^2=(251.0)^2」は、「標本分散」というより「不偏分散」とした方がいいでしょう。標本数(n)で割るか、標本数-1(n-1)で割るかの違いですが、「不偏分散」は、母分散の推定値です。

Q標本分散と不偏分散の使い分けについて。

標本分散と不偏分散の使い分けについて。

私はメーカーに勤めており、電子部品のばらつきなどでよく標準偏差σを目にします。
自分で少し調べてみると標準偏差にも標本分散を使うときと不偏分散を使うときがあることを知ったのですが、説明が難しくどのように使い分けていいのか分かりません。

標本分散と不偏分散はどのように使い分ければいいのでしょうか。
例えば電子部品の性能や実験データのばらつきにはどちらが使われているのでしょうか?

ご存知の方、教えてください。
よろしくお願いします。

Aベストアンサー

 母集団から全ての標本を抽出して得た、すなわち、全てのデータを使った分散を標本分散、というようです。しかし、標本分散の文字から、抽出した標本の分散という意味から、不偏分散の意味でも使う(私もそうでした)こともあり、標本分散がどちらなのか、混乱しています。質問者も標本分散をこの意味で使っていると想います。

 母集団のデータを知るのが統計学では目的ですが、それには全数(全サンプル)を利用する必要があります。しかし、製品検査などでは、全数検査だと商品が残らない、あるいは手間がかかり過ぎるので抜き取りを行い、全数検査の替わりにできます。この場合の分散は、不偏分散で代用ができます、というのが推測統計学です。

 すなわち、全数検査(文字通り全数、一つ欠けてもダメ)なら標本分散(この用語は混乱を招くので、私は使いませんが)、抜き取りなら不偏分散を利用しています。

Q相関係数についてくるP値とは何ですか?

相関係数についてくるP値の意味がわかりません。

r=0.90 (P<0.001)

P=0.05で相関がない

という表現は何を意味しているのでしょうか?
またMS Excelを使ってのP値の計算方法を教えてください。

よろしくお願い致します。

Aベストアンサー

pは確率(probability)のpです。全く相関のない数字を組み合わせたときにそのr値が出る確率をあらわしています。

統計・確率には100%言い切れることはまずありません。というか100%言い切れるのなら統計・確率を使う必要は有りません。
例えばサイコロを5回振って全て同じ目が出る確率は0.08%です。そんな時、そのサイコロを不良品(イカサマ?)と結論つけるとわずかに間違っている可能性が残っています。ただ、それが5%以下ならp=0.05でそのサイコロは正常ではないと結論付けます。
それが危険率です。(この場合はp=0.1%でもいいと思いますが)
相関係数においても相関の有無を結論つけるにはそのrが偶然出る確率を出すか、5%の確率ならrがどれぐらいの値が出るかを知っておく必要が有ります。

>r=0.90 (P<0.001)

相関係数は0.90と計算された。相関がないのに偶然r=0.90 となる確率は0.001以下だと言ってます。

>P=0.05で相関がない

相関がないと結論。(間違っている確率は5%以下)だと言ってます。

エクセルでの計算ですが、まず関数CORRELを使ってr値を出します。xデータがA1からA10に、yデータがB1からB10に入っているとして

r=CORREL(A1:A10,B1:B10)

次にそのr値をt値に変換します。

t=r*(n-2)^0.5/(1-r^2)^0.5

ここでnは組みデータの数です。((x1,y1),(x2,y2),・・・(xn,yn))
最後に関数TDISTで確率に変換します。両側です。

p=TDIST(t値,n-2,2)

もっと簡単な方法があるかも知れませんが、私ならこう計算します。(アドインの分析ツールを使う以外は)

pは確率(probability)のpです。全く相関のない数字を組み合わせたときにそのr値が出る確率をあらわしています。

統計・確率には100%言い切れることはまずありません。というか100%言い切れるのなら統計・確率を使う必要は有りません。
例えばサイコロを5回振って全て同じ目が出る確率は0.08%です。そんな時、そのサイコロを不良品(イカサマ?)と結論つけるとわずかに間違っている可能性が残っています。ただ、それが5%以下ならp=0.05でそのサイコロは正常ではないと結論付けます。
それが危険率です。(この場...続きを読む

Q平方和、平方差とは?

こんな簡単な質問ですが、
よく、「平方和、平方差」と聞きますが、どういう計算式なんでしょうか?
数学が全くだめなのでわかりやすく教えていただけないでしょうか?

Aベストアンサー

> 平方差についてですが、出てくる数値の順番によって答が違ってきますね。そのあたりは何か決め事があるのでしょうか?

「aとbの差」を a-b の意味で使う場合と |a-b| の意味で使う場合とあり,きちんと断ってないときは文脈で判断するしかないと思います。

「三角形が鋭角三角形になる条件は,1辺の平方が他の2辺の平方和より小さく平方差より大きい」という記述では
|a^2-b^2|<c^2<a^2+b^2
を意味しています。

Q分散を求めるプログラム

n人の点数を読み込みそれらの平均、分散を計算するプログラムを作りたいのですが分散の式がよく分かりません。
分散を求める式は第i番目の点数をxi、平均をμとすると

分散=1/nΣxi^2-μ^2

で、プラグラムを作ってみると

#include<stdio.h>
int main (void)
{
int i;
int sum=0;
int num,tmp;

printf("何人ですか");
scanf("%d",&num);

for(i=0; i<num; i++)
{
print("No. %d ", i+1)
scanf("%d",&tmp);

sum += tmp;
}
printf("平均:%.3f\n",(double)sum/num);
printf("分散:%.3f\n",(double){(sum-sum/num)*(sum+sum/num)}/num);
return(0);
}

というプログラムを作ってみたのですが分散の計算がうまくいきません。どなたか分散の計算のプログラムを教えて下さい。

C言語初めてまもないので不備があったらすみません。

n人の点数を読み込みそれらの平均、分散を計算するプログラムを作りたいのですが分散の式がよく分かりません。
分散を求める式は第i番目の点数をxi、平均をμとすると

分散=1/nΣxi^2-μ^2

で、プラグラムを作ってみると

#include<stdio.h>
int main (void)
{
int i;
int sum=0;
int num,tmp;

printf("何人ですか");
scanf("%d",&num);

for(i=0; i<num; i++)
{
print("No. %d ", i+1)
scanf("%d",&tmp);

sum += tmp;
}
printf("平均:%.3f\n",(double)sum/num);
printf("分散:%.3f\n...続きを読む

Aベストアンサー

こんばんわ。
ぱっとみでおかしいなと思った部分は、

Σxi^2の部分だと思います。
Σxi^2っていうのは、
Σxi^2=Σx1^2+Σx2^2+・・・+Σxnum^2
っていうことです。
dogtaisiさんはΣxi^2をsum^2と計算しているので
分散の計算がおかしくなっているんじゃないでしょうか?

for文の中に、Σxi^2を計算する式を改めて作ってみるのはどうでしょう?
for(i=0; i<num; i++)
{
print("No. %d ", i+1)
scanf("%d",&tmp);

sum += tmp;
sigmax2 += tmp*tmp;
}
みたいな感じで。

自分自身も初心者なんで、的外れならごめんなさいね。

Qエクセルで計算すると2.43E-19などと表示される。Eとは何ですか?

よろしくお願いします。
エクセルの回帰分析をすると有意水準で2.43E-19などと表示されますが
Eとは何でしょうか?

また、回帰分析の数字の意味が良く分からないのですが、
皆さんは独学されましたか?それとも講座などをうけたのでしょうか?

回帰分析でR2(決定係数)しかみていないのですが
どうすれば回帰分析が分かるようになるのでしょうか?
本を読んだのですがいまいち難しくて分かりません。
教えてください。
よろしくお願いします。

Aベストアンサー

★回答
・最初に『回帰分析』をここで説明するのは少し大変なので『E』のみ説明します。
・回答者 No.1 ~ No.3 さんと同じく『指数表記』の『Exponent』ですよ。
・『指数』って分かりますか?
・10→1.0E+1(1.0×10の1乗)→×10倍
・100→1.0E+2(1.0×10の2乗)→×100倍
・1000→1.0E+3(1.0×10の3乗)→×1000倍
・0.1→1.0E-1(1.0×1/10の1乗)→×1/10倍→÷10
・0.01→1.0E-2(1.0×1/10の2乗)→×1/100倍→÷100
・0.001→1.0E-3(1.0×1/10の3乗)→×1/1000倍→÷1000
・になります。ようするに 10 を n 乗すると元の数字になるための指数表記のことですよ。
・よって、『2.43E-19』とは?
 2.43×1/(10の19乗)で、
 2.43×1/10000000000000000000となり、
 2.43×0.0000000000000000001だから、
 0.000000000000000000243という数値を意味します。

補足:
・E+数値は 10、100、1000 という大きい数を表します。
・E-数値は 0.1、0.01、0.001 という小さい数を表します。
・数学では『2.43×10』の次に、小さい数字で上に『19』と表示します。→http://ja.wikipedia.org/wiki/%E6%8C%87%E6%95%B0%E8%A1%A8%E8%A8%98
・最後に『回帰分析』とは何?下の『参考URL』をどうぞ。→『数学』カテゴリで質問してみては?

参考URL:http://ja.wikipedia.org/wiki/%E5%9B%9E%E5%B8%B0%E5%88%86%E6%9E%90

★回答
・最初に『回帰分析』をここで説明するのは少し大変なので『E』のみ説明します。
・回答者 No.1 ~ No.3 さんと同じく『指数表記』の『Exponent』ですよ。
・『指数』って分かりますか?
・10→1.0E+1(1.0×10の1乗)→×10倍
・100→1.0E+2(1.0×10の2乗)→×100倍
・1000→1.0E+3(1.0×10の3乗)→×1000倍
・0.1→1.0E-1(1.0×1/10の1乗)→×1/10倍→÷10
・0.01→1.0E-2(1.0×1/10の2乗)→×1/100倍→÷100
・0.001→1.0E-3(1.0×1/10の3乗)→×1/1000倍→÷1000
・になります。ようするに 10 を n 乗すると元の数字になるた...続きを読む

QΣの意味ってなんでしたっけ?

Σの意味ってなんでしたっけ?

和の記号というΣの意味をもう一度、お勉強したいのです。
Σの上の数値と、下の数値ってどんなもので、なにを表していたのか、すっかり忘れてしまいました。
でも、何度か思い出そうと、恥ずかしげもなく本屋さんの参考書を見たりしましたが、どうしても思い出せないままです。
無限の記号を付けるとどうなったっけとか、解説のあるサイトがあったら教えていただきたいのです。
あるいは、簡単ならばこの場で教えていただけるとありがたいですし。
よろしくお願いします。

Aベストアンサー

こんにちは。

Σの意味は「合計」です。英語で言えば、「sum」です。
そして、Σは「シグマ」と読むギリシャ文字(σの大文字)で、英語のアルファベットの「S」(sの大文字)に相当します。
ですから、頭文字としてΣが使われます。

蛇足ですが、積分の記号の「∫」も、やはり、sum と同語源です。
積分は、数列の和みたいなものですからね(なぜか、インテグラルと読みますが)。


さて、
Σ の下に、k=★ と書き、Σ の上に ☆ と書き、右に、「なんちゃらk」と書いたとき、
★をスタート、☆をゴールとして、
「★番目のなんちゃら」から「☆番目のなんちゃら」までを全部足しなさい、
ということを意味します。

たとえば、ある家族の年齢が、
1人目 35歳
2人目 45歳
3人目 13歳
4人目 65歳
5人目 18歳
であるとき、
a1=35
a2=45
a3=13
a4=65
a5=18
という書き方ができます。

すると、年齢の合計は、
5
Σ ak = 35+45+13+65+18
k=1
と書くことができます。

以上が、意味の説明になります。


∞の記号がつく例というのは、たぶん、これのことですか。
http://hooktail.sub.jp/mathInPhys/infGeoProgres/

簡単な例ですと


Σ 1/2^k = 1/2 + 1/4 + 1/8 + 1/16
k=1

n
Σ 1/2^k = 1/2 + 1/4 + 1/8 + 1/16 + ・・・ + 1/2^n
k=1


Σ 1/2^k = 1/2 + 1/4 + 1/8 + 1/16 + ・・・ = 1
k=1

こんにちは。

Σの意味は「合計」です。英語で言えば、「sum」です。
そして、Σは「シグマ」と読むギリシャ文字(σの大文字)で、英語のアルファベットの「S」(sの大文字)に相当します。
ですから、頭文字としてΣが使われます。

蛇足ですが、積分の記号の「∫」も、やはり、sum と同語源です。
積分は、数列の和みたいなものですからね(なぜか、インテグラルと読みますが)。


さて、
Σ の下に、k=★ と書き、Σ の上に ☆ と書き、右に、「なんちゃらk」と書いたとき、
★をスタート、☆をゴールとして...続きを読む

Q分散とは何ですか?

友達の大学の問題で、エクセルで身長の分散を求めなさいという宿題がありました。身長のデータが20個ぐらいあり、分散を表示させるセルに求めるという問題です。(ちょっと見ただけなので、この程度しか情報がなく申し訳ありません。どうも身長と体重などの相関関係を調べているようです。)
相談されたのですが、よくわかりません。分散というのは何なのでしょうか?あと標準偏差、中央値、最頻値、母集団という言葉もあり、言葉の意味が全くわかりません。どなたかわかりやすく言葉の意味を説明していただけたらと思います。
どうぞよろしくお願いいたします。

Aベストアンサー

統計学の基本です。参考 URL で探してください。取り敢えず質問分に上がっている、
分散
相関関係
標準偏差
中央値
最頻値
母集団
はあると思います (全部を確認してはいません)。

ある一定の集団 (例えば日本人 20 歳男子) を想定すると、その集団に属する (例では日本人 20 歳男子) 全員を母集団と言います。その身長をすべて測ることは可能ですが、大変なので、その集団に属する何人 (例えば 20 人) を選びます (これを標本集団と言います)。標本から得られた Data から、母集団全体を推定しようと言うのが統計学です。

ここで、母集団の Data (日本人 20 歳男子全員の身長) が得られたと仮定して、例えば 5 cm 刻みで、人数を調べ、この人数を棒グラフで示します、次に 2.5 cm 刻みのようにやったとき、左右対称で、中央が一番高い山がかければ、これを正規分布といいます。あくまでも、母集団が、正規分布しているときに、分散は意味を持ちます。この正規分布で、一番高いところになる値を 「真の値」 その山の広がり具合なり、とがり具合を示すものが不偏分散になります。

標本集団では、この 「真の値」 がわからず、平均値で代用しますし、平均値と Data から算出される標本分散 (通常分散と言っているものはこちらです) で、その集団の特性を評価します。

中央値は、Data を順に並べたとき、真ん中になる数値です。例えば、
1、2、3、4、5 であれば、3
1、2、3、4、4、5 であれば、中央がないので、真ん中の 2 個 3 と 4 の間で 3.5
最頻値は観察個数が一番大きい値、後者で 4 になります。

ここで例えば、
1、2、2、2、2、3、3、3、3、3、4、4、4、4、4、4、5、6、7
であれば、中央値は 3、最頻値は 4 になります。同時にここでは、観察個数は、
1 1
2 4
3 5
4 6
5 1
6 1
7 1
で、x-軸に 1- 7、y-軸に個数を書いてみると、左右対称の山にはなりませんね。この場合は、平均値、分散を求めても余り意味はありません。

統計学の簡単な教科書を一読することをお薦めします。この場では、きれいな説明はちょっとしがたいので。また Excel の統計関数には、不偏分散と標本分散の両方がありますが、自分で間違いなく使えないようでは、大学生であれば、ちょっと問題だと思います。意味もわからず計算結果だけと言うのは、学問をするものの態度ではありません。

参考URL:http://aoki2.si.gunma-u.ac.jp/lecture/lecind.html

統計学の基本です。参考 URL で探してください。取り敢えず質問分に上がっている、
分散
相関関係
標準偏差
中央値
最頻値
母集団
はあると思います (全部を確認してはいません)。

ある一定の集団 (例えば日本人 20 歳男子) を想定すると、その集団に属する (例では日本人 20 歳男子) 全員を母集団と言います。その身長をすべて測ることは可能ですが、大変なので、その集団に属する何人 (例えば 20 人) を選びます (これを標本集団と言います)。標本から得られた Data から、母集団全体を推定しようと言...続きを読む


このQ&Aを見た人がよく見るQ&A

人気Q&Aランキング