統計学を本当に初めてやり始めました。で、いきなり、二乗平均で分からなくなりました。
二乗平均はいくつかの偏差の大きさの平均を求めるために、偏差を2乗してプラスマイナスが打ち消しあわないようにしたところまでわかりました。しかし例えば、
+1、-4、-2、+3、+2という5つの偏差のばらつきの平均を求めるとき、上のような理屈なら、(
|+1|+|-4|+|-2|+|+3|+|+2|)/5
=2.4と二乗平均は同じと思ったんですが、二乗平均を求めると約2.61になり、値が違いました。なぜでしょうか??二乗平均は、
“いくつかの偏差の大きさの平均を求めるために、偏差を2乗してプラスマイナスが打ち消しあわないようにした”以外になにかしたのでしょうか??教えてください…

このQ&Aに関連する最新のQ&A

A 回答 (4件)

大もとでおかしくなっているのではありませんか。


集団の性質を知りたい、その性質を他の集団と比較したいという場面が統計を考える前提にあります。

ある性質についてある変数を考えた時の度数(出現率)を見ています。
それをグラフに直すと分布関数になります。
得点に対してその得点を取った人の人数を考えれば試験の得点分布です。
分布関数がまず基本になります。比較は分布関数全体でやります。
1組の数学の成績と2組の数学の成績を比べる場合です。

分布の全体で比べるのを省略して、分布関数の持つ特徴のいくつかで比べてみようということも行われています。どういう特徴を使うかはどういう問題意識で統計を使うかによって変わります。
分布関数を f(x) とします。
ピークが1つであればピークの位置でくらべて見るということができます。でもピークが1つであるとは限りません。
平均値で比べるというのも可能です。でも分布が極端に偏っていると集団の性質を表しているとはいえなくなります。中央値で比べるというのも1つの方法です。最高点、最低点の位置と差で比べることもできます。
1つの量で分布関数全体を表すというのは元々無理なのです。
分布の全体が知りたいのであれば分布関数が必要です。
その分布関数をもとしたモーメントのすべてが分かっていると分布関数が分かっているのと同じになります。
n次のモーメントは∫x^nf(x)dx/∫f(x)dxで表されます。
1次のモーメントは平均と呼ばれているものと同じです。得点の場合でしたら平均点ですが質量分布の場合でしたら重心を表します。(重心を求める時に「力のモーメント」を使います。その時の「モーメント」という言葉の意味は1次のモーメントの意味です。)
<x>=∫xf(x)dx/∫f(x)dx
2次のモーメントでしたら分布の幅の第一近似です。
<x^2>=∫x^2f(x)/∫f(x)dx
2つの式を組み合わせると
<(x-<x>)^2>=<x^2>-<x>^2
になります。これが平均値のまわりのずれの平均を与えます。(質量分布の場合でしたらこの量は「慣性モーメント」という量になります。回転軸の周りの2次のモーメントです。)
これだけで分布関数を表すことができるというわけではありません。
3次のモーメント、4次のモーメント、・・・と取って行く必要があります。
分布関数の形が素直であれば高次のモーメントを計算しなくても概略が分かることになります。
ある次数までのモーメントの値を求めるだけで分布関数全体を表してしまっているとみなすことができるようになります。
※よく出てくるガウス型の分布関数などでしたら記述する変数が少ないので1次、2次のモーメントが分かれば関数形が決まってしまいます。(一般の測定によって得られる分布関数については当てはまりません。)

標準偏差を求めるというのはこういうモーメントを求めることで分布関数を表そうという手順の一環として出てきているものです。
単に「プラスマイナスが打ち消し合わないような数学的な表現は?」というところから発想しているのではありません。必要であればいつでも高次のモーメントの計算に移ることができるという前提でのものです。

ガウス型の分布関数はガウスが誤差論で使いだしたものでしょう。確率過程が前提にあります。
現在は統計力学で頻繁にでてくるものです。しかし確率過程でないものについては当てはまりません。
それを「大数の法則」に頼って「標本数が多ければガウス分布に近づく」というのが成り立つとしているのです。
しかし、人口統計にしてもセンター入試の得点分布にしても明らかにガウス型ではありません。現実に「大数の法則」は成り立っていないにもかかわらず成り立っているとしている例が多いのです。
だから1次のモーメントと2次モーメントだけですんでしまうのが一般的だと思ってしまうのです。あなたのような質問が出てくることになります。

ただ「ずれの評価に使うとしたらどちらの表現の方がいいか」というのとは別の問題です。
場面によるでしょう。
ゲームプログラムなどで離散的に位置が与えられていて、ずれ評価を簡単にやりたいというようなときなどでしたら<差>でやる場合もあるかもしれません。それは「統計」という場面とは少し異なるように思います。 
    • good
    • 3

( |a| + |b| ) /2 と ( a^2+b^2 ) / 2 は明らかに違うものですよね?



統計では、2乗平均を分散といいます(厳密には少しことなるかも)
Aという分布と、Bという分布を足し合わせた分布A+Bの分散は、
Aの分散とBの分散を足したものとなります。
このように、2乗平均は、分布のばらつきをあらわす本質的な量だからです。
    • good
    • 4

偏差あるいは乖離の絶対値の平均という面白いことに気づきましたね.


でも,いまの計算だと,0からの乖離ですよね.
本来は,ばらつきというのは,平均のまわりにある乖離です.
では,平均を基準に偏差の絶対値をとるとどうなるでしょうか.
計算するまでもなく,常に0になります.
これでは,乖離の大きさの指標にはなりません.

では,乖離の2乗というのは何なのかということになりますが,
これは,単に符号を消す,という意味だけではありません.
平均から離れているものには,重いペナルティを掛けるという意味があります.
別に1.5乗のペナルティでもよさそうですが,
テーラー展開とか,色々な数学的処理上,2乗が都合がいいのです.

平均からの偏差の大きさを測るために,
偏差の2乗和の平均を取って分散とする.
測っているものが,標本であれば,nで割らずに(n-1)で割る.

これが分散の求め方です.
    • good
    • 4

わざわざ違う計算をしているにもかかわらず「なぜ」と聞く理由がさっぱりわからん.

    • good
    • 1

このQ&Aに関連する人気のQ&A

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!

このQ&Aを見た人はこんなQ&Aも見ています

このQ&Aを見た人が検索しているワード

このQ&Aと関連する良く見られている質問

QExcelで平方2乗平均を計算するには

Excel2003で
平方2乗平均を計算するにはどうしたら良いのでしょうか?
手っ取り早い方法を教えて下さい。
よろしくお願い致します。

Aベストアンサー

訂正。

誤:平方2乗平均は、各要素を2乗した物の和の平方根です。
正:平方2乗平均は、各要素を2乗した物の和を要素数で割った物の平方根です。

従って、A1~A30の30個のセルの平方2乗平均は以下の式で求めます。
=SQRT(SUMSQ(A1:A30)/COUNT(A1:A30))

平方和を要素数で割るのを忘れてました。

Q2乗和の平方根の意味は?

いくつかの板が重なった状態で
その厚さの合計値を計算するときは
単純にその総和で求めることができると思いますが、

公差を含めた計算をするとき、
公差はそのまま足すのではなく、
2乗和の平方根を算出する計算があると聞きました。

以下に例を示します。

板1・・・厚さ:a±b
板2・・・厚さ:c±d
板3・・・厚さ:e±f
としたとき、

板1、2、3を重ねたときの厚さの総和は

a+c+e±b+d+f・・・(1)

a+c+e±(b^2+d^2+f^2)^0.5・・・(2)

どちらが正しいのでしょうか?

ちなみに、当方計算した結果、
(1)よりも(2)の方が小さくなりました。

よろしくお願いします。

Aベストアンサー

質問者さんが数学、統計や品質管理をどれぐらい知っておられるか分からないので
簡単に書いておきます。結論から言えば(2)です。

今、a±bと書いてある板はほとんどがa±2/3*b以内に収まります。
極、たまにa+bやa-bを越えることがあります。。確率としてはそれぞれ0.135%ぐらいです。
つまりほとんど起こらないことなんです。
また、寸法公差を表示するときそれぐらいの確率ででるところまで
表示しておけばいいということになります。

ここで

板1・・・厚さ:a±b
板2・・・厚さ:c±d
板3・・・厚さ:e±f

の板を重ねてa+c+e±(b+d+f)が出ることは、ほとんど起こらないはずの
(a+b),(c+d),(e+f)あるいは
(a-b),(c-d),(e-f)
が3連続で起こったことになり、確率的には

P=0.0027^3=0.0000000197

0.00000197%程度となります。
(これは起こらないこととしてもいいと思います)
だから
a+c+e±(b+d+f)
は書き過ぎで
a+c+e±(b^2+d^2+f^2)^0.5
でいいのです。
何故、この式になるかに関して興味がおありでしたら、標準偏差、
正規分布における分散の加法定理といったところを勉強ください。
(知っておられたらすみません)

質問者さんが数学、統計や品質管理をどれぐらい知っておられるか分からないので
簡単に書いておきます。結論から言えば(2)です。

今、a±bと書いてある板はほとんどがa±2/3*b以内に収まります。
極、たまにa+bやa-bを越えることがあります。。確率としてはそれぞれ0.135%ぐらいです。
つまりほとんど起こらないことなんです。
また、寸法公差を表示するときそれぐらいの確率ででるところまで
表示しておけばいいということになります。

ここで

板1・・・厚さ:a±b
板2・・・厚さ:c±d
板3・・・厚...続きを読む

QNをkgに換算するには?

ある試験片に40kgの重りをつけた時の荷重は何Nをかけてあげると、重り40kgをつけたときの荷重と同等になるのでしょうか?一応断面積は40mm^2です。
1N=9.8kgfなので、「40kg=N×0.98」でいいのでしょうか?
ただ、式の意味がイマイチ理解できないので解説付きでご回答頂けると幸いです。
どなたか、わかる方よろしくお願いします。

Aベストアンサー

こんにちは。

kgfはSI単位ではないですが、質量の数値をそのまま重さとして考えることができるのがメリットですね。


>>>
ある試験片に40kgの重りをつけた時の荷重は何Nをかけてあげると、重り40kgをつけたときの荷重と同等になるのでしょうか?

なんか、日本語が変ですね。
「ある試験片に40kgの重りをつけた時の引っ張りの力は何Nの力で引っ張るのと同じですか?」
ということですか?

・・・であるとして、回答します。

40kgのおもりなので、「おもりにかかる重力」は40kgfです。

重力は万有引力の一種ですから、おもりにも試験片にも、地球からの重力はかかります。
しかし、試験片の片方が固定されているため、見かけ、無重力で、試験片だけに40kgfの力だけがかかっているのと同じ状況になります。

試験片にかかる引っ張り力は、

40kgf = 40kg×重力加速度
 = 40kg×9.8m/s^2
 = だいたい400N

あるいは、
102グラム(0.102kg)の物体にかかる重力が1Nなので、
40kg ÷ 0.102kg/N = だいたい400N


>>>1N=9.8kgfなので、「40kg=N×0.98」でいいのでしょうか?

いえ。
1kgf = 9.8N
ですね。


>>>一応断面積は40mm^2です。

力だけでなく、引っ張り応力を求めたいのでしょうか。
そうであれば、400Nを断面積で割るだけです。
400N/40mm^2 = 10N/mm^2 = 10^7 N/m^2
1N/m^2 の応力、圧力を1Pa(パスカル)と言いますから、
10^7 Pa (1千万パスカル) ですね。

こんにちは。

kgfはSI単位ではないですが、質量の数値をそのまま重さとして考えることができるのがメリットですね。


>>>
ある試験片に40kgの重りをつけた時の荷重は何Nをかけてあげると、重り40kgをつけたときの荷重と同等になるのでしょうか?

なんか、日本語が変ですね。
「ある試験片に40kgの重りをつけた時の引っ張りの力は何Nの力で引っ張るのと同じですか?」
ということですか?

・・・であるとして、回答します。

40kgのおもりなので、「おもりにかかる重力」は40kg...続きを読む

Qエクセル STDEVとSTDEVPの違い

エクセルの統計関数で標準偏差を求める時、STDEVとSTDEVPがあります。両者の違いが良くわかりません。
宜しかったら、恐縮ですが、以下の具体例で、『噛み砕いて』教えて下さい。
(例)
セルA1~A13に1~13の数字を入力、平均値=7、STDEVでは3.89444、STDEVPでは3.741657となります。
また、平均値7と各数字の差を取り、それを2乗し、総和を取る(182)、これをデータの個数13で割る(14)、この平方根を取ると3.741657となります。
では、STDEVとSTDEVPの違いは何なのでしょうか?統計のことは疎く、お手数ですが、サルにもわかるようご教授頂きたく、お願い致します。

Aベストアンサー

データが母集団そのものからとったか、標本データかで違います。また母集団そのものだったとしても(例えばクラス全員というような)、その背景にさらならる母集団(例えば学年全体)を想定して比較するような時もありますので、その場合は標本となります。
で標本データの時はSTDEVを使って、母集団の時はSTDEVPをつかうことになります。
公式の違いは分母がn-1(STDEV)かn(STDEVP)かの違いしかありません。まぁ感覚的に理解するなら、分母がn-1になるということはそれだけ結果が大きくなるわけで、つまりそれだけのりしろを多くもって推測に当たるというようなことになります。
AとBの違いがあるかないかという推測をする時、通常は標本同士の検証になるわけですので、偏差を余裕をもってわざとちょっと大きめに見るということで、それだけ確証の度合いを上げるというわけです。

Q平均値と最小自乗平均値

いままで、なんとなくわかったつもりでいましたが、
いざ,自分が使おうとすると考え込んでしまって
どうすればいいのか、頭がゴチャゴチャしてきました・・・。
この二つの意味の違いと、どういう時に使い分けるのかを
教えてください。

Aベストアンサー

まず、補足要求させてください。
できたら、最小自乗平均値の定義を教えてください。

以下、推測に基づいて書いちゃいますが、

最小自乗平均値というのは、おそらく、
ある中央値みたいなのを1つ決めると、それと各データとの差の2乗を1個1個足し算した結果が最小になるということでは?
すると、要は、最小二乗法で近似直線を求めるのと同じ考え方になりますね。

さらに、その仮定に基づいて書きますと、
正規分布(ガウス分布)か、あるいはそうでなくても、とにかく左右対称な分布ならば、単純平均値と最小自乗平均値は正確に同じ値になるはずです。

ところが、左右対称とは大きくかけ離れた分布であれば、単純平均値と最小自乗平均値は、かなり異なる値になるでしょうね。

単純平均値を用いずに、わざわざ最小自乗平均を用いるのはなぜか、というのが、ご質問の趣旨ですね?

要はこういうことなのでは?
単純平均値に対して±標準偏差を考えると、標準偏差の値が大きくなっちゃうじゃないですか。
最小自乗平均に対して±標準偏差を考えれば、当然、標準偏差の値が小さくて済みます。

ですから、例えば、あるもののばらつき許容を考えるときに、許容範囲を不必要なまでに広げる必要がなくなるというのが、最小自乗平均の利点だと思います。
というか、むしろ、最小自乗平均を使うほうが、工業的には便利そうですよね。

ただ、単純平均値も、データ全体のことを良く表している数値ですし、計算方法も万民が知っていて理解しやすいですから、捨てがたいのでしょうね。

まず、補足要求させてください。
できたら、最小自乗平均値の定義を教えてください。

以下、推測に基づいて書いちゃいますが、

最小自乗平均値というのは、おそらく、
ある中央値みたいなのを1つ決めると、それと各データとの差の2乗を1個1個足し算した結果が最小になるということでは?
すると、要は、最小二乗法で近似直線を求めるのと同じ考え方になりますね。

さらに、その仮定に基づいて書きますと、
正規分布(ガウス分布)か、あるいはそうでなくても、とにかく左右対称な分布ならば、単...続きを読む

Qエクセルで計算すると2.43E-19などと表示される。Eとは何ですか?

よろしくお願いします。
エクセルの回帰分析をすると有意水準で2.43E-19などと表示されますが
Eとは何でしょうか?

また、回帰分析の数字の意味が良く分からないのですが、
皆さんは独学されましたか?それとも講座などをうけたのでしょうか?

回帰分析でR2(決定係数)しかみていないのですが
どうすれば回帰分析が分かるようになるのでしょうか?
本を読んだのですがいまいち難しくて分かりません。
教えてください。
よろしくお願いします。

Aベストアンサー

★回答
・最初に『回帰分析』をここで説明するのは少し大変なので『E』のみ説明します。
・回答者 No.1 ~ No.3 さんと同じく『指数表記』の『Exponent』ですよ。
・『指数』って分かりますか?
・10→1.0E+1(1.0×10の1乗)→×10倍
・100→1.0E+2(1.0×10の2乗)→×100倍
・1000→1.0E+3(1.0×10の3乗)→×1000倍
・0.1→1.0E-1(1.0×1/10の1乗)→×1/10倍→÷10
・0.01→1.0E-2(1.0×1/10の2乗)→×1/100倍→÷100
・0.001→1.0E-3(1.0×1/10の3乗)→×1/1000倍→÷1000
・になります。ようするに 10 を n 乗すると元の数字になるための指数表記のことですよ。
・よって、『2.43E-19』とは?
 2.43×1/(10の19乗)で、
 2.43×1/10000000000000000000となり、
 2.43×0.0000000000000000001だから、
 0.000000000000000000243という数値を意味します。

補足:
・E+数値は 10、100、1000 という大きい数を表します。
・E-数値は 0.1、0.01、0.001 という小さい数を表します。
・数学では『2.43×10』の次に、小さい数字で上に『19』と表示します。→http://ja.wikipedia.org/wiki/%E6%8C%87%E6%95%B0%E8%A1%A8%E8%A8%98
・最後に『回帰分析』とは何?下の『参考URL』をどうぞ。→『数学』カテゴリで質問してみては?

参考URL:http://ja.wikipedia.org/wiki/%E5%9B%9E%E5%B8%B0%E5%88%86%E6%9E%90

★回答
・最初に『回帰分析』をここで説明するのは少し大変なので『E』のみ説明します。
・回答者 No.1 ~ No.3 さんと同じく『指数表記』の『Exponent』ですよ。
・『指数』って分かりますか?
・10→1.0E+1(1.0×10の1乗)→×10倍
・100→1.0E+2(1.0×10の2乗)→×100倍
・1000→1.0E+3(1.0×10の3乗)→×1000倍
・0.1→1.0E-1(1.0×1/10の1乗)→×1/10倍→÷10
・0.01→1.0E-2(1.0×1/10の2乗)→×1/100倍→÷100
・0.001→1.0E-3(1.0×1/10の3乗)→×1/1000倍→÷1000
・になります。ようするに 10 を n 乗すると元の数字になるた...続きを読む

Q±4σに入る確率について教えてください

ウィキペディアの検索より、
確率変数XがN( μ, σ2)に従う時、平均 μ からのずれがσ以下の範囲にXが含まれる確率は68.26%、2σ以下だと95.44%、さらに3σだと99.74%となる。
と分かりました。

そこで
4σ、


の場合確率はどうなるか教えてください。
よろしくお願い致します。

Aベストアンサー

Excel で NORMDIST を使い、平均 50、標準偏差 10 (いわゆる偏差値)で計算してみましたら、次のようになりました。

 σ 0.682689492137086
2σ 0.954499736103641
3σ 0.997300203936740
4σ 0.999936657516326
5σ 0.999999426696856
6σ 0.999999998026825
7σ 0.999999999997440
8σ 0.999999999999999
9σ 1.000000000000000

Excelの関数の精度がどの程度のものか分かりませんが、9σで100%になりました。

Q平均自乗と標準偏差の違い

平均自乗と標準偏差の違いがよくわかりません。
どうやら平均が0の時のみ一致するようですが、平均が0ではない時は違う値をとるようです。どなたか分かりやすく説明してくれませんか?
よろしくお願いします。

Aベストアンサー

平均自乗という言い方はあまり目にした記憶がないので、二乗(自乗)平均のことだとして話をします。
(平均自乗だと、単に平均値を二乗したものとまぎらわしい。)

i番目のデータをxi、データ数をnとし、平均を<・・・>で表すことにすると

平均 <x> = (Σxi)/n
二乗平均 <x^2> = (Σxi^2)/n
分散 σ^2 = {Σ(xi-<x>)^2}/n
標準偏差 σ = √[{Σ(xi-<x>)^2}/n]

です。分散を計算していくと

σ^2 = {Σ(xi-<x>)^2}/n={Σ(xi^2 - 2xi<x>+<x>^2)}/n
   = {(Σxi^2)-2(Σxi)<x> + <x>^2 (Σ1)}/n
   = (Σxi^2)/n -2 <x> (Σx_i)/n + <x>^2 n/n (Σ1=n)
   = <x^2> -2 <x><x> + <x>^2 = <x^2>-<x>^2

となり、平均が0、つまり<x>=0のときσ^2=<x^2>、もしくは、σ=√<x^2>です。

つまり平均が0のとき

・分散と二乗平均が一致する

もしくは、

・標準偏差と二乗平均の平方根が一致する

が正しい言い方になります。

平均自乗という言い方はあまり目にした記憶がないので、二乗(自乗)平均のことだとして話をします。
(平均自乗だと、単に平均値を二乗したものとまぎらわしい。)

i番目のデータをxi、データ数をnとし、平均を<・・・>で表すことにすると

平均 <x> = (Σxi)/n
二乗平均 <x^2> = (Σxi^2)/n
分散 σ^2 = {Σ(xi-<x>)^2}/n
標準偏差 σ = √[{Σ(xi-<x>)^2}/n]

です。分散を計算していくと

σ^2 = {Σ(xi-<x>)^2}/n={Σ(xi^2 - 2xi<x>+<x>^2)}/n
   = {(Σxi^2)-2(Σxi)<x> + <x>^2 (Σ1)}/n
   = (Σxi^2)/n ...続きを読む

Q公差の積み上げ方法について。

公差の積み上げ方法について。
(A)という部品の値=A±a、(B)という部品の値=B±bであったとした場合、
A×Bという値がどれくらいの公差になるのかを計算したいのです。
単純に累積公差であれば、A×B+a+b(A×B-a-b)が最悪値だと思いますが、
二乗平均や3σなどの考え方を取り入れた場合、どのような算出になるのかを教示願います。

Aベストアンサー

#2です.お礼ありがとうございます.

> このような場合、±5%は最悪値であり標準偏差としては±(5/3)%と考えて良い、という事でしょうか?

電子部品の場合,特にチップ抵抗のような大量生産品の場合,無検査あるいは外観検査だけで出荷したいので,工程能力は1.33以上あるいは1.5程度確保していると思います.
ですから,標準偏差として何か仮の値を用いたければ,σ=(公差)/4 と考えたらいかがでしょうか?
しかし,これはあくまで,購入品のため実力が分からない場合の仮の設定方法です.
逆に,「公差は4σ」なんていうルールを作ると,工程側に大きな負担を掛けます.
今回やりたいことは,設計者が行う公差の検証ですから,設計者が必要としている公差というか,設計者が「ここまでは作り込んで欲しいと思うσ」を用いながら,真に必要なσを逆算するのが目的ですよね.


> σZ/|A×B|=ルート{((a/3)/A)^2+((b/3)/B)^2} という事になるでしょうか?

設計公差が3σルールであればそうなります.

Q加重平均と平均の違い

加重平均と平均の違いってなんですか?
値が同じになることが多いような気がするんですけど・・・
わかりやす~い例で教えてください。

Aベストアンサー

例えば,テストをやって,A組の平均点80点,B組70点,C組60点だったとします.
全体の平均は70点!・・・これが単純な平均ですね.
クラスごとの人数が全く同じなら問題ないし,
わずかに違う程度なら誤差も少ないです.

ところが,A組100人,B組50人,C組10人だったら?
これで「平均70点」と言われたら,A組の生徒は文句を言いますよね.
そこで,クラスごとに重みをつけ,
(80×100+70×50+60×10)÷(100+50+10)=75.6
とやって求めるのが「加重平均」です.


このQ&Aを見た人がよく見るQ&A

人気Q&Aランキング