プロが教えるわが家の防犯対策術!

全体の標準偏差についての質問です。
下記の例題について教えてください。
知識がかなり浅いので、噛み砕いて説明して頂けると幸いです。

〈例題〉

1クラス3人、3クラスの学年があったとし、数学のテストを行いました。

そのときの、
『各クラスの標準偏差と、3つのクラスの標準偏差の標準偏差を求めよ。』

といった問題があった場合に、3つのクラスの標準偏差の標準偏差の求め方を教えてください。(質問1)

また、各標準偏差の標準偏差を求めた場合、3σなどの確率にも影響してくるのでしょうか。(質問2)
仮に正規分布だった場合、各クラスの標準偏差にも1σ、2σ、3σと確率があり、さらに3つのクラスの標準偏差の標準偏差を求めた場合に1σ、2σ、3σへの確率に影響するのでは?と疑問に感じました。
(確率を重ねているため?)

標準偏差の求め方については、まだまだ理解は浅いですが、ある程度理解しているつもりですので、各クラスの標準偏差については私が求めた答えを記載致します。

公式だけではなく、下記の数学の点数に当てはめた場合は、どうなるかも合わせて教えて頂きたいです。(質問3)

また、データの分析はエクセルを用いて行う予定ですので、全体の標準偏差を求める場合に使用するような関数などがあれば教えてください。(質問4)

1組
Aさん 100点
Bさん 50点
Cさん 0点

1組の平均 50点
1組の標準偏差 40.82


2組
Dさん 40点
Eさん 50点
Fさん 60点

2組の平均 50点
2組の標準偏差 8.16


3組
Gさん 89点
Hさん 90点
Iさん 91点

3組の平均 90点
3組の標準偏差 0.81


各クラスの標準偏差40.82、8.16、0.81


私の解釈が間違っており、質問の意味が伝わらなかった場合は申し訳ありません。

お忙しい中恐縮ですが、ご教示くださいませ。

質問者からの補足コメント

  • 自分のクラスのバラツキは、他のクラスのバラツキと比べて、どれくらいバラツキがあるのか?といった観点の考え方が知りたいです。

    変動係数を用いれば、各クラスのバラツキの大小を定量的に比較できる事は知っていますが、あくまで、他のクラスのバラツキと比べて、自分のクラスのバラツキは、どれくらいのバラツキであるのか?に対する標準偏差が知りたいです。

    最終的には、各クラスの標準偏差から求めた標準偏差(表現はおかしいかもしれませんが)を導きだし、

    この標準偏差から±3σの範囲に、他のクラスが持つ標準偏差もほぼほぼ入ってきます。

    といった感じにしたいです。

      補足日時:2017/09/21 05:29

A 回答 (2件)

1組


Aさん 100点
Bさん 50点
Cさん 0点

1組の平均 μ1 = (100 + 50 + 0)/3 = 50 (点)
1組の分散 σ1^2 = [ (100 - 50)^2 + (50 - 50)^2 + (0 - 50)^2 ]/3 ≒ 1666.67
1組の標準偏差 σ1 = √1666.67 ≒ 40.82 (点)

2組
Dさん 40点
Eさん 50点
Fさん 60点

2組の平均 μ2 = (40 + 50 + 60)/3 = 50 (点)
2組の分散 σ2^2 = [ (40 - 50)^2 + (50 - 50)^2 + (60 - 50)^2 ]/3 ≒ 66.67
2組の標準偏差 σ2 = √66.67 ≒ 8.16 (点)

3組
Gさん 89点
Hさん 90点
Iさん 91点

3組の平均 μ3 = (89 + 90 + 91)/3 = 90 (点)
3組の分散 σ3^2 = [ (89 - 90)^2 + (90 - 90)^2 + (91 - 90)^2 ]/3 ≒ 0.6667
3組の標準偏差 σ3 = √0.6667 ≒ 0.816 (点)


>3つのクラスの標準偏差の標準偏差の求め方を教えてください。(質問1)

「3つのクラスの標準偏差の標準偏差」というものは、通常使いません。
「3つのクラス全体の標準偏差」であれば

3つのクラス全体の平均 μ4 = (100 + 50 + 0 + 40 + 50 + 60 + 89 + 90 + 91)/9 ≒ 63.333 (点)
3つのクラス全体の分散 σ4^2 = [ (100 - 63.333)^2 + (50 - 63.333)^2 + (0 - 63.333)^2 + (40 - 63.333)^2 + (50 - 63.333)^2 + (60 - 63.333)^2 + (89 - 63.333)^2 + (90 - 63.333)^2 + (91 - 63.333)^2 ]/9 ≒ 933.556
3つのクラス全体の標準偏差 σ4 = √933.556 ≒ 30.55 (点)


もし、「3つの数 40.82、8.16、0.81」の標準偏差ということであれば(この3つの数が「何かの標準偏差」であろうが「石の重さ」であろうが、その意味に関係なく)

「3つの数 40.82、8.16、0.81」の平均 μ5 = (40.82 + 8.16 + 0.81)/3 = 16.60
「3つの数 40.82、8.16、0.81」の分散 σ5^2 = [ (40.82 - 16.60)^2 + (8.16 - 16.60)^2 + (0.81 - 16.60)^2 ]/3 ≒ 302.39
「3つの数 40.82、8.16、0.81」の標準偏差 σ5 = √302.39 ≒ 17.39


>各標準偏差の標準偏差を求めた場合、3σなどの確率にも影響してくるのでしょうか。(質問2)

いいえ。正規分布においては、
  平均値± σ の範囲に、全体の 68.3% が入る
  平均値±2σ の範囲に、全体の 95.4% が入る
  平均値±3σ の範囲に、全体の 99.7% が入る
という特性は変わりません。
http://www.stat.go.jp/koukou/howto/process/p4_3_ …

「標準偏差の標準偏差」などというものは存在しませんので、上の例でいえば、「1組の標準偏差 σ1」も「3つのクラスの標準偏差 σ4」も「3つの数 40.82、8.16、0.81 の標準偏差 σ5」も、各々「平均値±3σ の範囲に、全体の 99.7% が入る」確率であることに変わりはありません。


>公式だけではなく、下記の数学の点数に当てはめた場合は、どうなるかも合わせて教えて頂きたいです。(質問3)

上に書いた通りです。「公式」は書いてありませんが、各々の計算式を書きました。


>データの分析はエクセルを用いて行う予定ですので、全体の標準偏差を求める場合に使用するような関数などがあれば教えてください。(質問4)

エクセルを使おうが電卓を使おうが、通常の演算を行えば計算できます。計算式は上に書いた程度のものですから。

エクセル上の表のデータに対して標準偏差を計算するなら、「STDEVP」関数を使えば計算できます。
http://www.pursue.ne.jp/Document_xls/xls0023.htm

似たような関数で「STDEV」がありますが、こちらは「母集団の標準偏差の推定値」を計算しますから、間違えて使わないように。
    • good
    • 0
この回答へのお礼

早急に回答して頂き、ありがとうございました。

大変恐縮なのですが、1点追加で教えてください。
(最初の質問の内容が、説明不足であった場合申し訳ありません)


各クラスが持っている標準偏差を比較したい場合は、どのような考え方になるのでしょうか。

〈補足〉
A〜Iさんのテストの点数から、全体の標準偏差を求めた場合、学年全体の平均に対して各個人の点数が、どれだけバラツキがあるかを確認する事ができるように解釈してますが、

自分のクラスのバラツキは、他のクラスのバラツキと比べて、どれくらいバラツキがあるのか?といった観点で考えた時は、

やはり各クラスの標準偏差の標準偏差(表現はおかしいかもしれませんが)といったような考え方なのかな?と考えてしまいます。

もしくはその場合、単純に3つの数(40.82、8.16、0.81)の標準偏差(17.39)
の値を採用すれば宜しいのでしょうか。
しかし、この考え方だと、各クラスの人数が異なってきた場合に係数?が変わってくるため、そう単純にはいかないのかなと、いろいろと気になってしまいます。

似たような考え方(全体の標準偏差)について、以前私が確認したURLです。
よく理解できなかったので、今回私の方でも投稿しようと思いました。

http://oshiete.goo.ne.jp/qa/662968.html


大変失礼かとは思いますが、もやもやが取りきれてないので、追加で確認させて頂きました。お気を悪くさせてしまいましたら申し訳ございません。

お礼日時:2017/09/21 05:10

No.1です。

「お礼」やら「補足」にいろいろと書かれたことについて。
(全然「気を悪く」などしていませんよ)
長い回答になってしまいましたので、ゆっくりとお読みください。

まずは「お礼」に書かれたこと。

>各クラスが持っている標準偏差を比較したい場合は、どのような考え方になるのでしょうか。

「標準偏差」とは、常に「平均」とセットの概念ですから、それだけを取り出して比較しても意味がありません。

「3クラス全体のばらつき具合(平均値からの広がり具合)に対して、あるクラスのばらつき具合(平均値からの広がり具合)がどの程度か」ということを調べたいなら、正規分布の「尖度」という概念があります。「正規分布のピークのとんがり具合」というパラメータです。
こんなサイトをご参考に。
https://mathtrain.jp/waidosendo
http://haku1569.seesaa.net/article/399462666.html

ただし、お示しの例のように「3つのデータ」から無理やり「理想の正規分布」に当てはめた場合には、「尖度 = 0」になってしまうと思います。

また、「補足」に書かれている「変動係数 C=σ/μ」というのも、目安として使えると思います。


「3クラス全体」を「母集団」として、1クラス分の「標本」を取ってきたとき、「母集団」と「標本」との関係がどうなっているか、あるいは「複数の標本」間の関係がどうなっているかを調べる方法は統計学の中心的テーマですから、手法はいくらでもあります。
統計学のテキストなり参考書をお読みになることをお勧めします。(こんな質問への回答では書ききれません)

「母集団と標本のばらつき具合(分散または標準偏差)」「2つの標本のばらつき具合(分散または標準偏差)」を比較するためには、「F分布」およびこれを使った「F検定」というものがありますので、調べてみてください。(F分布を理解する前提として、「カイ二乗分布」というものも理解しないといけませんが)
https://bellcurve.jp/statistics/course/9929.html
https://ja.wikipedia.org/wiki/F%E6%A4%9C%E5%AE%9A
http://kusuri-jouhou.com/statistics/fkentei.html


>もしくはその場合、単純に3つの数(40.82、8.16、0.81)の標準偏差(17.39)
の値を採用すれば宜しいのでしょうか。

ダメです。
質問者さんがいみじくも「標準偏差の標準偏差」とおっしゃっているように、「3つの数(40.82、8.16、0.81)」は単なる数ですが、「各クラスの標準偏差(40.82、8.16、0.81)」は「各クラスの多数のデータを代表する値」ですから、背後に「人数分のデータ群」がある数値です。
おのおのの「ばらつき」を比較したいなら、「各クラスの多数のデータ」そのものを持ってこなければなりません。「代表値」だけでは「ばらつき」は比較できません。

>似たような考え方(全体の標準偏差)について、以前私が確認したURLです。
http://oshiete.goo.ne.jp/qa/662968.html

こちらのベストアンサーに書かれている方法は、「代表値から、その群のばらつき具合を再現して、それで全体の標準偏差を計算しなおす」というやり方です。

・標準偏差は、「分散」の平方根
・「分散」は「偏差の二乗和」を個数で割ったもの

ですから、「標準偏差を2乗して、個数をかける」と「偏差の二乗和」が求まります。

ここで、「偏差の二乗和」とは、個々の値を Xi、平均を μ 、データ個数を n とすれば、 Σ(i=1~n)(Xi - μ)^2 ですから、ちょっと変形すれば
 Σ(Xi - μ)^2
= Σ(Xi^2 - 2μXi + μ^2)  ←二乗を展開
= Σ(Xi^2) - Σ(2μXi) + Σ(μ^2)  ←「総和」を分割
= Σ(Xi^2) - 2μΣ(Xi) + n*μ^2  ← μ は定数だから
= Σ(Xi^2) - 2n*μ^2 + n*μ^2  ← Σ(Xi) /n = μ だから Σ(Xi) = n*μ
= Σ(Xi^2) - n*μ^2
になります。
これが「標準偏差を2乗して、個数をかけたもの」に等しいわけですから
  n * σ^2 = Σ(Xi^2) - n*μ^2
→ σ^2 = Σ(Xi^2) /n - μ^2    ①

「以前の質問」のベストアンサーに書かれている式はこれです。各クラスの「個数、平均値、標準偏差」が分かれば、そのクラスの個々のデータの「二乗和:Σ(Xi^2)」が計算できるということです。

そして、各クラスの「二乗和:Σ(Xi^2)」が分かれば、それを足し合わせれば「3クラス全体の二乗和:Σ(Xi^2)」が求まりますから、それと「3クラス全体の平均」を使って、①式で「3クラス全体の標準偏差」が求まることになります。

(説明するまでもないとは思いますが、「3クラス全体の平均」は
  (μ1 * n1 + μ2 * n2 + μ3 * n3) / (n1 + n2 + n3)
で簡単に求まります)

つまり「標準偏差の標準偏差」などではなく、「各々の標準偏差」から「全体の標準偏差」が求まるということです。
「以前の質問」のベストアンサーにはこのことが書かれているのですが、理解されていないのでしょうか?


次に「補足」に書かれたこと。

>自分のクラスのバラツキは、他のクラスのバラツキと比べて、どれくらいバラツキがあるのか?といった観点の考え方が知りたいです。

上に書いた「F分布」「F検定」を調べてみてください。

>変動係数を用いれば、各クラスのバラツキの大小を定量的に比較できる事は知っていますが、あくまで、他のクラスのバラツキと比べて、自分のクラスのバラツキは、どれくらいのバラツキであるのか?に対する標準偏差が知りたいです。

上に書いたように、「標準偏差」とは、常に「平均」とセットの概念ですから、それを直接比較しても意味がありません。

たとえば
 A:1000 ± 300(平均 1000、標準偏差 300)
の分布と、
 B:100 ± 30
の分布は「相似形の分布」「同じばらつき具合」ですが、それは「300」と「30」を比較してもわかりません。
また、Aのばらつきは、Bのばらつきの10倍だ」などと言っても意味を成しません。

「変動係数 C=σ/μ」でみれば
 C1 = 300/1000 = 3/10
 C2 = 30/100 = 3/10
で「同じばらつき具合だ」ということになります。

別な例では、「100人に対する世論調査」と「10万人に対する世論調査」のどちらを信用しますか? 人数が多い分、「ばらつき」の絶対値は「10万人」の方が大きいですが、結果の信用度(たとえば「内閣支持率 40.3%」など)は「10万人の調査結果の方が精度が高い」ですよね? 「10万人の調査結果」の方が「ばらつき具合は小さい」のです。

「ばらつき」とは、ここに書いたような「1000 ± 300」「100 ± 30」「10万人の調査結果に対する精度」のような概念であることを理解されていますか?


>最終的には、各クラスの標準偏差から求めた標準偏差(表現はおかしいかもしれませんが)を導きだし、
>この標準偏差から±3σの範囲に、他のクラスが持つ標準偏差もほぼほぼ入ってきます。
>といった感じにしたいです。

こういったことは、質問者さんだけではなく、過去のたくさんの人々ともやりたかったわけで、上に書いたように「母集団と標本のばらつき具合の比較」「2つの標本のばらつき具合の比較」のために、「F分布」およびこれを使った「F検定」という手法が考え出されています。

ただし、「ばらつき」や「標準偏差」に対する「正しい概念」を持たないと、誤解のものとです。
きちんとした「テキスト」なり「参考書」で、きちんと「基礎」を作ってから「F分布」「F検定」を勉強されることをお勧めします。

下記の本が、「基礎の基礎」に限定されてはいますが、統計の基本を正しく理解ができる良い本だと思います。(この本にはカイ二乗分布、t分布の入り口までしか書かれていませんが、そこまでを理解すれば、その後の勉強がぐっと楽になると思います)

「完全独習 統計学入門」
https://www.amazon.co.jp/%E5%AE%8C%E5%85%A8%E7%8 …
    • good
    • 0
この回答へのお礼

ご連絡が遅くなり大変申し訳ありません!

私の知識がまだまだ浅い事を改めて実感しました。しかし、回答者様が丁寧なご説明をして頂いた事により、何が分かってないか。何から調べれば良いのか。といった方向性が見えてきました。

統計学について基本的な事を学んだ後に、回答者様から教えて頂いた内容を改めて確認すれば、今よりも更に理解が深まると思いました。

テキストもしくはインターネット等で今後も学んでいこうとは思いますが、その中で、理解するのに苦労した場合はこのような場で質問させて頂こうと思います。

複数の質問、1つ1つ丁寧にご説明頂き本当にありがとうございました。

また、機会がありましたらどうぞ宜しくお願い致します。

以上です。

お礼日時:2017/09/23 21:39

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!