今ネットのHPでハンバーガー統計学とういところで統計学を覚えようとしています。
このHPで、
データのばらつきを数値で表す
という、項目があります。
ここでは、分散の式を分かりやすく説明しているのですが、
HPの説明では・・・
平均値からのずれ(つまり個々のデータと平均値との差)を足せば、ばらつきの数値になるのではないかと考えます。つまり、
ばらつき案1=(データ-平均値)の総和
ということです。しかし、これですと、データが小さいときに(データ-平均値)はマイナスになるので、総和を求めてもゼロになってしまいます。そこで、2乗することでマイナスをプラスにします。次の案はこうなります。
ばらつき案2=((データ-平均値)の2乗)の総和
しかし、まだ問題があります。この式ですと、データの個数が大きくなるにつれてばらつきが大きくなってしまいます。個数の大小にかかわらず、ばらつきを求めたいのです。そこで、総和をデータの個数で割ることにします。式は、
ばらつき案3=((データ-平均値)の2乗)の総和÷個数
これで良さそうです。この「ばらつき3」のことを「分散」と呼びます。もう一度式を書いておきましょう。
分散=((データ-平均値)の2乗)の総和÷個数
分散は、データが平均値を中心にして、どのくらいばらついているのかを示した数値です。
と、あります。
分散は平均からのずれを出すのであれば、
分散=((データ-平均値)の2乗)の平方根の総和÷個数
が正しいような気がします。
例えば平均から+5cmの2乗は25なのに、
+0.3cmの場合2乗は0.09になってしまい、
大きくぶれたものはより大きく、
小さくぶれたものはより小さくなってしまいます。
ばらつき案1で
データから平均値を引いた答えに+と-があり、
総和を求めると、この+と-のブレがお互いに干渉しあって
数値を0に近くする為、
一度2乗して+と-を無くしたのに、
何故その後、そのままなのかよく分かりません。
2乗して+と-を外したなら、次に平方根を出し数値を実態に近い値にすればいいのにと思ってしまいます。
言ってる事がいまいち伝わらないかと思いますが・・・
どなたか解説お願いします。
分散とはそういう計算式なんだ!と、
言ってしまえばそれまでですが、
どうしても納得がいきません・・・
A 回答 (4件)
- 最新から表示
- 回答順に表示
No.4
- 回答日時:
私も学生時代、同じ疑問を持った一人です。
データのまんなかを表す指標も、算術平均だけがまんなかの指標ではありません。中央値
http://ja.wikipedia.org/wiki/%E4%B8%AD%E5%A4%AE% …
とか幾何平均
http://ja.wikipedia.org/wiki/%E5%B9%B3%E5%9D%87
とか、最小最大を除いた平均とかが使われることがあります。
同様にばらつきの指標も分散 V あるいは標準偏差 SD = V^(1/2) (standard deviation) だけがばらつきの指標ではありません。たとえば MAD (median absolute deviation)
http://en.wikipedia.org/wiki/Median_absolute_dev …
とか IQR (interquartile range)
http://en.wikipedia.org/wiki/Robust_measures_of_ …
とか。
ご提案の平均絶対偏差も average absolute deviation とか MD (mean absolute deviation) とか呼ばれて、実際に使われています。
http://en.wikipedia.org/wiki/Absolute_deviation
標準偏差 SD と平均絶対偏差 MD の優劣比較は 1914 年頃から 1920 年頃に行われたそうです。その時代には Fisher が論争に勝って V と SD が使われるようになりました。しかし現代的な視点からは、そのときの論拠は説得的でない、という意見もあります。詳しくは
http://www.leeds.ac.uk/educol/documents/00003759 …
をご覧ください。
結局 MD でなく SD が使われるようになったのは、一言で済ませるなら歴史的な事情だと思います。その事情は数式の扱いやすさを含み、特に正規分布が数理統計学の中心的な地位を占めた事に関係します。
ところが測定値が完全な正規分布からのランダムサンプルではなく、たとえば転記ミスや伝送エラーのような異常値を僅かながら含むという現実的な仮定を置くと、SD の MD に対する統計理論上の優位は崩れます。そしてコンピュータが駆使できるという状況のもとでは数式の扱いやすさも絶対的な優位をもたらさず、「MD のほうが SD より良いかもしれない」という意見につながっていると思います。あと 100 年たったら、どうなっているでしょうね?
No.3
- 回答日時:
「矛盾が出ない」だけでよければ、バラツキの定義方法はいくらでもあります。
例えば、次のようなものもアリです。ばらつき案4=((データ-平均値)の絶対値)の総和÷データ数
ですから、定義の段階でいくら頭をひねっていても、定義の良さの比較はできません。問題は、定義の後に出てくるいろいろな理論が、どれだけスッキリして数学的に美しいものなるか、です。
もっと先へ進んでから、またこの問題を考えてみるといいでしょう。
No.2
- 回答日時:
>分散=((データ-平均値)の2乗)の平方根の総和÷個数
>が正しいような気がします。
どうして今のような分散の定義が定着したのかという正確な歴史的な経緯は知りませんが、一つには独立な場合には加算が成り立つという扱いやすさがあると思います。
二つの確率変数x1, x2があり、それぞれn個の平均と分散をμ1,V1, μ2、V2賭します。
V1 = Σ(x1-μ1)^2/n, V2 = Σ(x2-μ2)^2/n
この二つの変数の和x1+x2の分散を考えます。サイコロを二つ投げたときの目の合計のようなものを思い浮かべてください。この分散V(1+2)を計算します。平均はμ1+μ2なので定義にしたがって
V(1+2)=Σ[(x1+x2)-(μ1+μ2)]^2/n =Σ[(x1-μ1)+(x2-μ2))]^2/n
=Σ[(x1-μ1)]^2/n + Σ[(x2-μ2)]^2/n +2Σ[(x1-μ1)(x2-μ2)]/n
となりますが、x1,x2が独立の場合は第3項が0になるので
V(1+2)=Σ[(x1-μ1)]^2/n + Σ[(x2-μ2)]^2/n = V1+V2
となり、x1+x2の分散をx1とx2の分散の加算で求めることができます。
サイコロのようにx1とx2が同じものであれば分散が等しいのでV1=V2=Vと置けば
V(1+2)=2V
のように求めることができます。
分散の定義を
V = Σ√[(x1-μ1)^2]/n = Σ|x1-μ1|/n
としてしまうと、こうは行きません。
No.1
- 回答日時:
> 分散は平均からのずれを出すのであれば、
> 分散=((データ-平均値)の2乗)の平方根の総和÷個数
> が正しいような気がします。
その定義は、平均値からの差の絶対値の平均と同じですよね。
私もそう思ったことがありますので、お気持ちが良くわかります。
しかし、絶対値記号の出てくると場合わけで苦労したことがないでしょうか?
絶対値記号が出てくると取り扱いが少し面倒なので、2乗のままの方がいいのです。
また、分散の加法性というよい性質があることも2乗の方が使われる理由でしょう。
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
似たような質問が見つかりました
- 数学 【 数I 分散 】 3 2023/02/26 21:55
- 統計学 t値の計算方法 1 2022/11/29 18:37
- 数学 【 数Ⅰ 分散 】 問題 20個の値からなるデータがあり, そのうちの8個の値の平均値は3,分散は4 4 2023/02/15 23:28
- 統計学 確率統計の問題です。 3 2022/04/07 04:39
- 統計学 統計学の問題です よろしくお願いします 代表値 次の15件のデータについて,以下の問いに答えよ。 結 1 2023/01/31 18:53
- 統計学 統計学の問題です よろしくお願いします 代表値 次の15件のデータについて,以下の問いに答えよ。 結 5 2023/01/31 23:35
- 大学・短大 大学 統計学 1 2022/09/14 11:27
- Excel(エクセル) Excelで全クラスのランキング表を作成したい 4 2022/05/24 15:28
- 統計学 Excelによるサンプルの拡大について 6 2023/08/22 16:03
- 数学 賃料と専有面積のデータが60部屋分ほどがあり、 賃料÷専有面積(=1㎡あたりの賃料)の数式で計算する 2 2023/02/18 20:33
おすすめ情報
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
標準偏差
-
偏差値60の人と偏差値50の人が...
-
顔面偏差値100点満点中何点ぐら...
-
幾何標準偏差の求め方
-
Excelで近似式の標準偏差を算出...
-
安全在庫=安全係数×√(リードタ...
-
高校偏差値67ってどのくらい字...
-
吹田市に出来た大和大学は、経...
-
ExcelでCVを計算するには
-
偏差値の求め方(逆の場合)
-
変動係数における平均値について
-
中学1.2年で5教科の合計点が350...
-
偏差平方和なぜ2乗
-
加重平均偏差値 とは、どんな偏...
-
なぜ共分散はSxyで表すのですか...
-
合成標準偏差の計算式
-
偏差値から順位を求めるには
-
今日数学のテストが返ってきて ...
-
分散が6.4になった時、標準偏差...
-
標準偏差に「通常の範囲」はあ...
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
標準偏差
-
高校偏差値67ってどのくらい字...
-
幾何標準偏差の求め方
-
社会人の偏差値の調べ方
-
中学1.2年で5教科の合計点が350...
-
Excelで近似式の標準偏差を算出...
-
推定(統計)です。有効数字の...
-
パーセンテージのバラツキを表...
-
今日数学のテストが返ってきて ...
-
(1)で分散を求める時、解答では...
-
吹田市に出来た大和大学は、経...
-
3教科の偏差値の出し方について...
-
偏差値60の人と偏差値50の人が...
-
偏差値の求め方(逆の場合)
-
平均年齢の表記方法(統計学的に)
-
ExcelでCVを計算するには
-
偏差値から順位を求めるには
-
なぜ共分散はSxyで表すのですか...
-
偏差値と標準得点の違いはなん...
-
加重平均偏差値 とは、どんな偏...
おすすめ情報