プロが教える店舗&オフィスのセキュリティ対策術

共分散の求め方はなぜXの偏差とYの偏差の積の平均なのですか?

A 回答 (5件)

お互いの相関関係が大体わかるから。



積が負なら、一方が+で片方がー。つまり相関関係が全く無い。

積が正なら、一方が+で片方も+。
一方が-なら片方もー。
つまり、お互いの傾向が同じ。
    • good
    • 0
この回答へのお礼

ありがとうございます

お礼日時:2020/11/21 16:54

「X の(Xの平均からの)偏差」と「Y の(Yの平均からの)偏差」が



・両方とも「プラス」で大きい
・両方とも「マイナス」で大きい

ときには、その積は「プラスで大きい値」になります。
これは「X と Y が同じ傾向で平均値からばらつきが大きい」ことを示します。

逆に、

・一方が「プラス」で大きい、他方が「マイナス」で大きい

ときには、その積は「マイナスで絶対値が大きい値」になります。
これは「X と Y が逆の傾向で平均値からばらつきが大きい」ことを示します。

一方が「小さい」場合にはその積は「そこそこ小さい値」、両方が「小さい」場合にはその積は「かなり小さい値」になります。

「共分散」は、これを平均したものですから

・「X と Y が同じ傾向である」ものが多い場合には、共分散は「プラスの大きい値」になる
・「X と Y が逆の傾向である」ものが多い場合には、共分散は「マイナスの絶対値が大きい値」になる
・「X と Y が同じ傾向のものと、逆の傾向のものが混在している」、あるいは「X と Y の傾向にほとんど関連性がない、ばらばらである」場合には、共分散は 0 に近い値になる

ということになります。

つまり
(a)「X と Y のばらつきが同じ傾向」の場合には「プラス」、「X と Y のばらつきが逆の傾向」の場合にはマイナスになる
(b) 数値の絶対値の大きさは「平均値からのばらつきの大小」を表す
ということであり、(b) は通常の「分散」と同じですが、通常の「分散」はプラスだけなのに対して、共分散は (a) のように「プラスかマイナスか」で2つの変数のばらつきの「相互関係」を表すことができます。

これが「共分散の示す意味」ということになります。
    • good
    • 2
この回答へのお礼

ありがとうございます

お礼日時:2020/11/21 16:53

企業で統計を推進する立場の者です。



前回も書きましたが、『内積』だからです。

・平均偏差を取ると言うことは、平均を原点に写像することである。
・変数X,変数Yをサンプル数次元のベクトルと考える。両ベクトルは上記の写像によりそれぞれ原点を起点とするベクトルになっている。
・ここで、変数Xや変数Yはサンプル数次元の空間でどちらを向いているかを考える。
・変数Xと変数Yが無関係なら直交しているハズである。
・直交していなければ、似たような向きを持っていて、それらのなす角度は小さいハズである。
・よし、これを内積で評価しよう。

『内積はベクトル要素の積和』です。これが「共変量」の意味です。

もう少し書くと、内積って本来はcosθ以外にそれぞれのベクトルの長さも掛かっていますよね。それって、Xの各成分の二乗和の平方根。Yについても同じです。よって、共変量をそれらで割ってやれば『相関係数』になるのです。
    • good
    • 1
この回答へのお礼

ありがとうございます

お礼日時:2020/11/21 16:54

#3です。



「内積である」についてもう少し書かせて下さいね。

多次元データXがあったとします。n行、p列だとします。
このデータXについて、『分散共分散行列』を求めなさい。という問題があれば、Xを中心化し、XTXを計算すれば良いです。Tは転置です。

XTXはクロスプロダクト行列とも言います。XTXは『分散共分散行列』のn倍になっています。

XTXの下半分三角成分と上半分三角成分は対称で全ての2列間の要素の積和(内積)になっています。ただし右下がり対角成分の各要素は自分自身の2乗和です。つまり分散のn倍です。

今後、統計学やデータサイエンスの勉強を進めていくと、必ずXTXが出てきます。QC手法的な式から一気に多次元を表現できる行列表記に変わるからです。ですから、今の段階で『内積』として覚えておくと良いと思います。
    • good
    • 1

> なぜ



定義だから。すなわち、「共分散」とは「Xの偏差とYの偏差の積の平均」のことだから、です。
    • good
    • 0

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!