「これはヤバかったな」という遅刻エピソード

主成分分析の際、分散が一番大きくなるように第一主成分を決めますが、
射影したデータの分散が大きくなる=情報量が多いと解説されているものがあるのですが
これがいまいちわかりません。ここらへんを詳しく教えてもらえないでしょうか。
よろしくお願いします。

A 回答 (2件)

 第1主成分は「データのばらつきを最も良く説明する成分」,第2主成分は,「データのばらつきのうち,第1主成分では説明できないばらつきを最も良く説明する成分(従って第1主成分とは直交)」,という風に成分を取り出していくのが主成分分析です.従って,データの第1主成分の分布は,分散が最大である.



 さて,あるn次元データxから適当な線形結合で計算した一個の数値v
v = a[1] x[1]+a[2] x[2]+…+a[n] x[n] (aは適当な係数)
だけを知っているとします.そして,これだけの情報からデータxがどんな値であるかを推測することを考える.
 当然,ぴたりと推測することはできなくて,xの推測値はある確率分布で表されることになり、これは「vの値がイクライクラである」という条件付き確率分布で表されます.そしてこの条件付き確率分布は,データ全体の確率分布からベクトルaに平行な成分を取り除いたもの(a方向への射影)に他なりません.
 もちろん「適当な線形結合」の係数aの選び方によって、条件付き確率分布はいろいろ異なることになります.そして,この条件付き確率分布のばらつきが最も小さくなるのは,「適当な線形結合」というのが第1主成分を取り出す計算である場合である.言い換えれば,第1主成分だけ見てデータxがいくらであるかを推測すると,他の「適当な線形結合」を使って推測するのに比べて推測精度が高いのです.

 そういうわけで,第1主成分は,「1個の数値によってデータが持つ情報量のうち出来るだけ多くを表現したもの」である,と言えるんです.
    • good
    • 0
この回答へのお礼

ありがとうございます。よくわかりました。返事が遅くなって申し訳ないです。

お礼日時:2011/12/19 00:24

ピンときませんが…


分散が小さいとメジャーの分解能によってはデータ間の差が読めなくなるのでは?
    • good
    • 0
この回答へのお礼

なるほど、差がおおきければ多いほどデータ間の区別がしやすくなる、だからできるだけばらけていた方がいいんですね。

お礼日時:2011/11/29 23:46

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!