エントロピーとユークリッド距離の違い

Question

相対エントロピー（KL情報量）は、確率分布同士の距離を測る尺度として定義されていて、ある分布ｐの起こりやすさ（あいまいさ）を表すものと理解しています。
http://ja.wikipedia.org/wiki/%E3%82%AB%E3%83%AB%E3%83%90%E3%83%83%E3%82%AF%E3%83%BB%E3%83%A9%E3%82%A4%E3%83%96%E3%83%A9%E3%83%BC%E6%83%85%E5%A0%B1%E9%87%8F

疑問として、ユークリッド距離と相対エントロピーはどちらの方が利点があるのでしょうか？起こりやすさを表すのであれば、相対エントロピーを考える方がよい気がしています。

たとえば、ある冬の平均気温を観測したら
a＝5℃
b＝11℃
c＝6℃
・・・
というデータが得られたとして、普通にユークリッド距離として（a－b）*（a－b）を考えると、ユークリッド距離の場合は観測データのみで良さを測るため、その場所の特長や暖冬の日などの状況に対処できていないと考えられます。
相対エントロピー（KL情報量）なら起こりやすさを表す確率を使えるので、そのような特長も加味できる？ので、相対エントロピーの方が良いのではないかと考えています。

実際はどうなんでしょうか？
御存知の方、教えてください。
よろしくお願いします。

stomachman · Accepted Answer

分布（つまりは関数）を要素(いわば「点」）とする空間（関数空間）では、二つの関数（点）の間の「近さ」ってものを定義してやらないと、隔たりを測りようがありません。比較をする目的に応じて尺度を作ってやる訳で、KL情報量もそのひとつということです。
　ご質問にある数値例は、「二つの分布（確率密度関数）の間のユークリッド距離の例」としては不適切でしょう。分布f, gの間のユークリッド距離D(f,g)の２乗（普通は「二乗ノルム」と言いますが）すなわち
(D(f,g)^2) = ∫ ((f(t)-g(t))^2) dt　(∫はf,gの定義域に関する定積分）
が役に立つのは、「tが幾らであろうと、また、f(t), g(t)が幾らであろうと、両者の差の絶対値が同じであればf, gの隔たりは同程度」と考えることが適切であるような場合です。
　一方、f,gが確率密度関数である場合、例えば変量tが[T, T+1]の区間に落ちる確率が
f(T)= 1%
g(T)= 2%
と予想され、変量tが[U, U+1]の区間に落ちる確率が
f(U) = 50%
g(U) = 51%
と予想されたとします。すると、t=Tにおけるfとgの隔たりと、t=Uにおけるfとgの隔たりは、予想の差だけ見れば一緒ということになる。だけど、情報量の観点からは「f(U)とg(U)は似たようなもんだけど、f(T)はg(T)の２倍にもなる」ということに着目して比較する方が適切。
　情報量に関して、こちらもご参考に → http://oshiete1.goo.ne.jp/qa4870476.html

stomachman · Answer

ANo.1のコメントについてです。
　尺度は具体的な課題に合わせて、旨く特徴を掴みしかも扱いやすいようなものをデザインするのが本来の姿であって、そのバランスの取り方は価値観の問題です。これは工学であり、デキアイのものが気に入らないのなら気に入るのを作れば良いんです。

> 具体例を 
 関数f, gが他の関数との和や差として扱われる場合。例えば、関数を基底系でスペクトル分解をしたときに、級数のどこから先を打ち切るかを考えるときなど。二乗ノルムは微分できて比較的簡単な形になるので、たとえばfをよく近似するようにgのパラメータを調節する、などの極値問題を扱いやすいという利点があります。

> あまり差が見られない気がします。
　加法性の有無が一番重要な違いでしょうけれども、そんなことは重視しない価値観に基づいて評価なさっているのでしょう。ならば「あまり差がない」という結論で結構かと思います。

エントロピーとユークリッド距離の違い

分布（つまりは関数）を要素(いわば「点」）とする空間（関数空間）では、二つの関数（点）の間の「近さ」ってものを定義してやらないと、隔たりを測りようがありません。

この回答への補足

ANo.1のコメントについてです。

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング

　分布（つまりは関数）を要素(いわば「点」）とする空間（関数空間）では、二つの関数（点）の間の「近さ」ってものを定義してやらないと、隔たりを測りようがありません。

　ANo.1のコメントについてです。