プロが教える店舗&オフィスのセキュリティ対策術

次元の呪いについて。
次元の呪いはなぜ起こるのか?
その具体例など、わかりやすい具体例があれば教えてください。

A 回答 (8件)

#4です。



まだ、閉じてなかったのですね。
球面集中化がなぜ生じるかは、次のように説明が付きます。

『多次元標準正規分布空間において,次元数をpとすると,データの原点からの(距離)2はχ2分布に従い,その平均はp,分散は2pとなります.
これより,高次元すなわちpが大きくなれば,原点からの距離の平均は,pに従い大きくなることが分かります.
また,この(距離)2を次元数pで割って半径1に基準化すると,第1自由度がp,第2自由度が∞のF分布となり,平均は1,分散は2/pとなります.
この量は,pが十分大きい時は正規分布に近似できます.
例としてp=200とすると,(距離)2の標準偏差は0.1なので,原点から半径√0.7 ~ √1.3の範囲内に99.7%のデータが集中します.
次元数が増せば増すほど,2/pの分母が大きくなりますからばらつきはどんどん小さくなります.
すると相対的に半径1の超球の表面に全てのデータが集まるようになります.』

ネット記事によると、高次元メロンパンは、おいしい皮の部分に、さらに中身の材料までが集中するので、ますますおいしくなるということですが本当かなあ。すごく疎になっているので、食べた気がしないんじゃないかと思います。

ところで、なぜデータ間距離が膨大化するとともに、等距離になるのか、どなたかご説明をお願いします。
    • good
    • 0

メロンパンの皮問題!



ナイスっ
    • good
    • 0

メロンパンについて Google で検索!

    • good
    • 0

#4です。



なぜ起きるのか、ですが、定性的な説明は可能でも、これだ、という証明ができないので「呪い」と言われるようになりました。
「スパース化」「球面集中化」でググれば、みなさんそれなりの説明はされてみえますが、突き詰めれば「そういう現象」という結論になっています。
    • good
    • 0

企業で統計を推進する立場の者です。



高次元データでは主に次の2つのことが起きます。この2つを次元の呪いということが多いです。
①スパース化:データ間距離が膨大化します。スパースとは「すかすか」の意味です。このようなデータを用いて回帰分析を行うと、テコ比の大きなデータで回帰線を支えるため過学習が起きやすくなります。
②球面集中化:データが空間中の超球の表面に乗ってしまいます。また、各データ間距離もほぼ一定になります。データ空間の中心部分にはデータは存在しなくなります。平均値は異常値になります。

そして、データ解析において致命的なのが「予期せぬ線形制約」という現象です。データXの分散共分散行列あるいは相関係数行列はXTXで表されますが、det(XTX)がほぼ0になり、XTXの逆行列が存在できなくなります。多くの多変量解析がXTXの逆行列を使いますので、多変量解析全般が破綻します。この解決策が、チブシャアーニ先生のlasso(ラスー)に代表される正則化技術です。今日、スパースモデリングと呼ばれています。
    • good
    • 0

次元の呪いを菓子で例えれば、まず味。



甘い、辛い、酸っぱい、苦い、しょっぱい

ここに色がつくと、
赤、こげ茶、緑、黄色、透明、…

更に、形が加わると、
球、円盤、四角い、三角、…

加えて、大きさ、熱、…が加わると、…

考慮する要素が増えれば、組み合わせおよび計算量が爆発的に増える。
これが次元の呪いの概要であり、ある意味当たり前のこと。

次元の呪いを回避するには、主となる要素を選択する、複数の要素を一つにまとめる等、要素数を減らすしかない。
    • good
    • 0

「次元の呪い」とは, どのようなものなのでしょうか.

    • good
    • 1

モンキーパンチに聞こう

「次元の呪いについて。 次元の呪いはなぜ起」の回答画像1
    • good
    • 0

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!