A 回答 (8件)
- 最新から表示
- 回答順に表示
No.8
- 回答日時:
#4です。
まだ、閉じてなかったのですね。
球面集中化がなぜ生じるかは、次のように説明が付きます。
『多次元標準正規分布空間において,次元数をpとすると,データの原点からの(距離)2はχ2分布に従い,その平均はp,分散は2pとなります.
これより,高次元すなわちpが大きくなれば,原点からの距離の平均は,pに従い大きくなることが分かります.
また,この(距離)2を次元数pで割って半径1に基準化すると,第1自由度がp,第2自由度が∞のF分布となり,平均は1,分散は2/pとなります.
この量は,pが十分大きい時は正規分布に近似できます.
例としてp=200とすると,(距離)2の標準偏差は0.1なので,原点から半径√0.7 ~ √1.3の範囲内に99.7%のデータが集中します.
次元数が増せば増すほど,2/pの分母が大きくなりますからばらつきはどんどん小さくなります.
すると相対的に半径1の超球の表面に全てのデータが集まるようになります.』
ネット記事によると、高次元メロンパンは、おいしい皮の部分に、さらに中身の材料までが集中するので、ますますおいしくなるということですが本当かなあ。すごく疎になっているので、食べた気がしないんじゃないかと思います。
ところで、なぜデータ間距離が膨大化するとともに、等距離になるのか、どなたかご説明をお願いします。
No.5
- 回答日時:
#4です。
なぜ起きるのか、ですが、定性的な説明は可能でも、これだ、という証明ができないので「呪い」と言われるようになりました。
「スパース化」「球面集中化」でググれば、みなさんそれなりの説明はされてみえますが、突き詰めれば「そういう現象」という結論になっています。
No.4
- 回答日時:
企業で統計を推進する立場の者です。
高次元データでは主に次の2つのことが起きます。この2つを次元の呪いということが多いです。
①スパース化:データ間距離が膨大化します。スパースとは「すかすか」の意味です。このようなデータを用いて回帰分析を行うと、テコ比の大きなデータで回帰線を支えるため過学習が起きやすくなります。
②球面集中化:データが空間中の超球の表面に乗ってしまいます。また、各データ間距離もほぼ一定になります。データ空間の中心部分にはデータは存在しなくなります。平均値は異常値になります。
そして、データ解析において致命的なのが「予期せぬ線形制約」という現象です。データXの分散共分散行列あるいは相関係数行列はXTXで表されますが、det(XTX)がほぼ0になり、XTXの逆行列が存在できなくなります。多くの多変量解析がXTXの逆行列を使いますので、多変量解析全般が破綻します。この解決策が、チブシャアーニ先生のlasso(ラスー)に代表される正則化技術です。今日、スパースモデリングと呼ばれています。
No.3
- 回答日時:
次元の呪いを菓子で例えれば、まず味。
甘い、辛い、酸っぱい、苦い、しょっぱい
ここに色がつくと、
赤、こげ茶、緑、黄色、透明、…
更に、形が加わると、
球、円盤、四角い、三角、…
加えて、大きさ、熱、…が加わると、…
考慮する要素が増えれば、組み合わせおよび計算量が爆発的に増える。
これが次元の呪いの概要であり、ある意味当たり前のこと。
次元の呪いを回避するには、主となる要素を選択する、複数の要素を一つにまとめる等、要素数を減らすしかない。
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
似たような質問が見つかりました
- 数学 「次元が高くなると、単位球は単位立方体に比較して小さくなっていく。」を、易しく解説して下さい。 6 2023/08/21 12:53
- 計算機科学 相関係数 1 2022/07/29 11:46
- 発達障害・ダウン症・自閉症 発達障害の二次障害とは、発達障害の特性によって心理的ストレスが積み重なり、引き起こされてしまう精神疾 1 2022/07/06 12:25
- JavaScript オブジェクトから任意のプロパティを全て抽出する一番簡単な方法 1 2023/08/09 21:13
- その他(悩み相談・人生相談) 祈りと、呪い、どっちが成功率高いですか? 3 2023/01/31 14:17
- 宇宙科学・天文学・天気 四次元空間について 1 2022/07/01 17:11
- アニメ 四次元空間について 1 2022/07/01 16:06
- 物理学 量子力学 生成消滅演算子 2 2022/08/04 23:17
- 物理学 量子力学 三次元調和振動子 シュレディンガー方程式 1 2022/08/05 20:45
- その他(家族・家庭) 私は呪いです。 死んで周りの人を呪いから解放してあげたいです。 周りの人は優しくて私に協力的で、本当 2 2022/10/11 00:45
おすすめ情報
- ・漫画をレンタルでお得に読める!
- ・【大喜利】【投稿~12/2】 国民的アニメ『サザエさん』が打ち切りになった理由を教えてください
- ・ちょっと先の未来クイズ第5問
- ・【お題】ヒーローの謝罪会見
- ・これが怖いの自分だけ?というものありますか?
- ・スマホに会話を聞かれているな!?と思ったことありますか?
- ・それもChatGPT!?と驚いた使用方法を教えてください
- ・見学に行くとしたら【天国】と【地獄】どっち?
- ・【大喜利】【投稿~11/22】このサンタクロースは偽物だと気付いた理由とは?
- ・お風呂の温度、何℃にしてますか?
- ・とっておきの「まかない飯」を教えて下さい!
- ・2024年のうちにやっておきたいこと、ここで宣言しませんか?
- ・いけず言葉しりとり
- ・土曜の昼、学校帰りの昼メシの思い出
- ・忘れられない激○○料理
- ・あなたにとってのゴールデンタイムはいつですか?
- ・とっておきの「夜食」教えて下さい
- ・これまでで一番「情けなかったとき」はいつですか?
- ・プリン+醤油=ウニみたいな組み合わせメニューを教えて!
- ・タイムマシーンがあったら、過去と未来どちらに行く?
- ・遅刻の「言い訳」選手権
- ・好きな和訳タイトルを教えてください
- ・うちのカレーにはこれが入ってる!って食材ありますか?
- ・おすすめのモーニング・朝食メニューを教えて!
- ・「覚え間違い」を教えてください!
- ・とっておきの手土産を教えて
- ・「平成」を感じるもの
- ・秘密基地、どこに作った?
- ・カンパ〜イ!←最初の1杯目、なに頼む?
- ・この人頭いいなと思ったエピソード
- ・あなたの「必」の書き順を教えてください
- ・ギリギリ行けるお一人様のライン
- ・10代と話して驚いたこと
- ・大人になっても苦手な食べ物、ありますか?
- ・14歳の自分に衝撃の事実を告げてください
- ・家・車以外で、人生で一番奮発した買い物
- ・人生最悪の忘れ物
- ・あなたの習慣について教えてください!!
- ・都道府県穴埋めゲーム
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
HADという統計分析ソフトを使っ...
-
推定(統計)です。有効数字の...
-
統計学、順列・組み合わせの問...
-
統計学の順列・組み合わせの問...
-
確率0.09%ってどのくらいですか?
-
式(8.3.1)を変形した式(8.3.2)...
-
正規分布と対数正規分布の違い...
-
製品重量 規格値の設定(公差計...
-
消費税10%の税抜き計算と10%OFF...
-
視聴率100%(または0%)の際の誤...
-
SPSSとPythonの違い
-
先週スゴ得ドコモコンテンツの...
-
統計学の外挿を教えてほしいです。
-
3群の比較にχ二乗検定を使う場...
-
ノンパラメトリック検定の多重...
-
以下の場合に全部で何種類の数...
-
統計学、とりわけ実験計画法の...
-
統計学の問題を教えてほしいです。
-
この論文はどれくらい信用でき...
-
[Excel] リストからの無作為抽出
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
N/Rとは何の略
-
統計のデータ割付について。
-
主成分分析と数量化第3類、ど...
-
「重み付け」 と 「カイ二乗検...
-
FDAのデータの入手方法
-
標本数が50以上のデータが見...
-
正規化についてお聞きしたいで...
-
サッカー解析システム OPTAに...
-
eKYC(Povo、メルカリ、ヤフオク...
-
【Excel質問】別シートにある複...
-
データの分析の問題で、元ある...
-
SASでカイ二乗値を求めるには
-
データ容量が重いファイルについて
-
統計学についてお聞きしたいです.
-
MIDI タイムボカンメドレー ★ド...
-
統計学的に信頼のあ有効率は、...
-
GDPの推移:都道府県?
-
指定した値以上の中で最小値を...
-
NHK受信料未払いって何件?
-
NAS販売台数
おすすめ情報