
A 回答 (8件)
- 最新から表示
- 回答順に表示
No.8
- 回答日時:
#4です。
まだ、閉じてなかったのですね。
球面集中化がなぜ生じるかは、次のように説明が付きます。
『多次元標準正規分布空間において,次元数をpとすると,データの原点からの(距離)2はχ2分布に従い,その平均はp,分散は2pとなります.
これより,高次元すなわちpが大きくなれば,原点からの距離の平均は,pに従い大きくなることが分かります.
また,この(距離)2を次元数pで割って半径1に基準化すると,第1自由度がp,第2自由度が∞のF分布となり,平均は1,分散は2/pとなります.
この量は,pが十分大きい時は正規分布に近似できます.
例としてp=200とすると,(距離)2の標準偏差は0.1なので,原点から半径√0.7 ~ √1.3の範囲内に99.7%のデータが集中します.
次元数が増せば増すほど,2/pの分母が大きくなりますからばらつきはどんどん小さくなります.
すると相対的に半径1の超球の表面に全てのデータが集まるようになります.』
ネット記事によると、高次元メロンパンは、おいしい皮の部分に、さらに中身の材料までが集中するので、ますますおいしくなるということですが本当かなあ。すごく疎になっているので、食べた気がしないんじゃないかと思います。
ところで、なぜデータ間距離が膨大化するとともに、等距離になるのか、どなたかご説明をお願いします。
No.5
- 回答日時:
#4です。
なぜ起きるのか、ですが、定性的な説明は可能でも、これだ、という証明ができないので「呪い」と言われるようになりました。
「スパース化」「球面集中化」でググれば、みなさんそれなりの説明はされてみえますが、突き詰めれば「そういう現象」という結論になっています。
No.4
- 回答日時:
企業で統計を推進する立場の者です。
高次元データでは主に次の2つのことが起きます。この2つを次元の呪いということが多いです。
①スパース化:データ間距離が膨大化します。スパースとは「すかすか」の意味です。このようなデータを用いて回帰分析を行うと、テコ比の大きなデータで回帰線を支えるため過学習が起きやすくなります。
②球面集中化:データが空間中の超球の表面に乗ってしまいます。また、各データ間距離もほぼ一定になります。データ空間の中心部分にはデータは存在しなくなります。平均値は異常値になります。
そして、データ解析において致命的なのが「予期せぬ線形制約」という現象です。データXの分散共分散行列あるいは相関係数行列はXTXで表されますが、det(XTX)がほぼ0になり、XTXの逆行列が存在できなくなります。多くの多変量解析がXTXの逆行列を使いますので、多変量解析全般が破綻します。この解決策が、チブシャアーニ先生のlasso(ラスー)に代表される正則化技術です。今日、スパースモデリングと呼ばれています。
No.3
- 回答日時:
次元の呪いを菓子で例えれば、まず味。
甘い、辛い、酸っぱい、苦い、しょっぱい
ここに色がつくと、
赤、こげ茶、緑、黄色、透明、…
更に、形が加わると、
球、円盤、四角い、三角、…
加えて、大きさ、熱、…が加わると、…
考慮する要素が増えれば、組み合わせおよび計算量が爆発的に増える。
これが次元の呪いの概要であり、ある意味当たり前のこと。
次元の呪いを回避するには、主となる要素を選択する、複数の要素を一つにまとめる等、要素数を減らすしかない。
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
似たような質問が見つかりました
- 数学 「次元が高くなると、単位球は単位立方体に比較して小さくなっていく。」を、易しく解説して下さい。 6 2023/08/21 12:53
- 計算機科学 相関係数 1 2022/07/29 11:46
- 発達障害・ダウン症・自閉症 発達障害の二次障害とは、発達障害の特性によって心理的ストレスが積み重なり、引き起こされてしまう精神疾 1 2022/07/06 12:25
- JavaScript オブジェクトから任意のプロパティを全て抽出する一番簡単な方法 1 2023/08/09 21:13
- その他(悩み相談・人生相談) 祈りと、呪い、どっちが成功率高いですか? 3 2023/01/31 14:17
- 宇宙科学・天文学・天気 四次元空間について 1 2022/07/01 17:11
- アニメ 四次元空間について 1 2022/07/01 16:06
- 物理学 量子力学 生成消滅演算子 2 2022/08/04 23:17
- 物理学 量子力学 三次元調和振動子 シュレディンガー方程式 1 2022/08/05 20:45
- その他(家族・家庭) 私は呪いです。 死んで周りの人を呪いから解放してあげたいです。 周りの人は優しくて私に協力的で、本当 2 2022/10/11 00:45
おすすめ情報
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
有効数字の扱い方について
-
偏差値50~55の差と偏差値70~7...
-
上澄み人材(IQ130以上)の数から...
-
人類が誕生してから現在までに...
-
ヒストグラムを作るんですけど ...
-
3枚の異なる種類の硬貨を同時に...
-
身長が高くなると出生率が下が...
-
消費税10%の税抜き計算と10%OFF...
-
ノンパラメトリック検定の多重...
-
未婚男性の平均寿命は67歳だそ...
-
確率統計
-
統計検定二級を取っても、大学...
-
番号の組み合わせパターン
-
たくさんの赤球と白球があり、...
-
経験的に正しいと思っているこ...
-
確率の計算が感覚とズレる理由
-
確率を教えてください。 基本、...
-
先日総務省家計調査をしました...
-
統計学
-
国際結婚の国別の統計はありま...
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
N/Rとは何の略
-
統計のデータ割付について。
-
eKYC(Povo、メルカリ、ヤフオク...
-
J-STATS OPTA(オプタ)のデー...
-
データを漢字に直すと何になる...
-
正規化についてお聞きしたいで...
-
この場合中央値は56になるので...
-
電話帳登録番号からの検索
-
過去からの「放射線量」の推移...
-
データ容量が重いファイルについて
-
SASでカイ二乗値を求めるには
-
FDAのデータの入手方法
-
PDFデータのOCR再付与方法について
-
MDの入るデスクトップPC
-
統計学について
-
主成分分析と数量化第3類、ど...
-
日本人男性(20〜40代)の平均身...
-
標本数が50以上のデータが見...
-
統計解析について
-
若者(18歳から30歳)の多い都市
おすすめ情報