
カーネル密度推定でバンド幅の求め方をお伺いしたいです。
カーネル密度推定で、
「平均積分二乗誤差を最小化するようなバンド幅」が最適なバンド幅である。
というのは理解できたのですが、このバンド幅の求め方の式の導出が理解できず、
もう一歩理解するための書籍や導出方法など紹介いただけたら嬉しいです。
ttp://ibis.t.u-tokyo.ac.jp/suzuki/lecture/2015/dataanalysis/L9.pdf
p17のJ(h)を定義するところまでは理解できますが、
クロスバリデーションによって置き換えるあたりから理解が止まってしまいます。
よろしくお願いいたします。
ネット上で該当しそうな文献やサイトをあさってみましたが、なかなか理解できる資料にたどり着けませんでした。
tps://www.youtube.com/watch?v=BmqPPHyKyR4
ttp://stat.econ.osaka-u.ac.jp/~suryo/201406/JEA2014Spring_NonparametricsR.pdf
(↑p18あたりから詰まる)
A 回答 (2件)
- 最新から表示
- 回答順に表示
No.2
- 回答日時:
#1です。
Rのmcycleのデータで基底関数展開(カーネル密度推定のこと:核関数はガウス関数)を行った例を示します。
バンド幅bwを2水準振ってカーブフィッティングしています。
統計ソフトRの関数ksmooth()を使ってやっています。
Rでは、bwは、核関数として使用する密度関数の四分位数=-0.25×bw と定義されています。
つまりbwを大きくすると、それだけ幅の広いガウス関数の重畳として曲線を作り出しますので、グネグネ感は消えます。
さて、これは衝突後のヘルメットのGですが、赤い線のように振動しながら減衰していくことを技術的に知りたいのにもかかわらず、bwをクロスバリデーションなんかで広げたら、青い線のようになり重要な点を見落としてしまいます。
ですから、「クロスバリデーションで決める」という記述をヘンだと思いました。目的を明記しなきゃダメ、ということです。
同様に、ご質問者が「飛躍している」と思われたことにもすごく共感します。
私は技術者で、「平滑化」の手段として基底関数展開を使います。
講義資料を書かれている方は、「予測」の手段としてグネグネ曲線を求めることを考えているんでしょうね。
もちろん予測ですから、この事例であれば、説明変数としてヘルメットの重量xなどが入ってきますけど。

No.1
- 回答日時:
誰からも回答が付かないので、私から。
私は企業で統計を推進する立場の者です。
カーネル密度推定を、カーブフィッティングとして使うなら、損失関数を最小化するだけの話なので、通常はグリッドサーチ(細かく刻んで)を行って、ハイパーパラメータを決めると思います。
損失関数が微分できるのであれば、微係数を0と置いて解いてもいいです。
これによって、現データに対して誤差を最小化するモデルが、最も好ましいモデルとして決まってきます。かなりグネグネなカーブになると思います。
でもそれは、現データに対して「のみ」好ましいのであって、将来のデータに対してもフィッティングすることはありません。
あなたが読んでいる資料は、カーブフィッティングではなく、予測モデルを作ろうとしているのではないですか。
であれば、汎化性が必要になるから、クロスバリデーションによる検証的ストッピングルールを使って過学習を防止しようとしているのだと思います。
でも17ページにはそんなことはみじんも書いてありませんよね。
提示された資料の前後の文脈を詳しく読んだわけではないので分かりませんが、予測を行う目的であれば、過学習を防止する必要があります。
現データにのみ最適なカーブではなく、将来どんなデータが来てもまあまあ乗るカーブでなければなりません。だから予測として成立します。
そのための手立ては、
①検証的ストッピングルール・・・クロスバリデーション(ひとつとっておき法、ホールドアウト法、nフォールディング法)
②適応的ストッピングルール・・・情報量規準(AIC、BIC)
というストッピングルールによって適切なところで止め、過度にフィッティングするのを避けるのです。
いずれも、横軸にハイパーパラメータ、縦軸に損失関数値をとれば、損失関数がこれらの方法で最小になった時の横軸値を使ったモデルが、汎化能力が一番高いと判断されます。
当然、密度推定したカーブの形は、グネグネではなく滑らかになります。
例えば、衝突後、ヘルメットのGは振動しながら減衰していくのに、そうやってバンド幅を決めると「単調減少」になってしまったりします。
(Rのmcycleのデータを用いて行う、カーブフィッティングの演習問題です)
さて、ご質問の趣旨は、このようなことを求めてみえたのでしょうか。そうであれば、書籍を探します。
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
似たような質問が見つかりました
- 統計学 ある試験の受験者全員の平均点について調査したい. いま,受験者全員を母集団とし,母集団の分散が40と 2 2023/01/30 19:19
- 統計学 統計学の問題です 2 2022/08/18 14:50
- 統計学 統計学を独学で勉強してます。 ページ左上に誤差分散の推定量の指揮があると思いますが(青いペン) 例題 2 2023/02/12 12:34
- 統計学 統計学を独学で勉強してます。 ページ左上に誤差分散の推定量の指揮があると思いますが(青いペン) 例題 5 2023/02/12 15:39
- ロック・パンク・メタル おすすめのV系バンドを教えてください 2 2022/06/17 00:01
- 数学 フーリエ変換後の負の周波数成分の扱いについて 4 2022/09/03 10:18
- 統計学 統計学、エクセルがわかりません!解答と詳しい解説をお願いします! (1)それぞれの地域別に記述統計量 9 2022/08/21 16:30
- 物理学 速度とは何か? 7 2023/04/16 13:45
- Excel(エクセル) Excel2019 マクロを使用し画像を貼り付けした際のリンク切れについて 2 2022/11/15 16:14
- 邦楽 aiがいくら進化したところで、バンドや歌手が歌を作成して、歌を声までそっくりに歌うのは不可能 4 2023/07/17 07:42
おすすめ情報
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
GcolleについてGcolleは違法ギ...
-
動画編集するのに10万以下で最...
-
20歳、男です。 電車でそこそこ...
-
カーナビがUSBメモりのmp3を全...
-
メーカー正規モデルと量販店向...
-
ゆうきって名前ならどんなニッ...
-
女の人は下の名前で呼ばれたい...
-
カットモデルします。手土産は...
-
PanasonicのDIGAで番組を持ち出...
-
ブスってどうして生きてるんで...
-
下着モデル
-
hp の Notebookシリーズのハー...
-
HP 6300でRX 550は使えますか?
-
個人向けパソコンと法人向けパ...
-
タグホイヤーの取扱説明
-
先日、街中でサロンモデルやら...
-
デスクマットの裏に写った印刷...
-
DELL Inspiron 3891のHDD増設に...
-
TV通販「QVC」と「Sho...
-
『大』の読みかた
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
GcolleについてGcolleは違法ギ...
-
Core™ i7-13700F
-
20歳、男です。 電車でそこそこ...
-
カーナビがUSBメモりのmp3を全...
-
デスクマットの裏に写った印刷...
-
PanasonicのDIGAで番組を持ち出...
-
PCの「型番」と「モデル番号」...
-
TV通販「QVC」と「Sho...
-
ブスってどうして生きてるんで...
-
先日、街中でサロンモデルやら...
-
カットモデルします。手土産は...
-
『大』の読みかた
-
10月10日?発売予定の “Meta Qu...
-
メーカー正規モデルと量販店向...
-
MacBook 数字キーが打てない
-
PS3の騒音問題
-
先ほどパソコンを起動したとこ...
-
AppleWatch Apple Watchを彼氏...
-
女の人は下の名前で呼ばれたい...
-
個人でも法人向けPC買えますか?
おすすめ情報