プロが教えるわが家の防犯対策術!

1500個の数値からなる、ある測定結果があります。
この測定結果はおよそ100個で1周期を取るような波形データですが、ところどころ高い値を示すノイズが見られます。

この測定結果からノイズを除去してきれいな波形を得るためにフィルタをかけようと思い、いろいろ調べたところsavitzky-golayという方法を見つけ、それを実現するプログラムも見つけました。

このプログラムは計算に使用する前後のデータポイント数と、多項式の次数を設定しなければなりません。現在、データポイント数を前:50・後:50、次数4として実行してみたところ、意図していたような近似グラフが得られました。
しかし、この二つの数字に根拠は無いというのが現状です。

そこで質問なのですが、この二つの項目を指定するに当たり、何か決まりや指標といったものはあるのでしょうか?
ちなみに、測定結果は全て正の数値で、必要なのはピーク値のみです。

宜しくお願いしいます。

A 回答 (1件)

 savitzky-golayは、移動多項式回帰(最小2乗近似)ですよね。

そこで似た例として、移動しない多項式補間の例で考えてみます。

  (1)次数が低い補間では、十分滑らかな補間にならない。例えば折れ線補間。
  (2)高い次数では、いくらでも滑らかな補間ができるが、過適合の危険がある。
    http://ja.wikipedia.org/wiki/%E9%81%8E%E5%89%B0% … の最初の図。

 それで(1)と(2)のバランスをとるために、補間曲線の曲率絶対値の平均最小化という考えがあります。式で書けば、補間曲線をw(x),補間区間をLとして、

  I=∫(d^2w/dx^2)^2 dx (Lで積分)の最小化.

です。Iの変分を取ると、wは3次関数という結果になります。根拠は、ベイズー赤池の情報量最小基準にあるようです。
    http://ja.wikipedia.org/wiki/%E8%B5%A4%E6%B1%A0% …

 今の場合、補間ではなく回帰なので、3次と4次の違いは、あまりない気がします。もう一つは補間であっても、3次と4次では最低サンプル点数の違いは一個なので、4次補間は、3次のスプライン補間と概ね同等ではないかと、個人的には思っています。

 次に周期データの補間(回帰でも同じ)の場合、最低サンプル点数5の4次関数を使用したいです。理由は、どんな周期データも規格化して考えれば、sinのような波形であり、腹と節の5点でおさえられると思うからです。この場合周期データという条件があるので、4次は過適合ではないと考えています。重要なのは、この5点が一周期を覆っている事です。
 そう考えると、100個で1周期なので、前後50個に4次多項式の回帰を行うのは、妥当と思えます。特に移動回帰でもあるので、1周期分をづらして計算すると、計算結果が連続化されて、結果が安定する気もします。
    • good
    • 0
この回答へのお礼

早速のご回答有難うございます。
さらに細かい説明やリンクなどもつけていただきありがたい限りです。

正直なところ、前半の解説の内容はまだイマイチな理解度なのですが、この数値が妥当と思えるとのことで安心しました。せっかくここまで説明していただいたので、工学部出身者として引き続き調べてddtddtddtさんの解説の理解に努めていきます。

取り急ぎ、お礼までにと思いまして。
本当にありがとうございます。

お礼日時:2011/06/30 13:52

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!