電子書籍の厳選無料作品が豊富!

あるデータをもとに3次の多項式曲線(自然スプライン曲線)を計算し、
EXCELで描画しました。
R^2値=0.9937 です。
試しに次数を5次と入力すると
R^2値=0.9999 となりました。
3次式でプロットしてあるものに対し、5次と入力することにより
R^2値がより向上したので、5次の曲線を使ってもよいものなのでしょうか。

A 回答 (3件)

質問内容を確認すると,


あるデータから3次多項式の自然スプライン曲線を作った。
スプライン曲線から計算される数値データをエクセルに入れて,3次式で近似するとR^2=0.9937,
5次式で近似するとR^2=0.9999だった,
ということでしょうか?

厳密に3次式で表されるデータを,3次曲線にあてはめて近似すれば,完全に近似できるのでR^2=1.0になるはずです。
3次の自然スプライン曲線で表すとは「各区間では3次式だが区間ごとに係数が変る式」という意味です。
全体を1本の3次式で表した場合より,細かい表現になっています。全体を1本の近似多項式で表そうとすれば,多項式の次数を5次に上げれば,よりよく近似できて当然です。

質問内容を誤解していたらごめんなさい。
    • good
    • 0
この回答へのお礼

FT56F001さん、ありがとうございます。
納得がいきました。

お礼日時:2011/12/13 11:31

 モデルがデータを良く説明できている場合、近似を使ってAIC(赤池の情報量規範)を簡略化できます。

すなわち、データの個数をn、モデルのパラメータの個数をf (k次式ならf=k+1)、そして残差二乗和をSとするとき、ln( )は自然対数として

n ln(S) + 2f

が小さいのがbetterだ、という判定をする。
 この式は、「パラメータをm個増やすことで n ln(S)が2m以上減るのなら増やした方がいいが、さもなきゃ増やすのは過剰だよ」という意味ですね。
 しかし、「これを使えば正しいモデルを見つけられる」という訳ではありません。あくまで「どっちがましか」という話です。
    • good
    • 0

> 3次式でプロットしてあるものに対し、5次と入力することによりR^2値がより向上した



当然、次数を増やすとr^2は向上します。減ることはありません。
例えば年間降水量の説明変数に猫の体重を入れても、入れる前よりもr^2は必ず同じか向上します。
これは、例えば最小二乗法であれば
y = a0 + a1 x1 + ...+ an xn
という式で当てはめを行った場合の残差wを
w = b0 + b0 z1
という当てはめを行っているのと同じことを行うことになります。


> 5次の曲線を使ってもよいものなのでしょうか。

この結果からいえば、自由度調整r^2を考えれば下がっていると思われる(標本数が分からないので正確には分からないが)ので、良くないと思います。

いずれにしても、AICかBICを使って判定する方がモデル選択としては良いと思います。
    • good
    • 0

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!