最小二乗法とデータのばらつきを除去

Question

実験データに最小二乗法を適用して近似関数(y=ax+b)を求めたいです。
しかし，実験データにはばらついた値があり，得られた近似関数も
それらの値によって，おおきくずれてしまいます。
そこで，何らかの方法でばらついた値を排除していき，
信頼できる近似関数を求めたいと思います。

聞いたところ，正規分布か何らかの方法で，
信頼区間(95%)以外のデータを除去すれば良いと
のことですが，具体的な方法が分かりません。

実験データyi，xiと最小二乗法でy(=a*xi+b)から
どのような処理をすればよいのか教えてください。

よろしくお願いします。

solla · Accepted Answer

> 信頼区間(95%)以外のデータを除去すれば良いと

回帰分析において独立変数と従属変数が正規分布に従うことは必須ではありませんので、変数そのものについて標準化した値の絶対値が1.96を超えるデータを除外するのは、そもそもその変数が正規分布に従うことを前提とできるのでなければ意味がありません。それに実験データという言い方から察するに、独立変数は制御されているのではないでしょうか。だとすればなおさら意味がありません。因みに「信頼区間」というのは推測統計量の標本分布に対する区間を指し、通常は変数そのものの分布に対する区間には使いません。

先ずは残差の検討を行ってください。残差の大きいデータについて、そのデータが本当に信頼できる測定値なのかを確認してください。その際「大きい」残差の判断には残差をその標準誤差で除した標準化残差tiをもちいます。

ti = (yi-yi~) / Se √(1-hi)

ただし、従属変数の予測値 yi~=axi+b、残差平均平方和 Se^2=(1/(n-2))Σ(yi-y)^2、てこ比 hi=(1/n)+(xi-mx)^2/Σ(xi-mx)^2、独立変数の平均 mx=(1/n)Σxi、データ数　n、です。


標準化残差の絶対値が1.96を超えるデータというのが目安になるでしょう。そしてそれが測定ミスや記録ミスの可能性を含め、正しい条件で測定されたものかを確認し、もし正しい測定値なら安易に除外することは許されません。そのようなデータが多いとすれば、なにか測定値のばらつきを大きくする要因が実験に存在しないかを検討し、場合によっては実験方法自体を見直して精度を高くすることを考えることも必要です。データが得られた背景を考えずに数字だけをみて機械的にデータを外れ値として除外するのは統計の誤用です。

kishiura · Answer

理系大学４年です。
正規分布とは、確率密度関数が１/√（２π）・ｅ＾{（ｘ＾２）/２}で表される、データの分布状態を言います。
まず、x,yともに標準化します。ｘ＝（ｘ－ｘ平均）/σ　
信頼区間95％ということは、片側の棄却域が2.5％なので、正規分布表より、α＝0.025となるａの値は、ａ＝1.96です。したがって、
標準化した値が－1.96以下、1.96以上となるデータをさくじょすればいいのです。

最小二乗法とデータのばらつきを除去

> 信頼区間(95%)以外のデータを除去すれば良いと

この回答への補足

理系大学４年です。

この回答への補足

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング