性格いい人が優勝

実験データに最小二乗法を適用して近似関数(y=ax+b)を求めたいです。
しかし,実験データにはばらついた値があり,得られた近似関数も
それらの値によって,おおきくずれてしまいます。
そこで,何らかの方法でばらついた値を排除していき,
信頼できる近似関数を求めたいと思います。

聞いたところ,正規分布か何らかの方法で,
信頼区間(95%)以外のデータを除去すれば良いと
のことですが,具体的な方法が分かりません。

実験データyi,xiと最小二乗法でy(=a*xi+b)から
どのような処理をすればよいのか教えてください。

よろしくお願いします。

A 回答 (2件)

> 信頼区間(95%)以外のデータを除去すれば良いと



回帰分析において独立変数と従属変数が正規分布に従うことは必須ではありませんので、変数そのものについて標準化した値の絶対値が1.96を超えるデータを除外するのは、そもそもその変数が正規分布に従うことを前提とできるのでなければ意味がありません。それに実験データという言い方から察するに、独立変数は制御されているのではないでしょうか。だとすればなおさら意味がありません。因みに「信頼区間」というのは推測統計量の標本分布に対する区間を指し、通常は変数そのものの分布に対する区間には使いません。

先ずは残差の検討を行ってください。残差の大きいデータについて、そのデータが本当に信頼できる測定値なのかを確認してください。その際「大きい」残差の判断には残差をその標準誤差で除した標準化残差tiをもちいます。

ti = (yi-yi~) / Se √(1-hi)

ただし、従属変数の予測値 yi~=axi+b、残差平均平方和 Se^2=(1/(n-2))Σ(yi-y)^2、てこ比 hi=(1/n)+(xi-mx)^2/Σ(xi-mx)^2、独立変数の平均 mx=(1/n)Σxi、データ数 n、です。


標準化残差の絶対値が1.96を超えるデータというのが目安になるでしょう。そしてそれが測定ミスや記録ミスの可能性を含め、正しい条件で測定されたものかを確認し、もし正しい測定値なら安易に除外することは許されません。そのようなデータが多いとすれば、なにか測定値のばらつきを大きくする要因が実験に存在しないかを検討し、場合によっては実験方法自体を見直して精度を高くすることを考えることも必要です。データが得られた背景を考えずに数字だけをみて機械的にデータを外れ値として除外するのは統計の誤用です。

この回答への補足

ご返信有難うございます。また,レスが遅くなりすみません。
独立変数は実験データと書きましたが,実験データをいろいろと計算して
求めたもので,そのものを制御することができず,ばらつきも多い状況です。

てこ比と中心にネットで調べましたが,詳しいところを
見つけれませんでした。参考書(ちょっとした大型本屋で購入できる)などをご紹介いただければ幸いです。
ちなみに,今回統計学を勉強しようと購入したキーポイント確率統計では,
てこ比などの記述はありませんでした。
重回帰分析という分野になるのでしょうか。

よろしくお願いいたします。

補足日時:2006/12/20 17:07
    • good
    • 0

理系大学4年です。


正規分布とは、確率密度関数が1/√(2π)・e^{(x^2)/2}で表される、データの分布状態を言います。
まず、x,yともに標準化します。x=(x-x平均)/σ 
信頼区間95%ということは、片側の棄却域が2.5%なので、正規分布表より、α=0.025となるaの値は、a=1.96です。したがって、
標準化した値が-1.96以下、1.96以上となるデータをさくじょすればいいのです。

この回答への補足

有難うございます。
対象となるデータは,yiなのでしょうか
それとも差分yi-yや,(yi-y)^2などを使うのでしょうか?
よろしくお願いします。

補足日時:2006/12/02 22:05
    • good
    • 0

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!