
実験データに最小二乗法を適用して近似関数(y=ax+b)を求めたいです。
しかし,実験データにはばらついた値があり,得られた近似関数も
それらの値によって,おおきくずれてしまいます。
そこで,何らかの方法でばらついた値を排除していき,
信頼できる近似関数を求めたいと思います。
聞いたところ,正規分布か何らかの方法で,
信頼区間(95%)以外のデータを除去すれば良いと
のことですが,具体的な方法が分かりません。
実験データyi,xiと最小二乗法でy(=a*xi+b)から
どのような処理をすればよいのか教えてください。
よろしくお願いします。
No.2ベストアンサー
- 回答日時:
> 信頼区間(95%)以外のデータを除去すれば良いと
回帰分析において独立変数と従属変数が正規分布に従うことは必須ではありませんので、変数そのものについて標準化した値の絶対値が1.96を超えるデータを除外するのは、そもそもその変数が正規分布に従うことを前提とできるのでなければ意味がありません。それに実験データという言い方から察するに、独立変数は制御されているのではないでしょうか。だとすればなおさら意味がありません。因みに「信頼区間」というのは推測統計量の標本分布に対する区間を指し、通常は変数そのものの分布に対する区間には使いません。
先ずは残差の検討を行ってください。残差の大きいデータについて、そのデータが本当に信頼できる測定値なのかを確認してください。その際「大きい」残差の判断には残差をその標準誤差で除した標準化残差tiをもちいます。
ti = (yi-yi~) / Se √(1-hi)
ただし、従属変数の予測値 yi~=axi+b、残差平均平方和 Se^2=(1/(n-2))Σ(yi-y)^2、てこ比 hi=(1/n)+(xi-mx)^2/Σ(xi-mx)^2、独立変数の平均 mx=(1/n)Σxi、データ数 n、です。
標準化残差の絶対値が1.96を超えるデータというのが目安になるでしょう。そしてそれが測定ミスや記録ミスの可能性を含め、正しい条件で測定されたものかを確認し、もし正しい測定値なら安易に除外することは許されません。そのようなデータが多いとすれば、なにか測定値のばらつきを大きくする要因が実験に存在しないかを検討し、場合によっては実験方法自体を見直して精度を高くすることを考えることも必要です。データが得られた背景を考えずに数字だけをみて機械的にデータを外れ値として除外するのは統計の誤用です。
この回答への補足
ご返信有難うございます。また,レスが遅くなりすみません。
独立変数は実験データと書きましたが,実験データをいろいろと計算して
求めたもので,そのものを制御することができず,ばらつきも多い状況です。
てこ比と中心にネットで調べましたが,詳しいところを
見つけれませんでした。参考書(ちょっとした大型本屋で購入できる)などをご紹介いただければ幸いです。
ちなみに,今回統計学を勉強しようと購入したキーポイント確率統計では,
てこ比などの記述はありませんでした。
重回帰分析という分野になるのでしょうか。
よろしくお願いいたします。
No.1
- 回答日時:
理系大学4年です。
正規分布とは、確率密度関数が1/√(2π)・e^{(x^2)/2}で表される、データの分布状態を言います。
まず、x,yともに標準化します。x=(x-x平均)/σ
信頼区間95%ということは、片側の棄却域が2.5%なので、正規分布表より、α=0.025となるaの値は、a=1.96です。したがって、
標準化した値が-1.96以下、1.96以上となるデータをさくじょすればいいのです。
この回答への補足
有難うございます。
対象となるデータは,yiなのでしょうか
それとも差分yi-yや,(yi-y)^2などを使うのでしょうか?
よろしくお願いします。
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
似たような質問が見つかりました
- JavaScript 最小二乗法 2 2023/01/01 20:57
- 統計学 確率統計の問題です。 3 2022/04/07 04:39
- 数学 ラグランジュの未定乗数法を用いる問題 3 2023/05/15 14:48
- 数学 数学?算数の問題です どのような解答になりますか? 2 2022/04/22 04:46
- 数学 特定の座標点を通る回帰を行う方法について。 2 2022/10/10 10:27
- 統計学 t検定について教えてください 2 2023/02/23 16:35
- 統計学 お世話になっています. x軸は時間(期間)y軸はある値に対する2つのグラフ比較をしますが、私個人の考 2 2023/03/30 11:42
- 数学 多様体について質問です。 Rを実数全体としてf:S^n={(p_1,…,p_(n+1)∈R^(n+1 2 2023/06/24 00:54
- 統計学 風速を1秒刻みで推定する方法 6 2023/03/03 11:58
- 数学 ヒストスプライン平滑化をする際の節点の決め方ついて教えてください。 9 2022/08/08 16:17
おすすめ情報
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
「未使用」と「不使用」ってど...
-
日本通信の当月利用データ量は...
-
XMLデータってなんですか?
-
【MSOffice Publisher2010差し...
-
ネットカフェから、メールでき...
-
英語で何と言うか教えてくださ...
-
相関行列作成時の数字以外のデ...
-
他のPCでExcelデータWordの差し...
-
インスタの設定について。 イン...
-
Excel グラフで数値の正と負の...
-
ピボットテーブル
-
高速フーリエ変換でデータ数が...
-
職務質問で聞かれたデータはど...
-
電話帳データを印刷するには?
-
イントラネット上のデータをエ...
-
外れ値について。
-
パレート図等で「N=100」とあ...
-
IE7からIE6に戻したい
-
FAXの表をエクセルに変換したい
-
エクセルのグラフのデータ系列...
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
「未使用」と「不使用」ってど...
-
XMLデータってなんですか?
-
ネットカフェから、メールでき...
-
エクセルで縦に並んだデータを...
-
【MSOffice Publisher2010差し...
-
インスタの設定について。 イン...
-
高速フーリエ変換でデータ数が...
-
パレート図等で「N=100」とあ...
-
PCの内蔵メモリにデータは残る?
-
データ用HDDの別のPCへの乗せ替え
-
エクセルのグラフのデータ系列...
-
英語で何と言うか教えてくださ...
-
Excel Webクエリ
-
Excelの“並び替え”で文字コード...
-
差し込み印刷がうまくできません
-
FAXの表をエクセルに変換したい
-
ワードの差し込み印刷のデータ...
-
CSVファイルを・…
-
日本通信の当月利用データ量は...
-
暗所比視感度曲線
おすすめ情報