今だけ人気マンガ100円レンタル特集♪

実験データに最小二乗法を適用して近似関数(y=ax+b)を求めたいです。
しかし,実験データにはばらついた値があり,得られた近似関数も
それらの値によって,おおきくずれてしまいます。
そこで,何らかの方法でばらついた値を排除していき,
信頼できる近似関数を求めたいと思います。

聞いたところ,正規分布か何らかの方法で,
信頼区間(95%)以外のデータを除去すれば良いと
のことですが,具体的な方法が分かりません。

実験データyi,xiと最小二乗法でy(=a*xi+b)から
どのような処理をすればよいのか教えてください。

よろしくお願いします。

このQ&Aに関連する最新のQ&A

A 回答 (2件)

> 信頼区間(95%)以外のデータを除去すれば良いと



回帰分析において独立変数と従属変数が正規分布に従うことは必須ではありませんので、変数そのものについて標準化した値の絶対値が1.96を超えるデータを除外するのは、そもそもその変数が正規分布に従うことを前提とできるのでなければ意味がありません。それに実験データという言い方から察するに、独立変数は制御されているのではないでしょうか。だとすればなおさら意味がありません。因みに「信頼区間」というのは推測統計量の標本分布に対する区間を指し、通常は変数そのものの分布に対する区間には使いません。

先ずは残差の検討を行ってください。残差の大きいデータについて、そのデータが本当に信頼できる測定値なのかを確認してください。その際「大きい」残差の判断には残差をその標準誤差で除した標準化残差tiをもちいます。

ti = (yi-yi~) / Se √(1-hi)

ただし、従属変数の予測値 yi~=axi+b、残差平均平方和 Se^2=(1/(n-2))Σ(yi-y)^2、てこ比 hi=(1/n)+(xi-mx)^2/Σ(xi-mx)^2、独立変数の平均 mx=(1/n)Σxi、データ数 n、です。


標準化残差の絶対値が1.96を超えるデータというのが目安になるでしょう。そしてそれが測定ミスや記録ミスの可能性を含め、正しい条件で測定されたものかを確認し、もし正しい測定値なら安易に除外することは許されません。そのようなデータが多いとすれば、なにか測定値のばらつきを大きくする要因が実験に存在しないかを検討し、場合によっては実験方法自体を見直して精度を高くすることを考えることも必要です。データが得られた背景を考えずに数字だけをみて機械的にデータを外れ値として除外するのは統計の誤用です。

この回答への補足

ご返信有難うございます。また,レスが遅くなりすみません。
独立変数は実験データと書きましたが,実験データをいろいろと計算して
求めたもので,そのものを制御することができず,ばらつきも多い状況です。

てこ比と中心にネットで調べましたが,詳しいところを
見つけれませんでした。参考書(ちょっとした大型本屋で購入できる)などをご紹介いただければ幸いです。
ちなみに,今回統計学を勉強しようと購入したキーポイント確率統計では,
てこ比などの記述はありませんでした。
重回帰分析という分野になるのでしょうか。

よろしくお願いいたします。

補足日時:2006/12/20 17:07
    • good
    • 0

理系大学4年です。


正規分布とは、確率密度関数が1/√(2π)・e^{(x^2)/2}で表される、データの分布状態を言います。
まず、x,yともに標準化します。x=(x-x平均)/σ 
信頼区間95%ということは、片側の棄却域が2.5%なので、正規分布表より、α=0.025となるaの値は、a=1.96です。したがって、
標準化した値が-1.96以下、1.96以上となるデータをさくじょすればいいのです。

この回答への補足

有難うございます。
対象となるデータは,yiなのでしょうか
それとも差分yi-yや,(yi-y)^2などを使うのでしょうか?
よろしくお願いします。

補足日時:2006/12/02 22:05
    • good
    • 0

このQ&Aに関連する人気のQ&A

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!

このQ&Aを見た人はこんなQ&Aも見ています

このQ&Aを見た人が検索しているワード

このQ&Aと関連する良く見られている質問

QExcelの近似曲線で外れ値(異常値)を除外したい

Excelの近似曲線についての質問です。実験データーを基にしたある散布図についての近似曲線を作りたいのですが、散布図の点の中に明らかに近似曲線に用いるのに不適な外れ値(異常値)があります。このような外れ値(異常値)を除外して他の値のみを用いた近似曲線を作る方法があれば教えてください。よろしくお願いします!

Aベストアンサー

>外れ値(異常値)を除外して
外れ値を別のデータ系列にして、他の値のみの系列を用いた近似曲線を描く
散布図のプロットの色を2つの系列とも同じにする。

Qエクセルで片対数グラフを作る

エクセルで片対数グラフを作る方法を詳しく教えてください。お願いします。

Aベストアンサー

グラフの数値軸のところで右クリックして
軸の書式設定(O)→目盛(タブ名)

対数目盛を表示する(L)
にチェックを入れてください。

Q周波数特性の利得の低下について

トランジスタの周波数特性についてお尋ねしたいことがあります。

周波数特性は台形のような形をしているのですが、低域周波数帯と高域周波数帯で利得が低下する原因が分かりません。
初心者でも分かるように簡単に説明してくれませんか?。よろしくお願いします。

Aベストアンサー

トランジスタの増幅回路で入力や出力の結合部分にコンデンサを使うことが一般的ですがこれが原因で増幅度が小さくなる事は有ります。

つまり
信号源→コンデンサ→増幅回路入り口
と言う場合コンデンサのリアクタンスは1/ωCで計算されますがここでω=2Πfですから周波数fが下がればリアクタンスが大きくなって結合が弱まりますね。また補正のためにエミッタアース間にもコンデンサを入れる事が多いですがこれは周波数が低くなると負帰還が多くなり増幅度は下がります。

逆に周波数が非常に高くなるとベース、エミッタ、コレクタ、各電極の配線などの浮遊容量などによって増幅度を下げる方向に作用します。
殊更高くなると半導体内部の電荷の移動時間すら問題になります。

QExcelを使ったはずれ値の検定

今、大学の卒論で水平方向でクロロフィル濃度を調べているものです。
私が計測したデータを処理するに当たって、私の主観ではなく根拠のある処理方法にのっとってはずれ値を抽出したいと考えています。
自力で色々と調べた結果、グラブス・スミルノフ検定を用いるのがよいと思ったのですが、Excelの中にはそれに対応した関数がありません。

外部のアドインソフトを用いれば可能なのですが購入するお金もなく困っております。

どなたかよい方法をご存知の方はぜひ教えていただきたいと思います。

※基本的にクロロフィル濃度のみではずれ値を出したいため、二軸のグラフなどは使用することができません。

Aベストアンサー

エクセルの関数に、グラブス・スミルノフ検定がずばり無いだけで、この検定に使う要素はエクセル統計関数にあるAVEDEVやSTDEV・・以下の関数が使えるのではないですか。
一度エクセルの統計関数の名前と機能簡単解説一覧をWEBから打ち出し、どれを使うか考えたら。
ーー
また
ユーザー関数という仕組み(VBA)があるので、順次段階的にそれらの関数を利用してできる(IFで場合分けも出来るが)ものなら、単独関数をまとめた関数を定義できますよ。
VBAの入り口ぐらいは勉強が必要だが。
ーーー
Googleで「グラブス・スミルノフ検定」で照会するのはやってみましたか。
http://software.ssri.co.jp/statweb2/sample/example_17.html
のようなものもあるようだ。

Q加重平均と平均の違い

加重平均と平均の違いってなんですか?
値が同じになることが多いような気がするんですけど・・・
わかりやす~い例で教えてください。

Aベストアンサー

例えば,テストをやって,A組の平均点80点,B組70点,C組60点だったとします.
全体の平均は70点!・・・これが単純な平均ですね.
クラスごとの人数が全く同じなら問題ないし,
わずかに違う程度なら誤差も少ないです.

ところが,A組100人,B組50人,C組10人だったら?
これで「平均70点」と言われたら,A組の生徒は文句を言いますよね.
そこで,クラスごとに重みをつけ,
(80×100+70×50+60×10)÷(100+50+10)=75.6
とやって求めるのが「加重平均」です.

Q統計学的に信頼できるサンプル数って?

統計の「と」の字も理解していない者ですが、
よく「統計学的に信頼できるサンプル数」っていいますよね。

あれって「この統計を調べたいときはこれぐらいのサンプル数があれば信頼できる」という決まりがあるものなのでしょうか?
また、その標本数はどのように算定され、どのような評価基準をもって客観的に信頼できると判断できるのでしょうか?
たとえば、99人の専門家が信頼できると言い、1人がまだこの数では信頼できないと言った場合は信頼できるサンプル数と言えるのでしょうか?

わかりやすく教えていただけると幸いです。

Aベストアンサー

> この統計を調べたいときはこれぐらいのサンプル数があれば信頼できる・・・
 調べたいどの集団でも、ある一定数以上なら信頼できるというような決まりはありません。
 何かサンプルを集め、それをなんかの傾向があるかどうかという仮説を検証するために統計学的検定を行って、仮設が否定されるかされないかを調べる中で、どの検定方法を使うかで、最低限必要なサンプル数というのはあります。また、集めたサンプルを何か基準とすべき別のサンプルと比べる検定して、基準のサンプルと統計上差を出すに必要なサンプル数は、比べる検定手法により計算できるものもあります。
 最低限必要なサンプル数ということでは、例えば、ある集団から、ある条件で抽出したサンプルと、条件付けをしないで抽出したサンプル(比べるための基準となるサンプル)を比較するときに、そのサンプルの分布が正規分布(正規分布解説:身長を5cmきざみでグループ分けし、低いグループから順に並べたときに、日本人男子の身長なら170cm前後のグループの人数が最も多く、それよりも高い人のグループと低い人のグループの人数は、170cmのグループから離れるほど人数が減ってくるような集団の分布様式)でない分布形態で、しかし分布の形は双方とも同じような場合「Wilcoxon符号順位検定」という検定手法で検定することができますが、この検定手法は、サンプルデータに同じ値を含まずに最低6つのサンプル数が必要になります。それ以下では、いくらデータに差があるように見えても検定で差を検出できません。
 また、統計上差を出すのに必要なサンプル数の例では、A国とB国のそれぞれの成人男子の身長サンプルがともに正規分布、または正規分布と仮定した場合に「t検定」という検定手法で検定することができますが、このときにはその分布を差がないのにあると間違える確率と、差があるのにないと間違える確率の許容値を自分で決めた上で、そのサンプルの分布の値のばらつき具合から、計算して求めることができます。ただし、その計算は、現実に集めたそれぞれのサンプル間で生じた平均値の差や分布のばらつき具合(分散値)、どのくらいの程度で判定を間違える可能性がどこまで許されるかなどの条件から、サンプル間で差があると認められるために必要なサンプル数ですから、まったく同じデータを集めた場合でない限り、計算上算出された(差を出すために)必要なサンプル数だけサンプルデータを集めれば、差があると判定されます(すなわち、サンプルを無制限に集めることができれば、だいたい差が出るという判定となる)。よって、集めるサンプルの種類により、計算上出された(差を出すために)必要なサンプル数が現実的に妥当なものか、そうでないのかを、最終的には人間が判断することになります。

 具体的に例示してみましょう。
 ある集団からランダムに集めたデータが15,12,18,12,22,13,21,12,17,15,19、もう一方のデータが22,21,25,24,24,18,18,26,21,27,25としましょう。一見すると後者のほうが値が大きく、前者と差があるように見えます。そこで、差を検定するために、t検定を行います。結果として計算上差があり、前者と後者は計算上差がないのにあると間違えて判断する可能性の許容値(有意確率)何%の確率で差があるといえます。常識的に考えても、これだけのサンプル数で差があると計算されたのだから、差があると判断しても差し支えないだろうと判断できます。
 ちなみにこの場合の差が出るための必要サンプル数は、有意確率5%、検出力0.8とした場合に5.7299、つまりそれぞれの集団で6つ以上サンプルを集めれば、差を出せるのです。一方、サンプルが、15,12,18,12,21,20,21,25,24,19の集団と、22,21125,24,24,15,12,18,12,22の集団ではどうでしょう。有意確率5%で差があるとはいえない結果になります。この場合に、このサンプルの分布様式で拾い出して差を出すために必要なサンプル数は551.33となり、552個もサンプルを抽出しないと差が出ないことになります。この計算上の必要サンプル数がこのくらい調査しないといけないものならば、必要サンプル数以上のサンプルを集めて調べなければなりませんし、これだけの数を集める必要がない、もしくは集めることが困難な場合は差があるとはいえないという判断をすることになるかと思います。

 一方、支持率調査や視聴率調査などの場合、比べるべき基準の対象がありません。その場合は、サンプル数が少ないレベルで予備調査を行い、さらにもう少しサンプル数を増やして予備調査を行いを何回か繰り返し、それぞれの調査でサンプルの分布形やその他検討するべき指数を計算し、これ以上集計をとってもデータのばらつきや変化が許容範囲(小数点何桁レベルの誤差)に納まるようなサンプル数を算出していると考えます。テレビ視聴率調査は関東では300件のサンプル数程度と聞いていますが、調査会社ではサンプルのとり方がなるべく関東在住の家庭構成と年齢層、性別などの割合が同じになるように、また、サンプルをとる地域の人口分布が同じ割合になるようにサンプル抽出条件を整えた上で、ランダムに抽出しているため、数千万人いる関東の本当の視聴率を割合反映して出しているそうです。これはすでに必要サンプル数の割り出し方がノウハウとして知られていますが、未知の調査項目では必要サンプル数を導き出すためには試行錯誤で適切と判断できる数をひたすら調査するしかないかと思います。

> どのような評価基準をもって客観的に信頼できると判断・・・
 例えば、工場で作られるネジの直径などは、まったくばらつきなくぴったり想定した直径のネジを作ることはきわめて困難です。多少の大きさのばらつきが生じてしまいます。1mm違っても規格外品となります。工場では企画外品をなるべく出さないように、統計を取って、ネジの直径のばらつき具合を調べ、製造工程をチェックして、不良品の出る確率を下げようとします。しかし、製品をすべて調べるわけにはいきません。そこで、調べるのに最低限必要なサンプル数を調査と計算を重ねてチェックしていきます。
 一方、農場で生産されたネギの直径は、1mmくらいの差ならほぼ同じロットとして扱われます。また、農産物は年や品種の違いにより生育に差が出やすく、そもそも規格はネジに比べて相当ばらつき具合の許容範囲が広くなっています。ネジに対してネギのような検査を行っていたのでは信頼性が損なわれます。
 そもそも、統計学的検定は客観的判断基準の一指針ではあっても絶対的な評価になりません。あくまでも最終的に判断するのは人間であって、それも、サンプルの質や検証する精度によって、必要サンプルは変わるのです。

 あと、お礼の欄にあった専門家:統計学者とありましたが、統計学者が指摘できるのはあくまでもそのサンプルに対して適切な検定を使って正しい計算を行ったかだけで、たとえ適切な検定手法で導き出された結果であっても、それが妥当か否か判断することは難しいと思います。そのサンプルが、何を示し、何を解き明かし、何に利用されるかで信頼度は変化するからです。
 ただ、経験則上指標的なものはあります。正規分布を示すサンプルなら、20~30のサンプル数があれば検定上差し支えない(それ以下でも問題ない場合もある)とか、正規分布でないサンプルは最低6~8のサンプル数が必要とか、厳密さを要求される調査であれば50くらいのサンプル数が必要であろうとかです。でも、あくまでも指標です。

> この統計を調べたいときはこれぐらいのサンプル数があれば信頼できる・・・
 調べたいどの集団でも、ある一定数以上なら信頼できるというような決まりはありません。
 何かサンプルを集め、それをなんかの傾向があるかどうかという仮説を検証するために統計学的検定を行って、仮設が否定されるかされないかを調べる中で、どの検定方法を使うかで、最低限必要なサンプル数というのはあります。また、集めたサンプルを何か基準とすべき別のサンプルと比べる検定して、基準のサンプルと統計上差を出すに必要な...続きを読む

QP制御、PI制御、PID制御それぞれメリット、デメリットを教えてくれま

P制御、PI制御、PID制御それぞれメリット、デメリットを教えてくれませんか?
レポート課題で困っています。調べてみたが良くわかりませんでした。

Aベストアンサー

制御の基本は、P(比例)動作ですが、P動作だけでは通常オフセット(目標値との残留偏差)が生じます。このため、P動作のオフセットを無くすため、I(積分)動作を加え、設定値との偏差をなくすようにします。また、D動作を加えることにより、偏差を単時間に修正することができますが、積分時間を短く設定しすぎると、ハンチングが起きやすく、安定した制御が得られなくなります。D(微分)動作は、偏差の少ないうちに大きな修正動作を加え、制御結果が大きく変動するのを防ぐことができるます。ただし、微分時間を長く設定しすぎると、小さな変化に対しても、大きな出力が出てしまう為、ハンチングが生じ、制御性が安定しなくなります。

詳しくは、以下のURLを参照のこと。

参考URL:http://www.compoclub.com/products/knowledge/jidou_seigyo/jidou_seigyo4.html

Q金属、半導体の抵抗の温度変化について

金属は温度が高くなると抵抗が大きくなり、半導体は温度が高くなると抵抗が小さくなるということで、理論的にどうしてそうなるのでしょうか。
金属については、温度が上がると粒子が熱振動し自由電子が流れにくくなるというようなことを聞いたことがありますがあっていますか?
半導体についてはまったく理由がわからないので詳しく教えて頂くとありがたいです。
あと自分で調べていたところ「バンド理論」というのを目にしました。
関係があるようでしたらこれも教えて頂くとありがたいです。

Aベストアンサー

こんにちは。

>>>金属については、温度が上がると粒子が熱振動し自由電子が流れにくくなるというようなことを聞いたことがありますがあっていますか?

だいたい合っています。
金属については、温度が上がると正イオン(自由電子が引っこ抜かれた残りの原子)の振動が激しくなるので、自由電子が正イオンに散乱されます(進路を乱されます)。
それをマクロで見たとき、電気抵抗の上昇という形で現れます。

>>>半導体についてはまったく理由がわからないので詳しく教えて頂くとありがたいです。

半導体の中において金属の自由電子に相当するものは、電子とホールです。この2つは電流を担う粒子ですので、「キャリア」(運ぶ人)と言います。
ホールは、半導体物理学においてプラスの電子のように扱われますが、その実体は、電子が欠けた場所のことを表す「穴」のことであって、おとぎ話の登場人物です。
電子の濃度とホールの濃度に違いがあったとしても、一定の温度においては、両者の濃度の積は一定です。
これは、水溶液において、H+ と OH- の濃度の積が一定(10^(-14)mol^2/L^2)であるのと実は同じことなのです。

中性の水溶液の温度が高くなると、H2O が H+ と OH- とに解離しやすくなり、H2O に戻る反応が劣勢になります。
それと同様に、真性半導体においても、温度が上がると電子とホールが発生しやすくなるのに比べて、両者が出合って対消滅する反応が劣勢になるため、両者の濃度の積は増えます。
キャリアが増えるので、電流は流れやすくなります。

こんにちは。

>>>金属については、温度が上がると粒子が熱振動し自由電子が流れにくくなるというようなことを聞いたことがありますがあっていますか?

だいたい合っています。
金属については、温度が上がると正イオン(自由電子が引っこ抜かれた残りの原子)の振動が激しくなるので、自由電子が正イオンに散乱されます(進路を乱されます)。
それをマクロで見たとき、電気抵抗の上昇という形で現れます。

>>>半導体についてはまったく理由がわからないので詳しく教えて頂くとありがたいです。

半導体...続きを読む

Q最小自乗法で求められた傾きの誤差

データ列(x,y)がn個あって、それを最小自乗法でフィッティングして
y=ax+bにおける傾きaが得られました。

そこで、yの測定誤差が例えば±10%あったとき、
傾きaの誤差δaはどのように求められるのでしょうか?

データ数nが多いほどδaは小さくなるとは思いますが・・・。
よろしくお願いいたしますm(_ _)m

Aベストアンサー

ごめんなさい、まだ続きがあるのとちょっと間違いがありました。_o_

>今yの誤差を考えているのでxi→yiでしょうか?
いいえこちらは、xiで間違いありません。

<訂正部分>
まず、σa と σb が入れ替わっていました。
つまり、
σa^2 = N / Δ
σb^2 = Sxx / Δ
です。
が、さらに追加があって、この式ではσi=1 (一定)と仮定して計算しましたので、その分の補正をかけなければならないことを忘れていました。
得られたσa, σbにたいして、

sqrt[ Χ^2 / (N-2)]

をかけて、その値をσa,σbとしてください。

ここでΧ^2は回帰したときの平方和です。(つまり (y - yi)^2 をi=1,,Nで和をとったもの)

今度は間違いがあるといけないので、お示しのデータで検算しました。

傾き---- 0.143341085
切片---- 0.237704298

が68.3%誤差範囲です。
今度はExcelのLinest関数と答えあわせして、OKでしたので間違いないでしょう。
((ΔΧv)^2の数値はLinestでは出てきませんけど。σa, σb は計算してくれます)

では。

ごめんなさい、まだ続きがあるのとちょっと間違いがありました。_o_

>今yの誤差を考えているのでxi→yiでしょうか?
いいえこちらは、xiで間違いありません。

<訂正部分>
まず、σa と σb が入れ替わっていました。
つまり、
σa^2 = N / Δ
σb^2 = Sxx / Δ
です。
が、さらに追加があって、この式ではσi=1 (一定)と仮定して計算しましたので、その分の補正をかけなければならないことを忘れていました。
得られたσa, σbにたいして、

sqrt[ Χ^2 / (N-2)]

をかけて、その値をσa,σbとしてく...続きを読む

Qエクセルの散布図のX軸に文字を表示したいのですが、どうしたらよいのでしょうか?

エクセルの散布図を使って、下の表をグラフにしたいと思ってます。
a  a1
b  a2
c  a3

この場合、そのまま折れ線グラフにすると、X軸にしっかり、a,b,cと出てくるのですが、散布図の場合は、X軸が1,2,3となってしまって、セル内の文字が表示されません。

X軸の目盛りに、セル内の文字を表示させるにはどうしたらよいのでしょうか?お願いいたします。

Aベストアンサー

残念ですが散布図では不可能です。
そもそもグラフの概念が違います。
散布図は変数領域に対するもう一方の変数の領域を見るためのグラフです。
主に物の寸法バラツキに対する、出力される数値などの相関性を見るために使用するので、要素は全て変数なんです。

質問内容のグラフは、モノに対する物量をあらわすという考え方がありますので、X軸は必然的に固有名詞になります。
この場合、散布図ではなく折れ線グラフで表すのが普通ですね。(2軸の折線でなくても可能)
Y軸要素が2つまでなら、Y1軸とY2軸に分けて要素振り分けが可能です。3つ以上ですと、EXCELでは不可能でしょう。
また、X軸の名称は同列の高い順に並びますので、連続性がある場合は、グラフの元データは上から順番に記入していかなくてはなりません。


このQ&Aを見た人がよく見るQ&A

人気Q&Aランキング