あなたの映画力を試せる!POPLETA映画検定(無料) >>

お世話になります。

分析方法(A法とB法)の比較をしています。
測定濃度が異なる10サンプルを両分析法で分析し,
その結果をプロット(横軸A法,縦軸B法)したところ,
9点はY=Xの直線上に分布するのですが,
(A法での測定値がB法の測定値と非常に近い)
1点のみがY=Xから外れており,
これを加えると信頼区間を含めてY=Xとはなりません。

A法とB法は系統的に異なることのない分析方法であると証明したい
と思っており,この異常値を棄却する根拠が欲しいと思っています。

異常値を棄却する手法でこの1点を外れ値としたいのですが,どのような手法を用いればよいのでしょうか?

お分かりになる方がいらしたら,
教えていただきたくお願いします。

このQ&Aに関連する最新のQ&A

A 回答 (6件)

私もだいぶ前に少しかじっただけなのでうろおぼえなのですが


統計的にはそのような外れ値を除く手法が存在します。

参考URLの下のほうにある四分位点を用いるものや「箱ひげ図」
を使ったものがこれに当たります。
基本原理としては回帰曲線に対して標準偏差の任意倍(2とか3とか)
を足し引きした線を描き(ボリンジャーバンド?)、この間から外れた値は外れ値として除去
その後残りのデータで再び回帰分析をするというようなものです。

詳しくは数学系のカテゴリーで再質問することをお勧めします。
あまり力になれず申し訳ない。

参考URL:http://phi.ypu.jp/statlib/l4-2003.pdf
    • good
    • 0
この回答へのお礼

回答いただきありがとうございました。

回帰線から予測される値と観測値の差(またはこの二乗)の分布を計算し,棄却検定する方法が一番妥当かもしれません。

ただ,この方法が一般に支持されていれば良いのですが・・

お礼日時:2008/04/27 23:58

>異常値の棄却に関してこれを適用した例について,文献を教えていただければ幸いです。


文献を挙げるまでも無く、検定の基本は、100回やって95回異なる(差がある)結果になった。あとの5回は、差が無いかもしれないが、それには目につぶる。100回で95回も異なるという結果がでるのは、全体的としては異なるのは偶然ではなく、「有意差有り」と結論するというのが危険率5%の水準で有意差有りの意味です。
 私は、浮気にたとえるのですが、まず、浮気をしていると帰無仮説を立てます。「浮気した?」との追求に、「浮気していない」と100回返事をして、95回していなければ、浮気していると判断・断定できません。したがって、危険率5%の水準でその人は浮気をしていない、と判定するのが検定です。
 あるいは、100人の中で、上から1番と2番の人は、「頭が良い」と表現しても異論は無いでしょう。下にも1番と2番人がいるので、それらの人は全体から見ると95%の範囲を超えるからです。3番の人はギリギリ、4番の人は95%の中に入るので、統計学的には「頭が良い」とは表現できません。
 2シグマは、データが正規分布が想定できるなら、95%を超えているので、異常な値として判定できます。検定の手順と結果の判断を、再度思い出してください。

>共立出版社「データのとり方とまとめ方」2004年
本が正しいとは限りません。どうせ誰かが書いたものですから。
分かり安いように誇張して書きます。AとBの値をそれぞれ、10と40(20)、20と10、80と55(40)、40と80、50と50、60と60でグラフに散布図を描いてください。エクセルで式を出すと、y=0.9795xとなりました。切片は0、傾きは1に近いのですが、これでは使い物になりません。
 パソコンに頼らず、グラフに点を描き、実感してください(40年前は、誰でも手描きでした)。この場合は、カッコ内の値を使ってください。
 もっとも、こんなグラフになれば、AかBのどちらかが駄目か、あるいは両方とも不適かです。

 A法は、前処理が複雑で、回収率が50%だった。改良したB法は回収率100%なら、傾きは1にはなりません(回収率100%は、前処理があれば不可能)。しかし、回収率が安定しているのなら、AとBの換算は、完全にできます。というわけで、私は、相関係数を優先します。

>同時に2つの方法で測定するのは,2つの測定方法が系統的にズレていないことを確認し,簡易法に切り替えるために実施しており経済的に合理性に欠ける測定は行っていないことを付け加えさせてください。
質問者さんが「棄却したい」しか分かっておらず、具体的に何をなさっているのか理解できていませんので、失礼な表現があればお詫びしますが。というのも、私は、他の人がやることには無関心に近いので。

 ところで定量法の良否の判断基準をお考えでしょうか。一般には、正確性、感度(定量下限)、迅速性、技術の不要な簡便性、経済性、安全性、の順でしょうか。あとは、回収率も。学生実習になると、安全性(怪我でもさせると、こちらのクビが・・・)が第一、そして経済性(実習費が少ない)、迅速性(夕方までに完了)、簡便性で、正確性なんぞは期待できません。
    • good
    • 0

>回帰線の中心からの2シグマの範囲からずれている測定値を棄却する考えかたがあるのですね


繰り返しになりますが、あるのではなく、検定の基本です。2シグマから外れることは、正規分布をしていれば、全体の95%の範囲から外れているかもしれないと判断します。外れていれば、危険率5%で有意差あり。棄却検定も、この手順でやっているハズです。もっとも、数式は苦手なので、証明は書き込めませんが。

>回帰直線の係数(切片と傾き)がそれぞれ0および1に等しいかどうかが重要です。
相関係数が重要では。というのも、相関係数が1.00なら、回帰式を使えば、誤差ゼロで換算・補正できるからです。
 もちろん、切片がゼロでないと、「下駄が高い」ので、やりいくいのは事実です。y=50+aXで、yの値が90だと、その半分以上は下駄になります。現実には測定誤差があるので、どうしても測定値の信頼性に疑問が残ります。実際、この場合は、下駄の50をノイズと考えれば、定量限界以下という判定になり、測定値の信頼性は失われますが。
 傾きも1に等しいことが望ましいのですが、サンプルの前処理などが複雑だと回収率が変動し、1にならない場合もあり、『こっちの方が、感度が悪い』と考えれぱOKでしょう。
 逆に、切片ゼロ、傾き1.00でも、相関係数が0.5(こんなにヒドイのは無いでしょうが)だと、散布図上でデータがバラバラです。切片は50、傾きは0.5でが、相関係数が1.00なら直線の上にピシッと乗っていて、外れはゼロ。どちらを使うかということです。
 
>A法とB法の比較試験を計画的に一定の期間に、同一のオペレータにより実施しており、
私は、金属の濃度を測定することが多いのですが、AASとICPという2つの機器のどちらでも測定可能です。だからといって、2つの測定は行わず、1つの元素ならAAS、多元素ならICPと使い分けます。2つの方法で測定をするのは、時間と費用の無駄なので、理解できません。
 あるいは、生化学では、蛋白の定量ができれば一人前、と教わりました。当時は『何のことやら』でしたが、その定量法は10種以上ある。その中から、条件(時間、費用、感度、操作の簡便性、特別な技術、安全性など)を考慮して、最も適切な方法を選べるようになれば一人前、と思うようになりました。2つの方法で測定する、なんぞはやりません。
 また、全国的な調査に参加したことがあります。この場合は、標準品が配布され、その値の報告を要求されました。それから測定のサンプルを指示されたので、なんとか測定のウデはパスしたのだと自負しています。チェックは、測定開始前と全てのサンプルの測定が終わった2回だけでした。
 
 というわけで、一般的には状況に合わせて、どちらか(最適な)の方法を選択します。共同研究でも、最初に一回互いのデータをチェックすれば、それで終わりだと思います。もちろん、チェクを繰り返せば信頼性は高まりますので、「無駄」とは言い切ないのですが、現在の道路特定財源での通行車の稀な「タダならあった方が良い」地方道が浮かんできます。それに、他の共同機関から、「毎回比較しましょう」なんぞを言われるのなら、『信頼されていない』と共同研究を解消しますが。

 検量線で(この場合は、これに近い)、5点測定して、1点外れた場合、その1点を無視して(棄却して)検量線を引くのは認められています。しかし、学会でそんなことを発表しようものなら、「もう一度測定された方が」とやんわり指摘されれば良いほう、普通は無視され相手にされなくなります。
 実際のサンプルでは、変なデータが出て、失敗と判断してやり直しがあるのは多いのですが、そこに宝の山があるのは事実です。ウデを信頼できない学生ならともかく、棄却するは慎重になさることを。

 釈迦に説法の点は、ご容赦を。
    • good
    • 0
この回答へのお礼

回答者様におかれましては,当方の質問に対して懇切丁寧に,経験も交えて回答していただき大変参考になりました。ありがとうございました。

ところで,回帰線からの外れ値を,2シグマから棄却する方法が「検定の基本」といわれておりますが,可能でしたら,異常値の棄却に関してこれを適用した例について,文献を教えていただければ幸いです。

なお,測定方法の比較で相関係数より係数の傾きと切片が重要であることは,大変基本的な参考書で恐縮ですが,共立出版社「データのとり方とまとめ方」2004年,第5章:機器分析における校正 を参考にしていただきたくお願いします。
同時に2つの方法で測定するのは,2つの測定方法が系統的にズレていないことを確認し,簡易法に切り替えるために実施しており経済的に合理性に欠ける測定は行っていないことを付け加えさせてください。

また,当方の異常値棄却の考え方に関する記述で至らない点があったかもしれません。詳細は,下記を参照下さいますようにお願いします。
JIS Z 8402-2:1999 「測定方法及び測定結果の精確さ」 第2部:標準測定方法の併行精度及び再現精度を求めるための基本的方法

お礼日時:2008/05/05 22:07

>A法とB法は系統的に異なることのない分析方法であると証明したい


と思っており,
 A法があり、改良法としてB法を開発した。B法を代替法として使用できるか否かは、標準としている同一のサンプルについて測定し、その値について相関分析をして、それが有意であることを示せば十分。ただ、サンプル数、測定法、測定対象にもよるが相関係数が0.95以下では説得力が小さいかと。
 この場合に、異常な値が出たなら、やり直すのが基本です。棄却するのは、統計学的に誤りです。やり直しができないハズはないし。「異常値は、統計処理で棄却し・・・」と説明しても、やり直しをしないと『標準のサンプルで異常値が出るバスないので、腕が悪い』『やり直しをしないサボり』と思われるだけです。

>この異常値を棄却する根拠が欲しいと思っています。
明らかに操作のミス、など誰しもが認める理由なら、棄却することができます。例えば、測定中に地震があった、など。
 ただ、異常値は、重要な場合が少なくないので、その処理については慎重さが要求されます。病院の血液検査などは、異常値を探し出すのが目的なので、それを棄却しては仕事になりません。工場の製品検査も同じです。

>この方法が一般に支持されていれば良いのですが・・
 統計学的な常識でしょう。
統計学では、2シグマを超えると、全体の95%の範囲を超えるので、異常値と判断します。病院などの検査では、標準品を測定して、2ジクマを超えないことを確認し、その日の測定値の信頼性をチェックしているハズです。
 回帰式でも、回帰式を中心に2シグマノ範囲を示すことができるようで、そんなソフトを見たこともあります。回帰式の専門的な本なら、書いてあるのを立ち読みしたこともあります。
 
 明確な操作ミス(これはやり直し)以外は、異常値は棄却するのではなく、工場では不良品のチェック、病院では患者の発見に利用される、ことを強調しておきます。
    • good
    • 0
この回答へのお礼

ご意見をいただきありがとうございます。

回帰線の中心からの2シグマの範囲からずれている測定値を棄却する考えかたがあるのですね。参考にしたいと思います。

ただし、回答者様に誤解があるように思われますので、以下のようにコメントさせていただきます。

まず、改良法(B)と標準法(A)を比較する時に、相関係数の有意または無為は系統誤差の有無を確認するのには直接的に役に立ちません。
系統誤差の有無の確認では、回帰直線の係数(切片と傾き)がそれぞれ0および1に等しいかどうかが重要です。(ここでいう等しいかどうかは係数の推定値の信頼区間で決定されます)
相関係数は、測定方法AまたはB法の精密さを表現するにとどまるものと思われます。

さらに、異常値がでたらやり直すのが基本とのことですが、一般業務ではそうかもしれませんね。
しかし、例えば共同試験などで試験所間の測定値の精密さを調査するときには、異常値の棄却は大変重要な考え方です。

質問者は、A法とB法の比較試験を計画的に一定の期間に、同一のオペレータにより実施しており、決して少なくないリソースを投入して試験を実施しております。経済的に真の値への推定精度を上げるためには必要な手段とお考え下さい。
(一般的な異常値の棄却検定方法であるコクランの検定やグラッブスの検定の考えかたを参考にしてくだされば、質問者の意図を汲み取っていただけるものと思います。)

今後ともよろしくお願いいたします。

お礼日時:2008/04/29 21:32

異常値のところで、実験方法を間違えたのですか。

この回答への補足

回答して下さりありがとうございます。
仰せの通り,試験操作を間違えたと推定されます。

技術的な誤りであればこれを正しい値に訂正するべきと思います。
しかし,質問者は,これを統計的な外れ値として取扱いたい場合の検定方法についてのコメントをいただきたいと思っております。よろしくお願いします。

補足日時:2008/04/25 23:17
    • good
    • 0

>異常値を棄却する…


そのような手法はないと思います。
再測定するか、全体の回帰を用いるか、のいずれかでしょう。
    • good
    • 0

このQ&Aに関連する人気のQ&A

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!

このQ&Aを見た人はこんなQ&Aも見ています

このQ&Aを見た人が検索しているワード

このQ&Aと関連する良く見られている質問

QExcelの近似曲線で外れ値(異常値)を除外したい

Excelの近似曲線についての質問です。実験データーを基にしたある散布図についての近似曲線を作りたいのですが、散布図の点の中に明らかに近似曲線に用いるのに不適な外れ値(異常値)があります。このような外れ値(異常値)を除外して他の値のみを用いた近似曲線を作る方法があれば教えてください。よろしくお願いします!

Aベストアンサー

>外れ値(異常値)を除外して
外れ値を別のデータ系列にして、他の値のみの系列を用いた近似曲線を描く
散布図のプロットの色を2つの系列とも同じにする。

QExcelを使ったはずれ値の検定

今、大学の卒論で水平方向でクロロフィル濃度を調べているものです。
私が計測したデータを処理するに当たって、私の主観ではなく根拠のある処理方法にのっとってはずれ値を抽出したいと考えています。
自力で色々と調べた結果、グラブス・スミルノフ検定を用いるのがよいと思ったのですが、Excelの中にはそれに対応した関数がありません。

外部のアドインソフトを用いれば可能なのですが購入するお金もなく困っております。

どなたかよい方法をご存知の方はぜひ教えていただきたいと思います。

※基本的にクロロフィル濃度のみではずれ値を出したいため、二軸のグラフなどは使用することができません。

Aベストアンサー

エクセルの関数に、グラブス・スミルノフ検定がずばり無いだけで、この検定に使う要素はエクセル統計関数にあるAVEDEVやSTDEV・・以下の関数が使えるのではないですか。
一度エクセルの統計関数の名前と機能簡単解説一覧をWEBから打ち出し、どれを使うか考えたら。
ーー
また
ユーザー関数という仕組み(VBA)があるので、順次段階的にそれらの関数を利用してできる(IFで場合分けも出来るが)ものなら、単独関数をまとめた関数を定義できますよ。
VBAの入り口ぐらいは勉強が必要だが。
ーーー
Googleで「グラブス・スミルノフ検定」で照会するのはやってみましたか。
http://software.ssri.co.jp/statweb2/sample/example_17.html
のようなものもあるようだ。

Q検量線について

発光強度を測定して物質の濃度を求めています。
毎回検量線を作っているのですが、実験を行うたびに検量線の式が(傾き、切片)違ってきます。
8点取るうち、r2=0.99以上になる範囲を使って濃度を求めているのですが、間違いですか?
0.99以上になる範囲は毎回違います。3点だったり、5点入ったり、上下も違います。
教えてください。

Aベストアンサー

>同一のものを2回測定とは?常に2連で行っていますが、いみないですか?
検量線の点数と精度は関係ないですか?

何点とるかは、研究者次第です。もちろん、点数が多ければ多いほど、平均化されるので、精度(バラつき)は上がります。が、確度(真の値にどれだけ近いか)は、無関係です。極端な話ですが、100と出るところを、50と出た場合、50に近い値がでて、平均値は50になっても、測定を何度繰り返しても、100に近づくことは無いでしょう。

 検量線の点は、それ自体に誤差を含んでいます。ですから、検量線の点は、点ではなく、その点を中心に、縦の(y軸方向の)誤差を表す短い線が見えないだけです。その線の長さは、その人の腕がよければ短く、悪ければ長いのです。

 ですから、「検量線は、なるべく点の近くをとおるように引け」ということになります。各々点は、絶対的に正しいものではなく、誤差を含んでいるのです。5点もとれば、その誤差を考慮した、もっともらしい検量線が引け、十分と考えるのが一般的でしょう。
 少なくとも、私はそう考えていて、検量線を2連引け、3連とれ、なんぞの指導も耳にしますが、それなら、5連、10連、いや100連でもとったらどうだ、反論するのですが。
 
 繰り返しになりますが、標準液から検量線を引いた場合、その全体を採用するか否かです。バラつきが多過ぎる(相関係数が、小さすぎる)と判断すれば、やり直します。
 その中から、気に入った点だけを採用する、というのは誤りです。もっとも、先に述べたように、グラフにしたあと、明確に1点が外れている、という場合はその点を外して、検量線を引くことは許されています。

 最少、なぜ5点必要かといえば、1点が外れる場合を想定しているからです。例えば、0を除いて、3点しかとっていないと、1点は明確な誤りだとして外すと、残りは2点になります。そうすると、0と点が2つ合計3点で、直線が引けないことはないのですが、自信がもてません。
 実際に、任意の3点を描き、それで検量線を引いて下さい。どうですか。もう一点、加えると信用度が格段にUPしませんか。

 蛍光の場合は、直線ではなく、縦軸を対数にすると、相関係数が高くなったりします。蛍光なら、0.95程度でも使用できるのでは。

 検量線が引けないのは、測定法自体に問題がありませんか。特に、バックグランドが高いと(下駄が高いとも表現します)、その影響が大きすぎることがあります。このような場合、前処理をすることが一般的です。

>同一のものを2回測定とは?常に2連で行っていますが、いみないですか?
検量線の点数と精度は関係ないですか?

何点とるかは、研究者次第です。もちろん、点数が多ければ多いほど、平均化されるので、精度(バラつき)は上がります。が、確度(真の値にどれだけ近いか)は、無関係です。極端な話ですが、100と出るところを、50と出た場合、50に近い値がでて、平均値は50になっても、測定を何度繰り返しても、100に近づくことは無いでしょう。

 検量線の点は、それ自体に誤差を含んでいます。ですから、検量...続きを読む

Q吸光光度法の検量線について

検量線を作成し、データーにばらつきが生じた場合はどのようにすべきなんでしょうか。無理やり線でつなぐのかなと思っているのですが・・回答をお願いします。

Aベストアンサー

 検量線を引くための標準液は、0を含めて、6点取っています。標準液を調製しやすいように、例えば、0、1、2、3、4、5 mg/mlなど。これを5点検量(0は、普通対照に利用するので)と称しています。4点の場合もあります。
 基本は、グラフを書いて、1点がヅレていたら、それは無視して検量線を引く。2点ズレテイタラ、こりはヒドイので、やり直す、と言うのが教科書です。

 正確にするために検量線を2連(2回)して、その平均を取る、というバカな教えをする教員もいますが(それなら、2連より10連、100連の方が正確、と毒づいています)。
 
 実験のテクニックが難しくて、全体がばらつく場合もあります。この場合は、5点ではなく、10点とか、測定する回数を増やしたりして、信頼性を高めるしかありません。検量線は、もちろんパソコンで引きます。また、サンプルの測定も、一回だけではなく、数回測定して、平均値を去る必要があります。

 化学反応は、バラツキマセン。しかし、生物のサンプルは、個体差があるので、最低3回は測定して、平均と標準偏差を示します。例えば、血糖値を測定するときに、血液中のグルコースの測定は、ばらつかないので1回で十分。しかし、A、B、Cサンそれぞれの値は異なるので、ヒトの血糖値となると、最低3人は測定しなければなりません。
 同じサンプルを測定して、値がばらつくのは単に腕が悪いだけです。学生だと5%程度、慣れると2%以内、分析のプロだと0.5%の誤差でもウルサク言います。
データがばらつく原因を考え、検量線とサンプルの測定回数を決めてください。

>無理やり線でつなぐのかなと思っているのですが
測定した点をつないだりしているのでしょうか。それはヤリマセン。昔は、測定した点の近くをなるべく通る直線(場合によっては曲線)を、慣れを頼りに引いていました。今ではパソコンがあるので、回帰式を出します。これが検量線になります。最近は、機器に検量線を自動的に描き、濃度まで計算しているのが、普通です。
 回帰式の相関係数が、0.98以上あれば信頼していますが、0.95だとやり直すかどうか迷います。

 検量線を引くための標準液は、0を含めて、6点取っています。標準液を調製しやすいように、例えば、0、1、2、3、4、5 mg/mlなど。これを5点検量(0は、普通対照に利用するので)と称しています。4点の場合もあります。
 基本は、グラフを書いて、1点がヅレていたら、それは無視して検量線を引く。2点ズレテイタラ、こりはヒドイので、やり直す、と言うのが教科書です。

 正確にするために検量線を2連(2回)して、その平均を取る、というバカな教えをする教員もいますが(それなら、2連より10連、10...続きを読む

Q検量線と定量範囲(初心者)

検量線の直線性(ex. R^2の最小値)と定量範囲の上限の判断の基準(ex. 直線範囲の上80%)はあるのでしょうか。
新しく制作した装置の検出下限・定量範囲などを決めるにあたって、検量線(線形回帰)を引いてみました。
その際、上限の6点でのR^2は0.9999~0.9991となり、このうちのいずれを採るべきか思案しています(x軸としてはたとえば6~11ngといった値)。
また定量上限についても手元にある資料にはその記述が見あたらなく、どのように判断すればよいかわかりません。

Aベストアンサー

「定量範囲=測定結果に再現性がある範囲」とすれば良いと思います。直線から外れてくる場所でも正確に再現性がとれているなら,それは正しい結果と捉えることが出来るでしょう。背景となっている理論に線形性があっても,実際の測定で線形性がないということは多々あることです。それは多くの場合,そこに線形性が保たれない別のファクターがあるからであり,測定自体が出来ていないわけではありません。

次に相関係数について,最小二乗法の結果を測定装置の検量線として使う場合,相関係数がいくらなら良いとか悪いとか言うのは変だと思います。相関係数を求めるのではなく,残差平方和から y 軸の標準偏差を求め(もしくは誤差の伝搬をさせて x 軸の標準偏差を求め),測定結果の信頼限界を求めるのが良いかと思います。

Q検量線

検量線とはどういったものなのか?
検量線を引くとはどういったことをすればいいのかおしえてください。

Aベストアンサー

masazo27さんの2番煎じとなりますが、改めて説明を試みたいと思います。
検量線を引くとは、測定器の固有差を見極め、その固有差を見極めた上で、未知試料について正確な測定を行うことを目的にしています。
例えば、ある水溶液中の砂糖の濃度を知ることが目的であるとします。砂糖の濃度を知ることが目的の検量線とは、砂糖0.1g、0.2g、0.3gをそれぞれ1Lの水に溶かし(あらかじめ濃度が既知の試料を作成し)、それを測定器にかけ、測定器の指示値を記録します。それを、横軸を濃度、縦軸を指示値にとったグラフ用紙に記入し、直線なり曲線で結びます(直線か、曲線かは理論的なものに依存します)。こうしてできたラインが検量線です。この検量線により、測定器の実際の指示値から濃度を推定できるようになります。ただし、検量線は濃度0.1~0.3g/Lの間で作成したので、その検量線の有効性もその間と言わざるを得ません。検量線から推定して1.5g/Lとでた場合には、その値の信憑性は低いと言わざるを得ないでしょう。その際は、O,1.0,2.0g/Lの既知試料等で検量線を引き直す必要があると思います。

masazo27さんの2番煎じとなりますが、改めて説明を試みたいと思います。
検量線を引くとは、測定器の固有差を見極め、その固有差を見極めた上で、未知試料について正確な測定を行うことを目的にしています。
例えば、ある水溶液中の砂糖の濃度を知ることが目的であるとします。砂糖の濃度を知ることが目的の検量線とは、砂糖0.1g、0.2g、0.3gをそれぞれ1Lの水に溶かし(あらかじめ濃度が既知の試料を作成し)、それを測定器にかけ、測定器の指示値を記録します。それを、横軸を濃度、縦軸を指示値にとったグラ...続きを読む

Q棄却検定方法について

データ数が6個くらいで異常値を棄却したいときにはどのような棄却検定方法があるのでしょうか?
例えば,3,4,2,10,3,4というデータのとき10を棄却したい場合の方法を教えてください。

Aベストアンサー

Grubs検定というのがあります。

参考URL:http://www.miyakonojo-nct.ac.jp/~a/staff/sharada/statistics.pdf

Qエクセル STDEVとSTDEVPの違い

エクセルの統計関数で標準偏差を求める時、STDEVとSTDEVPがあります。両者の違いが良くわかりません。
宜しかったら、恐縮ですが、以下の具体例で、『噛み砕いて』教えて下さい。
(例)
セルA1~A13に1~13の数字を入力、平均値=7、STDEVでは3.89444、STDEVPでは3.741657となります。
また、平均値7と各数字の差を取り、それを2乗し、総和を取る(182)、これをデータの個数13で割る(14)、この平方根を取ると3.741657となります。
では、STDEVとSTDEVPの違いは何なのでしょうか?統計のことは疎く、お手数ですが、サルにもわかるようご教授頂きたく、お願い致します。

Aベストアンサー

データが母集団そのものからとったか、標本データかで違います。また母集団そのものだったとしても(例えばクラス全員というような)、その背景にさらならる母集団(例えば学年全体)を想定して比較するような時もありますので、その場合は標本となります。
で標本データの時はSTDEVを使って、母集団の時はSTDEVPをつかうことになります。
公式の違いは分母がn-1(STDEV)かn(STDEVP)かの違いしかありません。まぁ感覚的に理解するなら、分母がn-1になるということはそれだけ結果が大きくなるわけで、つまりそれだけのりしろを多くもって推測に当たるというようなことになります。
AとBの違いがあるかないかという推測をする時、通常は標本同士の検証になるわけですので、偏差を余裕をもってわざとちょっと大きめに見るということで、それだけ確証の度合いを上げるというわけです。

Q統計学的に信頼できるサンプル数って?

統計の「と」の字も理解していない者ですが、
よく「統計学的に信頼できるサンプル数」っていいますよね。

あれって「この統計を調べたいときはこれぐらいのサンプル数があれば信頼できる」という決まりがあるものなのでしょうか?
また、その標本数はどのように算定され、どのような評価基準をもって客観的に信頼できると判断できるのでしょうか?
たとえば、99人の専門家が信頼できると言い、1人がまだこの数では信頼できないと言った場合は信頼できるサンプル数と言えるのでしょうか?

わかりやすく教えていただけると幸いです。

Aベストアンサー

> この統計を調べたいときはこれぐらいのサンプル数があれば信頼できる・・・
 調べたいどの集団でも、ある一定数以上なら信頼できるというような決まりはありません。
 何かサンプルを集め、それをなんかの傾向があるかどうかという仮説を検証するために統計学的検定を行って、仮設が否定されるかされないかを調べる中で、どの検定方法を使うかで、最低限必要なサンプル数というのはあります。また、集めたサンプルを何か基準とすべき別のサンプルと比べる検定して、基準のサンプルと統計上差を出すに必要なサンプル数は、比べる検定手法により計算できるものもあります。
 最低限必要なサンプル数ということでは、例えば、ある集団から、ある条件で抽出したサンプルと、条件付けをしないで抽出したサンプル(比べるための基準となるサンプル)を比較するときに、そのサンプルの分布が正規分布(正規分布解説:身長を5cmきざみでグループ分けし、低いグループから順に並べたときに、日本人男子の身長なら170cm前後のグループの人数が最も多く、それよりも高い人のグループと低い人のグループの人数は、170cmのグループから離れるほど人数が減ってくるような集団の分布様式)でない分布形態で、しかし分布の形は双方とも同じような場合「Wilcoxon符号順位検定」という検定手法で検定することができますが、この検定手法は、サンプルデータに同じ値を含まずに最低6つのサンプル数が必要になります。それ以下では、いくらデータに差があるように見えても検定で差を検出できません。
 また、統計上差を出すのに必要なサンプル数の例では、A国とB国のそれぞれの成人男子の身長サンプルがともに正規分布、または正規分布と仮定した場合に「t検定」という検定手法で検定することができますが、このときにはその分布を差がないのにあると間違える確率と、差があるのにないと間違える確率の許容値を自分で決めた上で、そのサンプルの分布の値のばらつき具合から、計算して求めることができます。ただし、その計算は、現実に集めたそれぞれのサンプル間で生じた平均値の差や分布のばらつき具合(分散値)、どのくらいの程度で判定を間違える可能性がどこまで許されるかなどの条件から、サンプル間で差があると認められるために必要なサンプル数ですから、まったく同じデータを集めた場合でない限り、計算上算出された(差を出すために)必要なサンプル数だけサンプルデータを集めれば、差があると判定されます(すなわち、サンプルを無制限に集めることができれば、だいたい差が出るという判定となる)。よって、集めるサンプルの種類により、計算上出された(差を出すために)必要なサンプル数が現実的に妥当なものか、そうでないのかを、最終的には人間が判断することになります。

 具体的に例示してみましょう。
 ある集団からランダムに集めたデータが15,12,18,12,22,13,21,12,17,15,19、もう一方のデータが22,21,25,24,24,18,18,26,21,27,25としましょう。一見すると後者のほうが値が大きく、前者と差があるように見えます。そこで、差を検定するために、t検定を行います。結果として計算上差があり、前者と後者は計算上差がないのにあると間違えて判断する可能性の許容値(有意確率)何%の確率で差があるといえます。常識的に考えても、これだけのサンプル数で差があると計算されたのだから、差があると判断しても差し支えないだろうと判断できます。
 ちなみにこの場合の差が出るための必要サンプル数は、有意確率5%、検出力0.8とした場合に5.7299、つまりそれぞれの集団で6つ以上サンプルを集めれば、差を出せるのです。一方、サンプルが、15,12,18,12,21,20,21,25,24,19の集団と、22,21125,24,24,15,12,18,12,22の集団ではどうでしょう。有意確率5%で差があるとはいえない結果になります。この場合に、このサンプルの分布様式で拾い出して差を出すために必要なサンプル数は551.33となり、552個もサンプルを抽出しないと差が出ないことになります。この計算上の必要サンプル数がこのくらい調査しないといけないものならば、必要サンプル数以上のサンプルを集めて調べなければなりませんし、これだけの数を集める必要がない、もしくは集めることが困難な場合は差があるとはいえないという判断をすることになるかと思います。

 一方、支持率調査や視聴率調査などの場合、比べるべき基準の対象がありません。その場合は、サンプル数が少ないレベルで予備調査を行い、さらにもう少しサンプル数を増やして予備調査を行いを何回か繰り返し、それぞれの調査でサンプルの分布形やその他検討するべき指数を計算し、これ以上集計をとってもデータのばらつきや変化が許容範囲(小数点何桁レベルの誤差)に納まるようなサンプル数を算出していると考えます。テレビ視聴率調査は関東では300件のサンプル数程度と聞いていますが、調査会社ではサンプルのとり方がなるべく関東在住の家庭構成と年齢層、性別などの割合が同じになるように、また、サンプルをとる地域の人口分布が同じ割合になるようにサンプル抽出条件を整えた上で、ランダムに抽出しているため、数千万人いる関東の本当の視聴率を割合反映して出しているそうです。これはすでに必要サンプル数の割り出し方がノウハウとして知られていますが、未知の調査項目では必要サンプル数を導き出すためには試行錯誤で適切と判断できる数をひたすら調査するしかないかと思います。

> どのような評価基準をもって客観的に信頼できると判断・・・
 例えば、工場で作られるネジの直径などは、まったくばらつきなくぴったり想定した直径のネジを作ることはきわめて困難です。多少の大きさのばらつきが生じてしまいます。1mm違っても規格外品となります。工場では企画外品をなるべく出さないように、統計を取って、ネジの直径のばらつき具合を調べ、製造工程をチェックして、不良品の出る確率を下げようとします。しかし、製品をすべて調べるわけにはいきません。そこで、調べるのに最低限必要なサンプル数を調査と計算を重ねてチェックしていきます。
 一方、農場で生産されたネギの直径は、1mmくらいの差ならほぼ同じロットとして扱われます。また、農産物は年や品種の違いにより生育に差が出やすく、そもそも規格はネジに比べて相当ばらつき具合の許容範囲が広くなっています。ネジに対してネギのような検査を行っていたのでは信頼性が損なわれます。
 そもそも、統計学的検定は客観的判断基準の一指針ではあっても絶対的な評価になりません。あくまでも最終的に判断するのは人間であって、それも、サンプルの質や検証する精度によって、必要サンプルは変わるのです。

 あと、お礼の欄にあった専門家:統計学者とありましたが、統計学者が指摘できるのはあくまでもそのサンプルに対して適切な検定を使って正しい計算を行ったかだけで、たとえ適切な検定手法で導き出された結果であっても、それが妥当か否か判断することは難しいと思います。そのサンプルが、何を示し、何を解き明かし、何に利用されるかで信頼度は変化するからです。
 ただ、経験則上指標的なものはあります。正規分布を示すサンプルなら、20~30のサンプル数があれば検定上差し支えない(それ以下でも問題ない場合もある)とか、正規分布でないサンプルは最低6~8のサンプル数が必要とか、厳密さを要求される調査であれば50くらいのサンプル数が必要であろうとかです。でも、あくまでも指標です。

> この統計を調べたいときはこれぐらいのサンプル数があれば信頼できる・・・
 調べたいどの集団でも、ある一定数以上なら信頼できるというような決まりはありません。
 何かサンプルを集め、それをなんかの傾向があるかどうかという仮説を検証するために統計学的検定を行って、仮設が否定されるかされないかを調べる中で、どの検定方法を使うかで、最低限必要なサンプル数というのはあります。また、集めたサンプルを何か基準とすべき別のサンプルと比べる検定して、基準のサンプルと統計上差を出すに必要な...続きを読む

Qエクセルで計算すると2.43E-19などと表示される。Eとは何ですか?

よろしくお願いします。
エクセルの回帰分析をすると有意水準で2.43E-19などと表示されますが
Eとは何でしょうか?

また、回帰分析の数字の意味が良く分からないのですが、
皆さんは独学されましたか?それとも講座などをうけたのでしょうか?

回帰分析でR2(決定係数)しかみていないのですが
どうすれば回帰分析が分かるようになるのでしょうか?
本を読んだのですがいまいち難しくて分かりません。
教えてください。
よろしくお願いします。

Aベストアンサー

★回答
・最初に『回帰分析』をここで説明するのは少し大変なので『E』のみ説明します。
・回答者 No.1 ~ No.3 さんと同じく『指数表記』の『Exponent』ですよ。
・『指数』って分かりますか?
・10→1.0E+1(1.0×10の1乗)→×10倍
・100→1.0E+2(1.0×10の2乗)→×100倍
・1000→1.0E+3(1.0×10の3乗)→×1000倍
・0.1→1.0E-1(1.0×1/10の1乗)→×1/10倍→÷10
・0.01→1.0E-2(1.0×1/10の2乗)→×1/100倍→÷100
・0.001→1.0E-3(1.0×1/10の3乗)→×1/1000倍→÷1000
・になります。ようするに 10 を n 乗すると元の数字になるための指数表記のことですよ。
・よって、『2.43E-19』とは?
 2.43×1/(10の19乗)で、
 2.43×1/10000000000000000000となり、
 2.43×0.0000000000000000001だから、
 0.000000000000000000243という数値を意味します。

補足:
・E+数値は 10、100、1000 という大きい数を表します。
・E-数値は 0.1、0.01、0.001 という小さい数を表します。
・数学では『2.43×10』の次に、小さい数字で上に『19』と表示します。→http://ja.wikipedia.org/wiki/%E6%8C%87%E6%95%B0%E8%A1%A8%E8%A8%98
・最後に『回帰分析』とは何?下の『参考URL』をどうぞ。→『数学』カテゴリで質問してみては?

参考URL:http://ja.wikipedia.org/wiki/%E5%9B%9E%E5%B8%B0%E5%88%86%E6%9E%90

★回答
・最初に『回帰分析』をここで説明するのは少し大変なので『E』のみ説明します。
・回答者 No.1 ~ No.3 さんと同じく『指数表記』の『Exponent』ですよ。
・『指数』って分かりますか?
・10→1.0E+1(1.0×10の1乗)→×10倍
・100→1.0E+2(1.0×10の2乗)→×100倍
・1000→1.0E+3(1.0×10の3乗)→×1000倍
・0.1→1.0E-1(1.0×1/10の1乗)→×1/10倍→÷10
・0.01→1.0E-2(1.0×1/10の2乗)→×1/100倍→÷100
・0.001→1.0E-3(1.0×1/10の3乗)→×1/1000倍→÷1000
・になります。ようするに 10 を n 乗すると元の数字になるた...続きを読む


このQ&Aを見た人がよく見るQ&A

人気Q&Aランキング