重要なお知らせ

「教えて! goo」は2025年9月17日(水)をもちまして、サービスを終了いたします。詳細はこちら>

電子書籍の厳選無料作品が豊富!

こんにちは。
母平均の推定についてご教授ください。
研究の一環で、ある水路の物質Aの母平均推定を行いたい思っております。
水路の状況は以下のとおりです。
・水深3m。
・物質Aの濃度は水深に応じて濃度が高くなる傾向があり、鉛直方向の平均値を水路の物質Aの濃度とします。

この水路から20cmずつサンプルを採取し、合計15個の観測値を得ました。
そこで、3つほど質問です。
①母平均推定方法について。
②標準偏差の算出方法。
③誤差を20ppm程度とした場合の必要な標本数。

私の考えとしましては
①母平均の推定方法について
・n個の標本から、n個の平均値を計算する。
・n個の平均値を新たな標本とみなし、t分布を使用して母平均を推定する。
・使用する標準偏差は②
・n個の標本数は③

②標準偏差について
・群間分散(もしくは群内分散)を使用して、標準偏差を計算する。

③必要な標本数について
・信頼区間を95%とし、t分布を使用して計算する。
・計算式は(2S×t(n)/20)^2
・Sは②を使用する。
・最初はある程度の当たりをつけるため、t分布ではなくz=1.96を使用して計算する。
(あるサイトで、このようなに標本数の計算を行うことは少ないと見ました。実際あまり計算することは少ないのでしょうか?)

以上です。
私自身、統計学の勉強を始めたばかりであり、わからないことも多くあります。
周囲に統計学に熟知した人もおらず、今回始めて質問させていただきました。
突拍子もない計算をしていたら、素人考えと思っていただけると幸いです。

質問者からの補足コメント

  • 2つに渡って詳しく回答いただきありがとうございます。とても勉強になりました。
    恐縮ですが、加えて質問させてください。
    私の目的に「この水路の代表値を得たい」があります。
    そこで、その水路の濃度を“鉛直方向の平均値”と定義した場合、複数日で採水されたn個の標本のn個の平均値はバラツクのではないでしょうか。だとすると①の母平均推定が可能になると思うのですがどうでしょう。
    もしくは、界隈の常識として濃度分布している標本の平均値を比較することは不適切であり、安直な定義や母平均の推定を行うべきものではないのでしょうか。
    長文ですいません。複雑な回答となればYES/NOでも構いませんので是非ご教授ください。

    No.2の回答に寄せられた補足コメントです。 補足日時:2024/10/07 07:42

A 回答 (6件)

No.5です。



研究成果として、濃度の平均値を比較するためにグラフにプロットすると思います。

そのとき、平均値を●で、その上下にエラーバーを付与することになると思いますが、そのエラーバーの長さが、以前に述べた誤差ε によって求められます。

εを各観測の偏差とすると、偏差平方和をn数で割って平方根を取ったものがs(標本標準偏差)です。そこから誤差の95%信頼限界をt分布を用いて求めます。

それが、各プロットに付与されるエラーバーの長さになります。

これは平均値まわりの「不確かさ」であり、全水深に渡る濃度変化幅ではありません。

全水深に渡る濃度変化幅は、平均値比較においては意味がありません。
平均値まわりの不確かさを越える平均値の差があるとき、「差は有意である」という言い方をします。
    • good
    • 0

No.4様のご意見は思慮深い内容が述べられたもので、大いに参考になります。



ただ、1点、『それら15個のサンプルを全部同量ずつ、ひとつの容器に入れて攪拌して一つのサンプルにしてしまってから1回だけ測定しても同じです。』には賛同しかねます。

平均値はそれでOKですが、濃度ばらつき(誤差)は違います。水深依存分という説明可能な変動を取り除く必要があります。

本質問は「その日の濃度の平均とばらつき」という群内に関する議論であって、季節や景気といった群間の議論は切り離して考えるべきものだと思います。

というか、ご質問者の研究は、季節や景気といった日間の変化の原因追及であるのはないでしょうか。一日(群内)の代表値の正確な算出は、その第一歩となるゆえ、現状のアプロ―チ(20cmずつサンプリングする)が良いと思います。

その日の平均とばらつきが正確に把握できて初めて日間の変化の把握が可能になります。

このとき、誤差の大きさ(寄与率=決定係数=重相関係数の2乗)は、その日の濃度を説明するために「水深以外の因子があるのではないか」という考察に重要な役割を果たします。
ここに統計が役立ちます。

これらの因子による補正をしっかり行わないと、その後の研究がツッコミどころ満載になってしまいます。
    • good
    • 1

一体どんなデータを集めてどう使おうとしているのかが書いてないので、色々ギモン点があるご質問です。



●ご質問は1回のサンプリングで完結する話なのか、繰り返し行うサンプリングの話なのか。水路という以上は流れがあり、物質Aの濃度はいつも一定というわけではなくて経時的に変化するのでは? 例えば工場の排水に含まれる毒物の濃度を測っているのだとすると、(だったら単位時間あたりの排出量も計算したいに違いなく、それには同時刻の流量も測らなくては。で、)1日の間にどう変化するか、操業していない日はどうか、季節変化はないか、景気指標との相関はないか、などなどを知るためのデータを得たいだろう。それには、定期的に(目的に応じて例えば10分間隔、1時間間隔、1日間隔などで)サンプルを採ってそれを測定するという作業何度も繰り返して、「どの時刻にはどういう濃度だった」ということを、知りたい興味のある現象のスケールに応じた期間を通して蓄積する必要がある。
 もしそうなら、サンプルの採取を繰り返すことは(「水路の水の物質Aの濃度」という母集団からのランダムサンプリングを繰り返したのではなく)「採取した時刻における水路の水の物質Aの濃度」というそれぞれ異なる母集団から1個ずつのサンプルを得ることに他なりません。(だから「母平均」なんて話に出番はない。)
 また、"深さが20cmずつ違う15個のサンプル"を"同時"に採取するのでなくては意味がない。ここで"同時"というのは水路の濃度変化の時間スケールで見て「この時間内なら十分高い精度で濃度が一定だと考えてよい」という時間範囲内に採取が完結する、ということです。

●濃度の鉛直方向の分布を知る、ということは目的外なのではないか。
もしそうなら、"深さが20cmずつ違う15個のサンプル"を別々に測定してから平均を出す代わりに、それら15個のサンプルを全部同量ずつ、ひとつの容器に入れて攪拌して一つのサンプルにしてしまってから1回だけ測定しても同じです。

●"20ppm"とおっしゃるのは何の数値なのか。(a) 相対不確かさの大きさ(測定値の不確かさが、測定値の2×10⁻⁵ 倍ぐらい)のこと? あるいは(b) 濃度の測定単位がppmであって、絶対不確かさの大きさ(測定値±20 [ppm])のこと?
 もし(a)であれば、有効数字が5桁もある測定は、よほどよく管理された実験室内での物理測定ですら、なかなか実現できません。ことに1回きりしかサンプルが取れない状況ではモノスゴイ精密計器を使った超精密な実験装置が必要。水路なんかでは到底無理です。
 もし(b)であれば、濃度を計測する器具自体が持つ不確かさはどの程度なのかを知る必要がある。単一のサンプルに対して、例えば不確かさが±100ppmの器具を使って±20ppmを達成するのは無理で、というのも「単一のサンプルを同じ器具で何度も測る」ということをやっても、(測定ごとに測定値に±100ppmのブレが生じるわけではなくて)単に毎回同じ値が出るだけのことだから。

 ですから、いずれにしても統計処理には出番がない。要点は:
・十分な量のサンプルを採る。(サンプルがあまりに微量だと、サンプルを取り扱う間に汚染、蒸発、沈殿が生じて、濃度が変化してしまう恐れがある。)
・十分な性能(有効数字と再現性)を持つ計測器を使う。これが測定値の不確かさを決める主要因に違いなく、(「同じ母集団から繰り返しサンプリングすること」ができないのですから)統計処理で改良できるものではない。
・サンプルの水の中にも濃度ムラは生じうるので、よく攪拌して測る。
 攪拌不足が不確かさの要因になる恐れ(はちょっと考えにくいが、でもそういうこと)がないとは言い切れないので、同じサンプルについて、攪拌しては測る、ということを何度か繰り返してみるという予備実験をやると良いでしょう。この繰り返しは「同じ母集団から繰り返しサンプリングすること」になっているから、測定値のバラツキを調べることには意味があり、それが(計測器の限界で)検出できないほど小さいのであれば、「攪拌しては測ることを繰り返しても意味がないな」とわかる。
    • good
    • 0

No.1です。

コメントありがとうございます。

> ①の母平均推定が可能になると思うのですがどうでしょう。

はい。①母平均については問題がないので、言及しませんでした。

式で表すと、xを水深、yを濃度、誤差をε としたら、

y=f(x) + ε

です。濃度yの代表値は、yの平均ですので、f(x)がどうであれ、ご質問に書いてある方法で求められます。

ばらつきε は、観測値yからf(x) である「水深依存分」を取り除いた残りです。
f(x)のような原因のある変動は回帰変動と言い、偶然誤差ε とは区別します。

なお、通常xは「単純ランダムサンプリング」を行うのですが、一定間隔である「系統サンプリング」でも問題ありません。
いずれも、散布図を描くと、水深と濃度は相関のあるプロットになります。
そのy方向の重心がyの平均です。xは関係ありません。

次に、散布図の傾きを0°にするようf(x)の値を引くと、水平にプロットされるようになりますが、そのときの上下の幅が誤差になります。


あと、複数日の件ですが、日々の変化は日間変動(群間変動)です。
一方、一日のデータから上記の方法で求めたばらつきは群内変動です。
これらは別物です。

通常、群間変動は、日々の平均値の変化として記録されます。そのばらつきが群間変動です。

上述のように式で書くと、

y=a + bx + ε

で、切片a が日によって変化するという状況になります。
複数日のデータを用いるときは、εの計算時に注意が必要です。なぜなら、aはさらに液温の関数になっている可能性が高いからです。

これは、日々の平均値とその日の液温の散布図を描いてみれば判明します。
    • good
    • 0

No.1です。



同一水深での濃度ばらつきを現データから推定する方法はあります。

現データから、横軸を水深、縦軸を濃度というグラフを描くと、そのプロットに何らかの近似線が引けます。

その近似線(濃度の予測値)と実測値との偏差(残差)があります。
残差平方和の平均(MSE)の平方根が濃度ばらつきです。

なお、これには、測定のばらつき(繰り返し精度、併行精度)が重畳しています。
この回答への補足あり
    • good
    • 1

水深に伴う濃度の変化は、ばらつきではなく濃度分布です。


ですから、標準偏差の算出方法は間違いです。

同一水深で測定を繰り返したときに出てくるばらつきが、濃度のばらつきです。

やっかいなことに、このばらつきの中に、実際の物質のばらつき(再現精度)と測定のばらつき(繰り返し精度)が重畳しています。

ばらつきを20ppm以下にしたいと思っても、物質のばらつきが大きければ、叶うことはありません。

20ppmが測定のばらつきのみを指しているのであれば、ゲージR&Rの実験を組んで、両者を分解する必要があります。
    • good
    • 2

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!