統計学における有効数字について質問です。

Question

8月末に大学で統計学の試験があり、そのときに有効数字が合っていないと減点をすると言われたので、どうか宜しくお願いいたします。
以下のようにデータが与えられていたとして問いに有効数字に気をつけて答えるととしたらどうなりますか？　なぜその桁数になるのか理由も教えていただけると助かります。僕が関数電卓（試験は電卓使用可）で出した答えを記しておきます。
ある集団に属する13名の中性脂肪を測定し、下記測定結果を得た：
92、62、76、37、57、39、52、60、45、52、170、117、34 [mg/dL]
この標本の中央値、四分位偏差、平均値、不偏分散、不偏標準偏差を求めよ。
僕の解）
データを昇順に並べると、
34、37、39、45、52、52、57、60、62、76、92、117、170
よって中央値は57
四分位偏差は21
（多分ここまでの有効数字は問題ないと思います）
平均値は、68.6923…
不偏分散は、1471.5641…
不偏標準偏差は、38.3609…
本当はこの後に母平均の95%信頼区間、母分散の95%信頼区間を求める問題もあります。このとき、平均値や不偏分散や不偏標準偏差の値を使いますが、その場合は1桁多くとってその位以下を切り捨てた値を用いればいいのでしょうか。そして、統計量を求めたときにはどの有効数字に合わせるのでしょうか。
あと、この大問の最後に「不偏標準偏差と標準誤差の違いを記し、それぞれどのような用途があるか説明せよ。」という問いがあるのですが、これの解答は何と答えればよいでしょうか。
長々と失礼しました。どうぞよろしくお願い致します。

yhr2 · Accepted Answer

有効数字とは、要するに「誤差」の簡易的な処理方法です。

「有効数字２桁」とは
　 0.XX ± 0.005
「有効数字５桁」とは
　 0.XXXXX ± 0.000005
ということです。

例えば、「有効数字２桁」と「有効数字５桁」とのかけ算をすれば、その誤差は
　(0.XX ± 0.005) × (0.XXXXX ± 0.000005) ≒ 0.YYYYY ± 0.005005X
ぐらいになります。
ということで、「有効数字２桁」の方の誤差が結果の誤差の決定要因になります。
なので、計算結果の「誤差を除いた信頼できそうな値」は「２桁」程度になってしまうということです。

上の例は「かけ算」「割り算」の場合です。
これに対して、「足し算」「引き算」の場合には、「桁の数」ではなく、実際の「桁」の比較になります。
つまり
　XXX.XX ± 0.005　←有効数字は小数点以下２桁まで
と
　XXXXX.XXXXX ± 0.000005　←有効数字は小数点以下５桁まで
を足し合わせると
　(XXX.XX ± 0.005) + (XXXXX.XXXXX ± 0.000005) ≒ YYYYYY.YYYYY ± 0.005005
となって、結果は有効数字は小数点以下２桁までということになります。整数部分が何桁あろうが、一番下の有効桁が大きい方で決まります。
　
あくまで「簡易評価」ですので、まあ、そのぐらいなら誤差は元の誤差と同じ程度と考えられるでしょ、という程度の計算手法です。上の計算式もかなり「ドンブリ勘定」な計算です。
正確には、きちんと「誤差評価」をしないといけないのですが、これは結構面倒なので、「有効数字」という簡易判定で済ませているのです。ですから、そんなに「厳密な」「高級な」ものと考える必要はありません。「四捨五入」に毛の生えた程度のものです。

お示しの例でいえば、「有効数字2桁、あるいは3桁」と考えるよりは、「整数値」と考えればよいと思います。
ただし、「平均値」「分散」「不偏分散」などは、それを単独で表記する場合に対して、計算で使用する場合には2桁程度多くとって、最終計算結果を「有効桁数」に丸める方法で求めるようにした方がよいでしょう。１桁多いだけでは誤差がかなり累積され、有効数字の範囲にまで影響する可能性がありそうなので。

平均値は、68.6923…　→　69
不偏分散は、1471.5641…　→　1472
不偏標準偏差は、38.3609…　→　38

＞「不偏標準偏差と標準誤差の違いを記し、それぞれどのような用途があるか説明せよ。」

「不偏標準偏差と標準誤差の違い」は統計のテキストなら必ず載っているでしょう？
「不偏標準偏差」は、「母集団」の分散が分からないときに「標本」のデータから母分散を推定するものです。分散を求めるときに、母平均が不明なので「標本平均を使う」ために自由度が１つ減って「n - 1」で割るということになります。
標本から求めた「不偏分散」は、「母分散の推定値の期待値」になります。
「標準誤差」は、「母分散 σ² から n 個の標本を採ると、その標準誤差は σ²/n 」ですね（中心極限定理）。
つまり、(不偏分散)*(n - 1) = (標準誤差)*n という関係。
それぞれの定義と考え方、そして必要なら数学的な証明を記載すればよろしいかと思います。
このあたり、「標本分散」と「不偏分散」、「標準誤差」がごちゃごちゃするので、その「区別」がきちんとできているかを確認するものでしょうね。

用途？　例に書かれた「母平均の推定」、その過程で必要な「母分散の推定」ということでしょうか？

統計学における有効数字について質問です。

有効数字とは、要するに「誤差」の簡易的な処理方法です。

このQ&Aを見た人はこんなQ&Aも見ています

関連するカテゴリからQ&Aを探す

このQ&Aを見た人がよく見るQ&A

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング