バラツキを考慮して平均を補正したい

Question

会社でちょっとした統計処理をしていて、 
バラツキを考慮して平均を補正するという作業をしたいのでが、、、 
なかなかうまくいきませなん。 

例1) a1=2, a2=2, a3=2 
例2) b1=-1, b2=0, b3=7 

例1)a1～a3の平均と、例2)b1～b3の平均はどちらも"2"です。 
しかし、例2)はb3だけが突出していて印象的には"2"よりも若干低めの、0～1ぐらいに補正したいのです。 
しかし、補正をするための数学的根拠が見つけられないのです（そもそも無いのか？）。 

私のつたない知識ですと、バラツキを現す手法としては標準偏差が思い当たりますが、 
例1)の標準偏差=0 
例2)の標準偏差=3.56 
なので、これを利用して何とかならないか、、、などなど考えています。 
平均値をバラツキを考慮して補正する、数学的根拠のある方法は存在するのでしょうか。

life55 · Accepted Answer

#3です．

まず．「補正」という考え方は捨てた方がいいと思います．
この種のデータの扱いにはいろいろあります．

１．例２の「７」を捨てる
　質問にも書かれているように，データの出所から考えて「７」はおかしいのだというのであれば，これを捨てます．残ったデータは，「－１と０」ですから，平均をとれば「-０．５」になりますね．
この場合は，「７」を捨てる理由が必要です．
１）異常値として扱う
測定ミス，記入ミスなどは，「異常値」と呼びます．
本来は，原因を追究して値を書き直さなければなりません．例えば，７ではなく，０．７だったとかいうことです．
異常値の場合には，３個のデータのうちの最大値だけを捨ててしまうのは，誤ったやり方です．
２）外れ値として扱う
これは，異なる母集団が混ざってしまった場合です．
例えば，「１と０は２０代の人の答え」「７は５０代の人の答え」であって，明らかに集団が違う場合には，２個のデータと１個のデータに分けてしまって構いません．
ですから，－１と０の平均をとって，答え「－０．５」として構いません．

２．本当に補正（というかどうか？）できないのか？
実はできないことはありません．
ただし，事前に分布が分かっていることが必要です．
世の中には「二段階推定法」などというのもありますが，「確率紙」を使ってみるのも手でしょう（どちらも分布の仮定が必要です）．
いま，データが３個ありますから，それぞれのデータが全体の何パーセントの位置なのかを計算します．
－１は３個の中の１番目ですから，１/（３＋１）＝０．２５，
０は３個の中の２番目ですから，２/（３＋１）＝０．５
７は使いません．
この２点を確率紙に打点し，確率紙に書いてある通りに線を引くと平均などが求まります．

３．その他の注意
３個のデータで平均をとってもあまり意味ありませんね．
１０個あるのなら，最小値，最大値を捨てて，８個で計算してもいいのではないかと思います．

larme001 · Answer

標準偏差σとは、平均を真ん中とした正規分布曲線（いわゆるベルカーブ）のように数値が分布しているとしたときに、その曲線の”太さ”をあらわします。σが大きいほど、教本の数値のズレが大きいということ、つまり分散が大きいといういみです。平均mとすると、m±σの範囲におよそ６８％のデータが現れるということで、実験レポートなどではm±σであらわします。たとえば質問の例２であれば、P=２±3.56などとです。(有効数字は考えていません。）ちなみに±２σでおよそ９５％、±３σで99.7%のデーターが含まれる範囲になります。

ただ、例の２のように一つだけ（例a3=7)明らかに測定ミスのような数値の場合はその実験が正しく行われなかったとして棄却することもあります。

また、標準偏差というのは、ある真の値からどれだけずれているのか、という傾向を示すだけのものですので、仮に正の方向に３ずれているのと、負の方向に3ずれているものは同じ誤差とみなされます。ので、「見た感じマイナス方向にずれるべきだ」といったような直感で±を選ぶのではなくて、あくまである値のまわりにどれだけの範囲でずれるかということを示しています。質問者さんが「マイナスにずれるような気がする」のはa3の値だけが（あくまで一つあるいは全体に対してごく少数が明らかに）異常に大きいからですので、こういう場合は「このデーターは異常だから何か人為的なミスがあった」と考え、データーからはずす方が適切だと思います。

life55 · Answer

データ数が何個あるのかというところが気になります．
データ数が多いのであれば，トリム平均（調整平均とか刈込平均とかともいいます．調和平均ではありません９というものを用いることもできます．
やり方は簡単で，データを大きさの順に並べて，両側から同じ数だけ取り除き，残りのデータで平均をもとめます．
２０個くらいのデータがあれば，最大値と最小値を捨てるくらいの感じでしょうかね．

ただし，大きい値も小さい値もデータの出所（母集団）の状態を表す大事なデータですので，本当は捨てない方がいいですね．
できれば，＃１さんの言うように，データの計測間違いや記入ミスが無かったかを確認してみるのが先決です．
ただ，この確認が上手く行えないときには，トリム平均を使ってみるといいでしょう．
一つだけ知っておいて欲しいのは，データの様子を表現するときには，平均のような「中心」を現す指標と，標準偏差のような「散らばり」の幅をあらわす指標の両方を使うのが基本です．
例１と例２では，平均は同じでも標準偏差は違いますよね．
さらに，中心からのズレや中心へのデータの集まり方をみたいのであれば，それぞれ歪み（ひずみ），尖り（とがり）などの指標を使います．

NNori · Answer

１．最大と最小を除いてから平均値をとる。
２．大きい方数％と小さい方数％を除いて平均値をとる。
２．平均ではなく真ん中の数字をとる。
というのが一般的だと思います。例えばフィギアスケートの得点とかは１ですよね。

noname#58440 · Answer

測定値の補正は数学的にする事は無いと思います。
補正が必要な時は技術的に行います。
b3は測定の方法や測定条件に異常があったとか、測定系の問題で無いとしても技術的観点から除外すべきデータだとか、技術的専門知識を元にデータの選択、補正をします。

バラツキを考慮して平均を補正したい

#3です．

標準偏差σとは、平均を真ん中とした正規分布曲線（いわゆるベルカーブ）のように数値が分布しているとしたときに、その曲線の”太さ”をあらわします。

データ数が何個あるのかというところが気になります．

１．最大と最小を除いてから平均値をとる。

似たような質問が見つかりました

このQ&Aを見た人はこんなQ&Aも見ています

関連するカテゴリからQ&Aを探す

このQ&Aを見た人がよく見るQ&A

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング