会社でちょっとした統計処理をしていて、
バラツキを考慮して平均を補正するという作業をしたいのでが、、、
なかなかうまくいきませなん。
例1) a1=2, a2=2, a3=2
例2) b1=-1, b2=0, b3=7
例1)a1~a3の平均と、例2)b1~b3の平均はどちらも"2"です。
しかし、例2)はb3だけが突出していて印象的には"2"よりも若干低めの、0~1ぐらいに補正したいのです。
しかし、補正をするための数学的根拠が見つけられないのです(そもそも無いのか?)。
私のつたない知識ですと、バラツキを現す手法としては標準偏差が思い当たりますが、
例1)の標準偏差=0
例2)の標準偏差=3.56
なので、これを利用して何とかならないか、、、などなど考えています。
平均値をバラツキを考慮して補正する、数学的根拠のある方法は存在するのでしょうか。
No.4ベストアンサー
- 回答日時:
#3です.
まず.「補正」という考え方は捨てた方がいいと思います.
この種のデータの扱いにはいろいろあります.
1.例2の「7」を捨てる
質問にも書かれているように,データの出所から考えて「7」はおかしいのだというのであれば,これを捨てます.残ったデータは,「-1と0」ですから,平均をとれば「-0.5」になりますね.
この場合は,「7」を捨てる理由が必要です.
1)異常値として扱う
測定ミス,記入ミスなどは,「異常値」と呼びます.
本来は,原因を追究して値を書き直さなければなりません.例えば,7ではなく,0.7だったとかいうことです.
異常値の場合には,3個のデータのうちの最大値だけを捨ててしまうのは,誤ったやり方です.
2)外れ値として扱う
これは,異なる母集団が混ざってしまった場合です.
例えば,「1と0は20代の人の答え」「7は50代の人の答え」であって,明らかに集団が違う場合には,2個のデータと1個のデータに分けてしまって構いません.
ですから,-1と0の平均をとって,答え「-0.5」として構いません.
2.本当に補正(というかどうか?)できないのか?
実はできないことはありません.
ただし,事前に分布が分かっていることが必要です.
世の中には「二段階推定法」などというのもありますが,「確率紙」を使ってみるのも手でしょう(どちらも分布の仮定が必要です).
いま,データが3個ありますから,それぞれのデータが全体の何パーセントの位置なのかを計算します.
-1は3個の中の1番目ですから,1/(3+1)=0.25,
0は3個の中の2番目ですから,2/(3+1)=0.5
7は使いません.
この2点を確率紙に打点し,確率紙に書いてある通りに線を引くと平均などが求まります.
3.その他の注意
3個のデータで平均をとってもあまり意味ありませんね.
10個あるのなら,最小値,最大値を捨てて,8個で計算してもいいのではないかと思います.
再びありがとうございます。
そうですね、異常値があるという前提では補正は意味がないと思います。しかし、(大事な前提を書き忘れたのですが)今回の事例は基本的に異常値がありません。ですから、例2の7という数値を除外してしまうことに、少し違和感を覚えてしまうのです。
かといって単純平均ですと、7の影響が強すぎると思い、悩んでいるわけです。
life55さんの
2.本当に補正(というかどうか?)できないのか?
からヒントを得て以下の方法を考えました(今回のデータは正規分布していると考えて問題ありません)。
例2の場合、
b1=-1, b2=0, b3=7
の正規分布確率密度関数f(x)を求める。
f(b1)=0.072222754
f(b2)=0.082379292
f(b3)=0.047403806
となります。
これを加重平均したものが求める補正平均値。即ち、
b1*f(b1)/(f(b1)+f(b2)+f(b3))
+b2*f(b2)/(f(b1)+f(b2)+f(b3))
+b3*f(b3)/(f(b1)+f(b2)+f(b3))
=0.428376842
となりました。
このようなやり方は、ヘンでしょうか?
No.5
- 回答日時:
標準偏差σとは、平均を真ん中とした正規分布曲線(いわゆるベルカーブ)のように数値が分布しているとしたときに、その曲線の”太さ”をあらわします。
σが大きいほど、教本の数値のズレが大きいということ、つまり分散が大きいといういみです。平均mとすると、m±σの範囲におよそ68%のデータが現れるということで、実験レポートなどではm±σであらわします。たとえば質問の例2であれば、P=2±3.56などとです。(有効数字は考えていません。)ちなみに±2σでおよそ95%、±3σで99.7%のデーターが含まれる範囲になります。ただ、例の2のように一つだけ(例a3=7)明らかに測定ミスのような数値の場合はその実験が正しく行われなかったとして棄却することもあります。
また、標準偏差というのは、ある真の値からどれだけずれているのか、という傾向を示すだけのものですので、仮に正の方向に3ずれているのと、負の方向に3ずれているものは同じ誤差とみなされます。ので、「見た感じマイナス方向にずれるべきだ」といったような直感で±を選ぶのではなくて、あくまである値のまわりにどれだけの範囲でずれるかということを示しています。質問者さんが「マイナスにずれるような気がする」のはa3の値だけが(あくまで一つあるいは全体に対してごく少数が明らかに)異常に大きいからですので、こういう場合は「このデーターは異常だから何か人為的なミスがあった」と考え、データーからはずす方が適切だと思います。
ご回答ありがとうございます。
下の方のお礼にも書きましたが、今回の前提として
・異常値がない
・正規分布と考えて問題ない
というものがあります。とすると、7を除外せずに補正する方法があるような気がしてならないのです・・・
No.3
- 回答日時:
データ数が何個あるのかというところが気になります.
データ数が多いのであれば,トリム平均(調整平均とか刈込平均とかともいいます.調和平均ではありません9というものを用いることもできます.
やり方は簡単で,データを大きさの順に並べて,両側から同じ数だけ取り除き,残りのデータで平均をもとめます.
20個くらいのデータがあれば,最大値と最小値を捨てるくらいの感じでしょうかね.
ただし,大きい値も小さい値もデータの出所(母集団)の状態を表す大事なデータですので,本当は捨てない方がいいですね.
できれば,#1さんの言うように,データの計測間違いや記入ミスが無かったかを確認してみるのが先決です.
ただ,この確認が上手く行えないときには,トリム平均を使ってみるといいでしょう.
一つだけ知っておいて欲しいのは,データの様子を表現するときには,平均のような「中心」を現す指標と,標準偏差のような「散らばり」の幅をあらわす指標の両方を使うのが基本です.
例1と例2では,平均は同じでも標準偏差は違いますよね.
さらに,中心からのズレや中心へのデータの集まり方をみたいのであれば,それぞれ歪み(ひずみ),尖り(とがり)などの指標を使います.
ご回答ありがとうございます。
詳しい解説、とても参考になりました。
母集団のデータ数は3~10ぐらいで、あまり多くないのです・・・
ですから、端から数%を捨てるという方法は少し難しい気がします。
>平均のような「中心」を現す指標と,標準偏差のような「散らばり」の幅をあらわす指標の両方を使うのが基本
平均と標準偏差や歪み、尖りを組み合わせて補正するのでしょうか。具体的な方法をご教授いただけないでしょうか・・・
No.1
- 回答日時:
測定値の補正は数学的にする事は無いと思います。
補正が必要な時は技術的に行います。
b3は測定の方法や測定条件に異常があったとか、測定系の問題で無いとしても技術的観点から除外すべきデータだとか、技術的専門知識を元にデータの選択、補正をします。
ご回答ありがとうございます。
技術的専門知識を元にデータの選択するのですか・・・
扱っている問題が工学的ではないので、選択除外をするための判断基準が微妙です。
今いろいろと調べているのですが、歪度というものを利用できないでしょうか?(すみません、質問ばかりで・・・)
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
似たような質問が見つかりました
- 統計学 3シグマ管理 10 2022/09/02 07:29
- 統計学 Excelによるサンプルの拡大について 6 2023/08/22 16:03
- 統計学 信頼区間についての質問です。 6 2023/06/25 17:34
- 統計学 統計学についての質問です。 2標本問題で A: サイズ32 平均62.2 標準偏差11.0 B: サ 2 2023/02/08 14:15
- 大学・短大 大学 統計学 1 2022/09/14 11:27
- 統計学 確率統計の問題です。 3 2022/04/07 04:39
- 統計学 確率統計の問題です。 4 2022/07/26 23:37
- 統計学 統計量および正規分布と分散の加法性の演習問題です。 5 2023/07/29 10:46
- 統計学 統計学の質問【帰無仮説】 大学で、現在の在籍者の平均通学時間が60分であるという帰無仮説を、それが6 8 2023/05/23 20:56
- 統計学 以下の問題が分からないので計算式を教えてください ある企業が製造している電球の寿命の母平均と,母標準 3 2023/01/14 00:43
このQ&Aを見た人はこんなQ&Aも見ています
-
好きな人を振り向かせるためにしたこと
大好きな人と会話のきっかけを少しでも作りたい、意識してもらいたい…! 振り向かせるためにどんなことをしたことがありますか?
-
【大喜利】【投稿~1/9】 忍者がやってるYouTubeが炎上してしまった理由
【お題】・忍者がやってるYouTubeが炎上してしまった理由
-
【お題】逆襲の桃太郎
【大喜利】桃太郎が1回鬼退治に失敗したところから始まる新作昔話「リベンジオブ桃太郎」にはこんなシーンがある
-
【選手権お題その1】これってもしかして自分だけかもしれないな…と思うあるあるを教えてください
「出身中学と出身高校が混ざったような校舎にいる夢を見る」「まぶたがピクピクしてるので鏡で確認しようとしたらピクピクが止まってしまう」など、 これってもしかして自分だけかもしれないな…と思うあるあるを教えてください
-
「これいらなくない?」という慣習、教えてください
現代になって省略されてきたとはいえ、必要性のない慣習や風習、ありませんか?
-
工程能力のN数補正について
数学
-
標準偏差の補正について
数学
おすすめ情報
- ・「みんな教えて! 選手権!!」開催のお知らせ
- ・漫画をレンタルでお得に読める!
- ・「これいらなくない?」という慣習、教えてください
- ・今から楽しみな予定はありますか?
- ・AIツールの活用方法を教えて
- ・【選手権お題その3】この画像で一言【大喜利】
- ・【お題】逆襲の桃太郎
- ・自分独自の健康法はある?
- ・最強の防寒、あったか術を教えてください!
- ・【大喜利】【投稿~1/9】 忍者がやってるYouTubeが炎上してしまった理由
- ・歳とったな〜〜と思ったことは?
- ・ちょっと先の未来クイズ第6問
- ・モテ期を経験した方いらっしゃいますか?
- ・好きな人を振り向かせるためにしたこと
- ・【選手権お題その2】この漫画の2コマ目を考えてください
- ・【選手権お題その1】これってもしかして自分だけかもしれないな…と思うあるあるを教えてください
- ・スマホに会話を聞かれているな!?と思ったことありますか?
- ・それもChatGPT!?と驚いた使用方法を教えてください
- ・見学に行くとしたら【天国】と【地獄】どっち?
- ・これまでで一番「情けなかったとき」はいつですか?
- ・この人頭いいなと思ったエピソード
- ・あなたの「必」の書き順を教えてください
- ・14歳の自分に衝撃の事実を告げてください
- ・人生最悪の忘れ物
- ・あなたの習慣について教えてください!!
- ・都道府県穴埋めゲーム
このQ&Aを見た人がよく見るQ&A
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
統計学の問題なんですが・・・
-
標準偏差について詳しい方お願...
-
平均点と標準偏差から最低点を...
-
加重平均(重み付き平均)の標...
-
標準偏差の和と差
-
どなたか偏差値の計算をお願い...
-
アンケート集計で、満足度の平...
-
比率(%) の平均値を算出する場...
-
平均値と最小自乗平均値
-
データの加重平均について
-
4つのサイコロを同時に振って...
-
数学の質問です。 一枚の硬貨を...
-
一般常識を教えてください。1割...
-
2つのサイコロの目の合計が偶数...
-
サイコロ5個を同時に投げて任意...
-
異なる4つのサイコロを同時に投...
-
サイコロを4回投げるとき、3の...
-
1個のサイコロを3回続けて投げ...
-
重複順列
-
2つのサイコロを投げた時、目...
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
統計学の問題なんですが・・・
-
標準偏差について詳しい方お願...
-
加重平均(重み付き平均)の標...
-
標準偏差の平均値の求め方
-
平均-3σの考え方を教えてくださ...
-
標準偏差の計算方法
-
標準偏差の「数値」による判断...
-
バラツキを考慮して平均を補正...
-
標準偏差の和と差
-
データの加重平均について
-
縦計算と横計算で平均が合わない。
-
統計学の二乗平均がわからない
-
比率(%) の平均値を算出する場...
-
平均値と標準偏差からテストデ...
-
計数秤での員数不足対策について
-
得点を補正する方法について
-
統計学です。
-
平均点と標準偏差から最低点を...
-
クラスの人数と平均点のみから...
-
S管理図の管理限界線の求め方に...
おすすめ情報