加重(重み付き)平均について、これまでの類似の質問を読んでもわからないことがあるので
お教え下さい。共通テストでの各小学校ごとの平均点の加重平均や平均株価などでは、重みが
生徒数や株式発行数になるのは理解できるのですが、単なる測定データの場合は重みはどうす
ればよいのでしょう。例えば、理論的には同じ値になる(どんな値になるかはわからない)は
ずの測定を100回したとすると、得られた値はばらつくのですが、普通に相加平均をとると、
すごく他から離れた値があったりした時に、悪い結果になってしまいます。そういう値の影響
を小さくするために相加平均ではなく加重平均を取りたい訳なんですが、その場合の重みは、
一応、相加平均を計算して、「それぞれの値と相加平均との差の絶対値の逆数」ということで
良いのでしょうか。それとも別のもっといい方法があるのでしょうか。よろしくお願いします。
No.1ベストアンサー
- 回答日時:
ご質問の3行目までを拝見すると、加重平均を正しく理解していらっしゃることが分かります。
要するに「データが幾つかのグループに分けてあって、各グループの平均値が分かっている。ここで、全部のデータの平均を計算したい。その場合、全部のデータから平均値を計算し直す代わりに、グループの平均値を利用して同じ答を簡単に計算できる」というだけの、単なる「要領の良い計算方法」に過ぎません。一方、ご質問の問題は、計算の形としては加重平均と同じことになるけれども、その意味が全く違いますので、区別が必要です。
[1] まず「平均値って数学的にはどういう意味なのか」を確認しましょう。
「理論的には同じ値になるはずの測定である」ということは、j回目の測定値をx[j]とするとき、
x[j]= a + ε[j]
という理論がある訳です。この式をモデルと言います。で、モデルを実測データx[j](j=1,2,…,N)になるべく合うように当てはめます。「なるべく合う」という感覚的な話じゃどうにもならないので、モデルと実測データのずれを測るための
E(a) = Σ(ε[j]^2) (Σはj=1,2,…,Nについての総和、^2は二乗)
という尺度を考え、「E(a)が小さいほどモデルと実測データが良く合っている」とします。
すると、E(a)が最小になるようにaを決定すれば良い。
これは「最小二乗法」と呼ばれる方法です。
実際にどうやって計算するかというと、E(a)はaを変えると変化する訳ですが、E(a)が最小になるようなaの近辺ではE(a)の変化がなくなりますから、
dE(a)/da = 0
となる。このことを利用して
dE(a)/da
= Σd(ε[j]^2)/da
= 2Σ(ε[j](d(ε[j])/da))
= 2Σ(ε[j](d(a + ε[j])/da))
= 2Σ(ε[j](da/da))
= 2Σε[j]
= 2Σa - 2Σx[j]
= 2Na - 2Σx[j]
これが0になるようにaを決めるのだから、
a = (Σx[j])/N
とすれば良い。これは平均値の計算方法そのものですね。
つまり、「平均値を計算する」ということの数学的な意味は
「E(a) = Σ(ε[j]^2) (Σはj=1,2,…,Nについての総和、^2は二乗)
とするとき、E(a)が最小になるようにaを決定する。」
ということに他ならないのです。(これはガウスによって確立された理論であり、この理論によって平均値というものが他の代表値(中央値、最頻値など)とは違う、明確な意味を獲得したのです。丁度フランス革命の頃の話。)
[2] 毎回の計測で計測誤差が同じでない場合の重み付き平均。
すごく他から離れた値があったとき、それが測定方法に起因するランダムな誤差によるものである場合には、最小二乗法の範疇で処置できます。測定の度に使う計測器が異なっていて、j回目の測定に使った計測器は誤差が標準偏差σ[j]を持つ分布に従うとしましょう。この場合、誤差の標準偏差が小さい測定結果は重要ですし、大きいものは重要でない。そこで、
「E(a) = Σ((ε[j])/σ[j])^2) (Σはj=1,2,…,Nについての総和、^2は二乗)
とするとき、E(a)が最小になるようにaを決定する。」
のです。これを重み付き最小二乗法と言います。上記と同様にして具体的な計算方法を出してみると
a = (Σ(x[j]/σ[j]))/(Σ(1/σ[j]))
という重み付き平均になります。重みは1/σ[j]ですね。
[3] 「あり得ない」測定値が入る場合
「いや、計測手段は毎回同じなので、誤差のばらつきも同程度の筈である。だからデータがだいたい揃う筈だ」という知識があり、なのにその知識から考えてあり得ないような凄く離れた値が混じっているという場合。測り間違いとか、転記ミスなどの、外乱による異常値が入っているおそれがある訳です。
そういう異常値の影響を少なくするためには上記の尺度Eでは旨く行きませんので、いろいろな工夫がされていて、「ロバスト・フィッティング」と呼ばれます。(ある種の重みを付けるんですが、それらの具体的な方法と評価については、「最小二乗法による実験データ解析」(東京大学出版会)をお勧めします。)
ただし、そういう工夫をすると、算出したaの意味は[1][2]のような単純なものではなくなってしまいますし、「恣意的にデータの選別をしたのではないか。気に入らないデータを無視し都合の良いものだけを選んで計算したイカサマの数値じゃないか」という批判が可能で、このため客観的結果とは言えなくなります。
[4]以上をご承知の上で、ですね、ご質問がお求めなのはロバスト・フィッティングをやりたい、ということでしょうか。すると、
(1) |ε[j]|が小さいなら、最小二乗法とほとんど同じになって欲しい。
(2) |ε[j]|がうんと大きいなら、その測定値x[j]はほとんど無視したい。
個々のデータについてこの二つのルールのどっちを適用するかの判断には、|ε[j]|が小さいとか大きいとかいうための比較基準が必要です。どうしましょうか。
もし、沢山のデータの中にごく僅かの異常値が入っているのであれば、まずは普通に最小二乗法を使って、a(つまり平均値)とε[j]の標準偏差(つまり普通の標準偏差)bを計算しても、bの値は大きくは狂わないでしょう。ならば、この標準偏差bを基準にできます。例えば
●|ε[j]|>2b なら重みを0にする。さもなくば重みを1にする。
というのもアリです。でも異常値が2bを越えるかどうかで扱いがまるで変わるのが気に入らないと仰るならば、滑らかに変化する重み(ただし|ε[j]|が0に近いときは1、うんと大きい時は0)を付ければいいでしょう。例えば
● |kε[j]/b)|>πなら重みを0にする。さもなくば重みを(1/2)(1+cos( kε[j]/b))にする。(kは適当な定数です。たとえばk=1ぐらいとか。)
詳細なご回答をいただきどうもありがとうございました。お礼が遅れまして申し訳ありません。
最小二乗法のお話が大変参考になりました。また、[3]の考え方で、とりあえず平均値との差が
標準偏差の10倍以上あるデータは無視(重み0)にすることにしました。
No.2
- 回答日時:
「1つだけ飛び離れたデータがあるので、その影響を除きたい」という話と「加重平均」の考え方は、何の関係もありません。
飛び離れたデータを除いてよいか? という問いに対して、統計学は一般的な答を持っていません。
* 統計学の検定に関する知識と
* そのデータが出てくるメカニズム
の両方を熟知した人でなければ判断できない問題です。
ご回答どうもありがとうございました。おっしゃるように、やりたかったのは加重平均ではなく
最小二乗法の問題であるようです。こちらで調べてみると参考になる情報が色々と得られました。
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
似たような質問が見つかりました
- 統計学 標準誤差の求め方 2 2022/07/04 19:59
- 統計学 統計学の問題です よろしくお願いします 代表値 次の15件のデータについて,以下の問いに答えよ。 結 5 2023/01/31 23:35
- 統計学 統計学の問題です よろしくお願いします 代表値 次の15件のデータについて,以下の問いに答えよ。 結 1 2023/01/31 18:53
- 統計学 t値の計算方法 1 2022/11/29 18:37
- 数学 数学の公式の実践的な使い方を教えてくれるサイトや参考書はありますか? 例えば相加平均と相乗平均は最小 3 2023/06/28 20:24
- 統計学 確率統計です。 1 2022/07/27 23:14
- 高校受験 夏休み、本気で勉強を頑張りたい 2 2022/07/03 16:33
- 数学 【 数I 分散 】 3 2023/02/26 21:55
- 日本語 順位と平均の意味に関する疑問 5 2023/04/15 13:25
- 統計学 統計学の問題です。よろしくお願いします。 ある部品の重量は正規分布に従うとされており,過去の経験から 1 2023/01/19 03:36
このQ&Aを見た人はこんなQ&Aも見ています
-
餃子を食べるとき、何をつけますか?
みんな大好き餃子。 ふと素朴な疑問ですが、餃子には何をつけて食べますか? 王道は醤油とお酢でしょうか。
-
人生最悪の忘れ物
今までの人生での「最悪の忘れ物」を教えてください。 私の「最悪の忘れ物」は「財布」です。
-
忘れられない激○○料理
これまでに食べたもののなかで、もっとも「激○○」だった料理を教えて下さい。 激辛、でも激甘でも。 激ウマ、でも激マズでも。
-
許せない心理テスト
私は「あなたの目の前にケーキがあります。ろうそくは何本刺さっていますか」と言われ「12本」と答えたら「ろうそくの数はあなたが好きな人の数です」と言われ浮気者扱いされたことをいまだに根に持っています。
-
お風呂の温度、何℃にしてますか?
みなさん、家のお風呂って何℃で入ってますか? ぬるめのお湯にゆったり…という方もいれば、熱いのが好き!という方もいるかと思います。 我が家は平均的(?)な42℃設定なのですが、みなさんのご家庭では何℃に設定していますか?
-
重み付き最小二乗法について
数学
-
最小二乗法の重みづけについて教えてください。
数学
-
検量線について
化学
-
おすすめ情報
- ・漫画をレンタルでお得に読める!
- ・【大喜利】【投稿~11/22】このサンタクロースは偽物だと気付いた理由とは?
- ・お風呂の温度、何℃にしてますか?
- ・とっておきの「まかない飯」を教えて下さい!
- ・2024年のうちにやっておきたいこと、ここで宣言しませんか?
- ・いけず言葉しりとり
- ・土曜の昼、学校帰りの昼メシの思い出
- ・忘れられない激○○料理
- ・あなたにとってのゴールデンタイムはいつですか?
- ・とっておきの「夜食」教えて下さい
- ・これまでで一番「情けなかったとき」はいつですか?
- ・プリン+醤油=ウニみたいな組み合わせメニューを教えて!
- ・タイムマシーンがあったら、過去と未来どちらに行く?
- ・遅刻の「言い訳」選手権
- ・好きな和訳タイトルを教えてください
- ・うちのカレーにはこれが入ってる!って食材ありますか?
- ・おすすめのモーニング・朝食メニューを教えて!
- ・「覚え間違い」を教えてください!
- ・とっておきの手土産を教えて
- ・「平成」を感じるもの
- ・秘密基地、どこに作った?
- ・【お題】NEW演歌
- ・カンパ〜イ!←最初の1杯目、なに頼む?
- ・一回も披露したことのない豆知識
- ・これ何て呼びますか
- ・初めて自分の家と他人の家が違う、と意識した時
- ・「これはヤバかったな」という遅刻エピソード
- ・これ何て呼びますか Part2
- ・許せない心理テスト
- ・この人頭いいなと思ったエピソード
- ・牛、豚、鶏、どれか一つ食べられなくなるとしたら?
- ・好きなおでんの具材ドラフト会議しましょう
- ・餃子を食べるとき、何をつけますか?
- ・あなたの「必」の書き順を教えてください
- ・ギリギリ行けるお一人様のライン
- ・10代と話して驚いたこと
- ・大人になっても苦手な食べ物、ありますか?
- ・14歳の自分に衝撃の事実を告げてください
- ・家・車以外で、人生で一番奮発した買い物
- ・人生最悪の忘れ物
- ・あなたの習慣について教えてください!!
- ・都道府県穴埋めゲーム
このQ&Aを見た人がよく見るQ&A
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
統計学の問題なんですが・・・
-
標準偏差の平均値の求め方
-
加重平均(重み付き平均)の標...
-
平均-3σの考え方を教えてくださ...
-
標準偏差について詳しい方お願...
-
バラツキを考慮して平均を補正...
-
平均点と標準偏差から最低点を...
-
標準偏差の「数値」による判断...
-
統計学の二乗平均がわからない
-
平均値が合わないのは何故でし...
-
比率(%) の平均値を算出する場...
-
データの加重平均について
-
縦計算と横計算で平均が合わない。
-
標準偏差の和と差
-
標準偏差が小さすぎると何が問題?
-
計数秤での員数不足対策について
-
分散について2乗の平均−平均の2...
-
一般常識を教えてください。1割...
-
数学の問題で4C0の答えを教えて...
-
重複順列
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
統計学の問題なんですが・・・
-
加重平均(重み付き平均)の標...
-
平均-3σの考え方を教えてくださ...
-
標準偏差について詳しい方お願...
-
標準偏差の平均値の求め方
-
データの加重平均について
-
標準偏差の和と差
-
バラツキを考慮して平均を補正...
-
統計学の二乗平均がわからない
-
比率(%) の平均値を算出する場...
-
標準偏差の計算方法
-
標準偏差の「数値」による判断...
-
縦計算と横計算で平均が合わない。
-
平均点と標準偏差から最低点を...
-
標準偏差と平均偏差の違い
-
EXCELで0をカウントしないで平...
-
平均値と標準偏差からテストデ...
-
計数秤での員数不足対策について
-
標準偏差が小さすぎると何が問題?
-
アンケート集計で、満足度の平...
おすすめ情報