プロが教える店舗&オフィスのセキュリティ対策術

集団A=A1+A2
集団B=B1+B2
から構成されるとします。

A1の期待値>B1の期待値
A2の期待値>B2の期待値

しかしA1+A2の期待値<B1+B2の期待値
となる場合はあるのでしょうか?

たとえば平均点が個別の集団同士の比較だとAの方が大きいけど、
集計した全体の集団同士の比較だとBの方が大きい、という場合です。

具体的にどのような場合でしょうか。

A 回答 (4件)

#3です。



期待値(平均)を変えてしまうのを、バイアス(偏差)と言います。バリアンス(分散)に対する言葉です。

統計的な3大バイアスというのがあります。
・サンプルセレクション・バイアス(行に起因するバイアス)
・削除変数バイアス(列に起因するバイアス)
・内生性バイアス(誤差に起因するバイアス)

内生性バイアスとは、説明変数により誤差が異なるときに生じるバイアスです。

#2はサンプルセレクション・バイアス、
#3は内生性バイアスが原因だった、ということになります。

ちなみに、削除変数バイアスは、学歴と年収のような関係を言うとき、高度な資格(医師や弁護士)という変数を見落とすことに起因するバイアスです。


最終的に、

>具体的にはどのような場合か、
というご質問に大局的見地で回答すると、
「このようなバイアスが生じる原因は、主に3つある」ということになります。
    • good
    • 0

>具体的にどのような場合でしょうか。



先に「構成数の違い」を回答しましたが、別の原因を示します。

事例は、

https://qiita.com/aoki-h/items/b8281823146b0e6c3 …

8 Schools Problem
ベイズ統計言語Stanの開発者 Andrew Gelmanによる教科書『Bayesian Data Analysis』で取り上げられているデータ。
8つの高校で実施された標準学力テスト対策のコーチングの効果のデータ。

しかし、そもそも学校間では生徒の学力に差がある。
また、学校間で効果のばらつきも見られる。
そこから、コーチング効果だけを分離する問題。

「マルチレベル・モデル」という問題で、マルチレベル分析とかマルチレベルモデルでググれば、多数のテキストがヒットします。

この数値例では、構成数は分っていません。
というか、被験者は同一人物で、特訓のビフォア・アフターかもしれません。よって構成数の違いは無いかもしれません。

ここでは、標準誤差の違いにより、バイアスが生まれています。

お断り:単純な平均でもコーチング効果が出ているので、逆転にはなっていません。(正味の効果を間違えてしまうということです)
    • good
    • 0

#1さんのおっしゃる通り、構成数が異なるときに生じるバイアスですね。


サンプルセレクション・バイアスと呼ばれます。

有名なのは、シンプソンのパラドックス(1951)。

このようなバイアスを取り除いて期待値(平均)を求める方法が「最小二乗平均」。

シンプソンのパラドックスの数値例は、有名なパール先生の近刊にも出ています。訳本とそれに出てくる数値例を挙げておきます。

Judea Pearl,落海浩[訳](2019)「入門統計的因果推論」,朝倉書店,p3

700人の患者について回復率を調査した。350人は旧療法、350人は新療法。
このケースでは、期待値は正しくはオッズ比を使いますが、ここでは簡単に率で示します。

男性旧療法:270人中234人治癒
男性新療法:87人中81人治癒
回復率87%→新療法で93%に向上

女性旧療法:80人中55人治癒
女性新療法:263人中192人治癒
回復率69%→新療法で73%に向上

男女を合計すると、
男女旧療法:350人中289人治癒
男女新療法:350人中273人治癒
回復率83%→78%
男女別では見られた新療法の治癒効果が逆転して低くなる。

ネットでシンプソンのパラドックスをググると、出てくる数値例はまちまちですが、どれも言っていることは同じです。
    • good
    • 0

構成個体数と、「期待値」を求める統計変量との関係によってはあり得るでしょう。



たとえば
A1:100人でテスト結果の期待値が 20点
A2:10人でテスト結果の期待値が 90点

B1:20人でテスト結果の期待値が 10点
B2:200人でテスト結果の期待値が 80点

の場合には、明らかに
 A1の期待値>B1の期待値
 A2の期待値>B2の期待値
です。

ところが
A1:人数分の得点の合計は 20点 × 100人 = 2000点・人
A2:人数分の得点の合計は 90点 × 10人 = 900点・人

B1:人数分の得点の合計は 10点 × 20人 = 200点・人
B2:人数分の得点の合計は 80点 × 200人 = 16000点・人
ですから、

(A1 + A2) の期待値:
 (2000点・人 + 900点・人) ÷ 110人 = 26.3636・・・ ≒ 26.4点
(B1 + B2) の期待値:
 (200点・人 + 16000点・人) ÷ 220人 = 73.6363・・・ ≒ 73.6点
であり、
 (A1 + A2) の期待値 < (B1 + B2) の期待値
となります。
    • good
    • 0
この回答へのお礼

ありがとうございます。

お礼日時:2022/06/14 10:03

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!