プンプン

個別の期待値は小さいけど集計すると期待値は大きくなる場合とは？

締切済

質問者：櫻花道
質問日時：2022/06/14 08:27
回答数：4件

集団Ａ=Ａ1+A2
集団B=B1+B2
から構成されるとします。

A1の期待値＞Ｂ１の期待値
A2の期待値＞B2の期待値

しかしA1+A2の期待値＜B1+B2の期待値
となる場合はあるのでしょうか？

たとえば平均点が個別の集団同士の比較だとＡの方が大きいけど、
集計した全体の集団同士の比較だとＢの方が大きい、という場合です。

具体的にどのような場合でしょうか。

通報する

この質問への回答は締め切られました。

質問の本文を隠す

回答 (4件)

最新から表示
回答順に表示

No.4

回答者： kamiyasiro
回答日時：2022/06/16 02:19

#3です。

期待値（平均）を変えてしまうのを、バイアス（偏差）と言います。バリアンス（分散）に対する言葉です。

統計的な３大バイアスというのがあります。
・サンプルセレクション・バイアス（行に起因するバイアス）
・削除変数バイアス（列に起因するバイアス）
・内生性バイアス（誤差に起因するバイアス）

内生性バイアスとは、説明変数により誤差が異なるときに生じるバイアスです。

#2はサンプルセレクション・バイアス、
#3は内生性バイアスが原因だった、ということになります。

ちなみに、削除変数バイアスは、学歴と年収のような関係を言うとき、高度な資格（医師や弁護士）という変数を見落とすことに起因するバイアスです。

最終的に、

＞具体的にはどのような場合か、
というご質問に大局的見地で回答すると、
「このようなバイアスが生じる原因は、主に３つある」ということになります。

- 0
- 件

通報する

No.3

回答者： kamiyasiro
回答日時：2022/06/15 16:21

＞具体的にどのような場合でしょうか。

先に「構成数の違い」を回答しましたが、別の原因を示します。

事例は、

https://qiita.com/aoki-h/items/b8281823146b0e6c3 …

8 Schools Problem
ベイズ統計言語Stanの開発者 Andrew Gelmanによる教科書『Bayesian Data Analysis』で取り上げられているデータ。
8つの高校で実施された標準学力テスト対策のコーチングの効果のデータ。

しかし、そもそも学校間では生徒の学力に差がある。
また、学校間で効果のばらつきも見られる。
そこから、コーチング効果だけを分離する問題。

「マルチレベル・モデル」という問題で、マルチレベル分析とかマルチレベルモデルでググれば、多数のテキストがヒットします。

この数値例では、構成数は分っていません。
というか、被験者は同一人物で、特訓のビフォア・アフターかもしれません。よって構成数の違いは無いかもしれません。

ここでは、標準誤差の違いにより、バイアスが生まれています。

お断り：単純な平均でもコーチング効果が出ているので、逆転にはなっていません。（正味の効果を間違えてしまうということです）

- 0
- 件

通報する

No.2

回答者： kamiyasiro
回答日時：2022/06/15 15:44

#1さんのおっしゃる通り、構成数が異なるときに生じるバイアスですね。

サンプルセレクション・バイアスと呼ばれます。

有名なのは、シンプソンのパラドックス（1951）。

このようなバイアスを取り除いて期待値（平均）を求める方法が「最小二乗平均」。

シンプソンのパラドックスの数値例は、有名なパール先生の近刊にも出ています。訳本とそれに出てくる数値例を挙げておきます。

Judea Pearl，落海浩[訳]（2019）「入門統計的因果推論」，朝倉書店，p3

700人の患者について回復率を調査した。350人は旧療法、350人は新療法。
このケースでは、期待値は正しくはオッズ比を使いますが、ここでは簡単に率で示します。

男性旧療法：270人中234人治癒
男性新療法：87人中81人治癒
回復率87％→新療法で93％に向上

女性旧療法：80人中55人治癒
女性新療法：263人中192人治癒
回復率69％→新療法で73％に向上

男女を合計すると、
男女旧療法：350人中289人治癒
男女新療法：350人中273人治癒
回復率83％→78％
男女別では見られた新療法の治癒効果が逆転して低くなる。

ネットでシンプソンのパラドックスをググると、出てくる数値例はまちまちですが、どれも言っていることは同じです。

- 0
- 件

通報する

No.1

回答者： yhr2
回答日時：2022/06/14 09:50

構成個体数と、「期待値」を求める統計変量との関係によってはあり得るでしょう。

たとえば
A1：100人でテスト結果の期待値が 20点
A2：10人でテスト結果の期待値が 90点

B1：20人でテスト結果の期待値が 10点
B2：200人でテスト結果の期待値が 80点

の場合には、明らかに
　A1の期待値＞Ｂ１の期待値
　A2の期待値＞B2の期待値
です。

ところが
A1：人数分の得点の合計は 20点 × 100人 = 2000点・人
A2：人数分の得点の合計は 90点 × 10人 = 900点・人

B1：人数分の得点の合計は 10点 × 20人 = 200点・人
B2：人数分の得点の合計は 80点 × 200人 = 16000点・人
ですから、

(A1 + A2) の期待値：
　(2000点・人 + 900点・人) ÷ 110人 = 26.3636･･･ ≒ 26.4点
(B1 + B2) の期待値：
　(200点・人 + 16000点・人) ÷ 220人 = 73.6363･･･ ≒ 73.6点
であり、
　(A1 + A2) の期待値 < (B1 + B2) の期待値
となります。