赤玉の個数の標準偏差（高校数学確率変数と標準偏差）

Question

袋の中に赤玉が３個、白玉が４個、合計７個の玉が入っている。
この袋から同時に３個の玉を取り出すとき、赤玉の個数Ｘの標準偏差を求めよ。

ただし、各々の玉の選択のされ方は同様に確からしい（ equally possible ）とする。（＊）

---------------------------------------------------------------------------------------------

①この問題の答えは 2・Root(6) / 7 であっているでしょうか？
期待値　E(X)=45/35=9/7
期待値　E(X^2)=75/35=15/7
を計算し、
分散　V(X)=E(X^2)-{E(X)}^2=24/49
の正の２乗根より計算しました。

②また、この標準偏差 2・Root(6) / 7 ≒ 0.70 から何が主張できるでしょうか？
E(X)=9/7≒1.28 だから 0.5 個～1.9 個の結果が68％の確率で発生する？
でも個数に0.5個や1.9個はない…
そもそも確率変数Xは正規分布ではない…
どんなことが言えるのだろう？

③主の疑問ではありませんが、（＊）の文章は、表現として改善可能でしょうか？

kamiyasiro · Accepted Answer

企業で統計を推進する立場の者です。博士（工学）です。

①超幾何分布の平均、分散の式で確認しましたが合っています。
分散の公式（V(x)=E(x^2)-E(x)^2）から求めるのは大変だったと思いますが、分散の導出も分散の公式を使っていますから、原理的には間違いではありません。

私も、ご質問者の導出した数値をトレースしてみましたが、0、1、４、9というスコアに気づくまでちょっと掛かりました。これが高校の問題とは・・・。高度です。

②３個抽出するという試行を何度も繰り返せば、離散ではなく正規分布に近似可能です。つまり、０～３までの横軸の上に正規分布曲線が乗る感じです。とはいっても非負ですからね。違和感はあります。

どんなことが言えるか、それは第１種の過誤の判定です。言い換えれば検定です。
「この町のレストランはお昼の定食に１週間のうち牛肉３回、鶏肉４回出すという仮定がある。あなたは週３回（ランダムな曜日に）その店に通うことを１年間続けたところ、牛肉にありつけた回数の平均は○○、分散は〇〇だった。この店の定食に週３回牛肉が出るという仮定は正しいか」というような問題が考えられます。このとき、等分散性の検定に用いられます。

企業では、これを伝票不正などの異常検知に使っています。「当社はコピー紙をA社３、B社４という割合で発注することになっている。発注は毎月３回どちらかの会社に対して行う。今回、月当たりの集計を行ったところ・・・。」分布を逸脱していれば、担当者の不正を疑うべきですよね。

③私には違和感なく伝わりました。

kamiyasiro · Answer

#1です。

私の回答に興味を持って頂き、ありがとうございました。

①検定の件
・この仮説検定では出現確率が仮定どおりか調べますので、母比率の検定と言いますが、離散分布を正規分布に置き換えて検定するのが一般的です。ですからｔ検定と関係があります。母比率の検定でも０％に近いところは正規分布では近似できませんので、「逆正弦変換」などを行ってから検定します。
・等分散性の検定は、ｔ検定が等分散であることを前提としているのでｔ検定前に行われます。もし等分散でなければ「ウェルチの検定」という方法を使います。最近の統計ソフトは最初からウェルチが動く場合も多いです。

②事例の件
・コピー紙の発注は架空の事例ですが、発注伝票がこのような処理をされているのは事実です。これが全てコンピュータで処理されています。CAAT（Computer Assisted Audit Techniques）といいます。Auditオーディットというのは監査です。いわゆる会計監査ですが、確率論を駆使してコンピュータが自動的に洗い出しをしています。CAATはググれば出てきます。
・企業は大手の監査法人と契約していますが、大量の伝票を前にして社内不正を見つけ出すのは人手では無理ですので、監査法人が監査ソフトを独自開発して適用しています。かつて東芝で不正処理が発覚した時は、契約している監査法人が見抜けなかったということで、かなり評判を落としました。
・ビッグデータ時代になり、監査法人も新たな競争時代に入りました。

③観測数の件
・どのくらいの観測数が必要か、ということですが、実は観測数を増やすと「検定は有意になり易い」です。言いかえれば観測数を増やすと検出力が上がります。
・そのため、あらかじめ「これ以上の差が出れば違うとみなす」という差を定義しておきます。「効果量（effect size）」といいます。
・観測数が多い時でも間引いたりはしません。観測数が多ければ必ず差が有意になりますが「差は明らかに見られるが、とりたてて追及するほどでもない」と判断します。ですから観測数（発行された伝票数）は得られるものをそのまま用います。コピー紙の例では過去３～６カ月分くらいで処理することになると思います。毎月毎月移動窓法で監査します。

④その他の適用例
・このような異常な片寄りの検出のほかに、「ベンフォードの法則」なども使われます。領収書の水増し（頭に１を書き足して提出する）などは、これで見破ります。

教科書に実社会での利活用について述べられていれば、勉強意欲も増すと思います。大学では企業人を招いてオムニバス形式で最先端技術に触れるような特別講義が行われたりしています。逆に私のような社会人は大学の公開講座などで最新の研究成果に触れたりすることもできるのでありがたいです。

赤玉の個数の標準偏差（高校数学 確率変数と標準偏差）

企業で統計を推進する立場の者です。

#1です。

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング

赤玉の個数の標準偏差（高校数学確率変数と標準偏差）