アプリ版:「スタンプのみでお礼する」機能のリリースについて

袋の中に赤玉が3個、白玉が4個、合計7個の玉が入っている。
この袋から同時に3個の玉を取り出すとき、赤玉の個数Xの標準偏差を求めよ。

ただし、各々の玉の選択のされ方は同様に確からしい( equally possible )とする。(*)

---------------------------------------------------------------------------------------------

①この問題の答えは 2・Root(6) / 7 であっているでしょうか?
期待値 E(X)=45/35=9/7
期待値 E(X^2)=75/35=15/7
を計算し、
分散 V(X)=E(X^2)-{E(X)}^2=24/49
の正の2乗根より計算しました。

②また、この標準偏差 2・Root(6) / 7 ≒ 0.70 から何が主張できるでしょうか?
E(X)=9/7≒1.28 だから 0.5 個~1.9 個の結果が68%の確率で発生する?
でも個数に0.5個や1.9個はない…
そもそも確率変数Xは正規分布ではない…
どんなことが言えるのだろう?

③主の疑問ではありませんが、(*)の文章は、表現として改善可能でしょうか?

A 回答 (2件)

企業で統計を推進する立場の者です。

博士(工学)です。

①超幾何分布の平均、分散の式で確認しましたが合っています。
分散の公式(V(x)=E(x^2)-E(x)^2)から求めるのは大変だったと思いますが、分散の導出も分散の公式を使っていますから、原理的には間違いではありません。

私も、ご質問者の導出した数値をトレースしてみましたが、0、1、4、9というスコアに気づくまでちょっと掛かりました。これが高校の問題とは・・・。高度です。

②3個抽出するという試行を何度も繰り返せば、離散ではなく正規分布に近似可能です。つまり、0~3までの横軸の上に正規分布曲線が乗る感じです。とはいっても非負ですからね。違和感はあります。

どんなことが言えるか、それは第1種の過誤の判定です。言い換えれば検定です。
「この町のレストランはお昼の定食に1週間のうち牛肉3回、鶏肉4回出すという仮定がある。あなたは週3回(ランダムな曜日に)その店に通うことを1年間続けたところ、牛肉にありつけた回数の平均は○○、分散は〇〇だった。この店の定食に週3回牛肉が出るという仮定は正しいか」というような問題が考えられます。このとき、等分散性の検定に用いられます。

企業では、これを伝票不正などの異常検知に使っています。「当社はコピー紙をA社3、B社4という割合で発注することになっている。発注は毎月3回どちらかの会社に対して行う。今回、月当たりの集計を行ったところ・・・。」分布を逸脱していれば、担当者の不正を疑うべきですよね。

③私には違和感なく伝わりました。
    • good
    • 0
この回答へのお礼

回答ありがとうございます。

①③について解消しました。
②について

>どんなことが言えるか、それは第1種の過誤の判定です。言い換えれば検定です。

検定についてはまだ私は不勉強です。「t-検定」や「信頼区間」などと関係があるでしょうか?「等分散性の検定」という言葉にも初めて出会いました。

>企業では、これを伝票不正などの異常検知に使っています。

とても興味深い内容です。教科書上の問題が見事に現実社会の分析に見事に活用されています。この問題が社会の不正検出に応用できるとは、本当に目から鱗です!

> 月当たりの集計を行ったところ・・
紹介いただいたコピー用紙発注の例は実際に有用なものでしょうか?
それとも、あくまでもイメージのための架空の例でしょうか。
ちなみに、このコピー用紙発注の例の場合、何カ月くらいの集計が必要でしょうか?
1年や2年(24回の試行)ではサンプルが少ない?
それとも24回もあれば、検証可能でしょうか?

秀逸な回答、本当にありがとうございます。

お礼日時:2020/09/22 23:46

#1です。



私の回答に興味を持って頂き、ありがとうございました。

①検定の件
・この仮説検定では出現確率が仮定どおりか調べますので、母比率の検定と言いますが、離散分布を正規分布に置き換えて検定するのが一般的です。ですからt検定と関係があります。母比率の検定でも0%に近いところは正規分布では近似できませんので、「逆正弦変換」などを行ってから検定します。
・等分散性の検定は、t検定が等分散であることを前提としているのでt検定前に行われます。もし等分散でなければ「ウェルチの検定」という方法を使います。最近の統計ソフトは最初からウェルチが動く場合も多いです。

②事例の件
・コピー紙の発注は架空の事例ですが、発注伝票がこのような処理をされているのは事実です。これが全てコンピュータで処理されています。CAAT(Computer Assisted Audit Techniques)といいます。Auditオーディットというのは監査です。いわゆる会計監査ですが、確率論を駆使してコンピュータが自動的に洗い出しをしています。CAATはググれば出てきます。
・企業は大手の監査法人と契約していますが、大量の伝票を前にして社内不正を見つけ出すのは人手では無理ですので、監査法人が監査ソフトを独自開発して適用しています。かつて東芝で不正処理が発覚した時は、契約している監査法人が見抜けなかったということで、かなり評判を落としました。
・ビッグデータ時代になり、監査法人も新たな競争時代に入りました。

③観測数の件
・どのくらいの観測数が必要か、ということですが、実は観測数を増やすと「検定は有意になり易い」です。言いかえれば観測数を増やすと検出力が上がります。
・そのため、あらかじめ「これ以上の差が出れば違うとみなす」という差を定義しておきます。「効果量(effect size)」といいます。
・観測数が多い時でも間引いたりはしません。観測数が多ければ必ず差が有意になりますが「差は明らかに見られるが、とりたてて追及するほどでもない」と判断します。ですから観測数(発行された伝票数)は得られるものをそのまま用います。コピー紙の例では過去3~6カ月分くらいで処理することになると思います。毎月毎月移動窓法で監査します。

④その他の適用例
・このような異常な片寄りの検出のほかに、「ベンフォードの法則」なども使われます。領収書の水増し(頭に1を書き足して提出する)などは、これで見破ります。


教科書に実社会での利活用について述べられていれば、勉強意欲も増すと思います。大学では企業人を招いてオムニバス形式で最先端技術に触れるような特別講義が行われたりしています。逆に私のような社会人は大学の公開講座などで最新の研究成果に触れたりすることもできるのでありがたいです。
    • good
    • 0
この回答へのお礼

引き続き含蓄の多い回答をありがとうございます。
お礼が遅くなり申し訳ありません。

逆正弦変換は少し難しい印象を受けましたが、その他のことは、統計の専門家からすると基本的なことなのだろうと推察します。私は統計についてほとんど知らないため、回答いただいた内容のほぼすべてが初めて耳にすることで、理解が及びません。統計は、統計量の計算結果をどう解釈するのか、という視点を学ぶ必要があると感じました。それぞれの統計量の定義を理解できたとしても、具体例に何度も触れて実感していかないと高度な統計を活用する側にはなれないなぁと。マクロに社会を動かしている専門家は賢いと感じます。また、従来のCAATが、ビッグデータやAI、飽和社会等の変化の激しい時代の中で変革を求められているとも感じました。統計について勉強していきたいと思います。

お礼日時:2020/09/26 10:49

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!