袋の中に赤玉が3個、白玉が4個、合計7個の玉が入っている。
この袋から同時に3個の玉を取り出すとき、赤玉の個数Xの標準偏差を求めよ。
ただし、各々の玉の選択のされ方は同様に確からしい( equally possible )とする。(*)
---------------------------------------------------------------------------------------------
①この問題の答えは 2・Root(6) / 7 であっているでしょうか?
期待値 E(X)=45/35=9/7
期待値 E(X^2)=75/35=15/7
を計算し、
分散 V(X)=E(X^2)-{E(X)}^2=24/49
の正の2乗根より計算しました。
②また、この標準偏差 2・Root(6) / 7 ≒ 0.70 から何が主張できるでしょうか?
E(X)=9/7≒1.28 だから 0.5 個~1.9 個の結果が68%の確率で発生する?
でも個数に0.5個や1.9個はない…
そもそも確率変数Xは正規分布ではない…
どんなことが言えるのだろう?
③主の疑問ではありませんが、(*)の文章は、表現として改善可能でしょうか?
No.1ベストアンサー
- 回答日時:
企業で統計を推進する立場の者です。
博士(工学)です。①超幾何分布の平均、分散の式で確認しましたが合っています。
分散の公式(V(x)=E(x^2)-E(x)^2)から求めるのは大変だったと思いますが、分散の導出も分散の公式を使っていますから、原理的には間違いではありません。
私も、ご質問者の導出した数値をトレースしてみましたが、0、1、4、9というスコアに気づくまでちょっと掛かりました。これが高校の問題とは・・・。高度です。
②3個抽出するという試行を何度も繰り返せば、離散ではなく正規分布に近似可能です。つまり、0~3までの横軸の上に正規分布曲線が乗る感じです。とはいっても非負ですからね。違和感はあります。
どんなことが言えるか、それは第1種の過誤の判定です。言い換えれば検定です。
「この町のレストランはお昼の定食に1週間のうち牛肉3回、鶏肉4回出すという仮定がある。あなたは週3回(ランダムな曜日に)その店に通うことを1年間続けたところ、牛肉にありつけた回数の平均は○○、分散は〇〇だった。この店の定食に週3回牛肉が出るという仮定は正しいか」というような問題が考えられます。このとき、等分散性の検定に用いられます。
企業では、これを伝票不正などの異常検知に使っています。「当社はコピー紙をA社3、B社4という割合で発注することになっている。発注は毎月3回どちらかの会社に対して行う。今回、月当たりの集計を行ったところ・・・。」分布を逸脱していれば、担当者の不正を疑うべきですよね。
③私には違和感なく伝わりました。
回答ありがとうございます。
①③について解消しました。
②について
>どんなことが言えるか、それは第1種の過誤の判定です。言い換えれば検定です。
検定についてはまだ私は不勉強です。「t-検定」や「信頼区間」などと関係があるでしょうか?「等分散性の検定」という言葉にも初めて出会いました。
>企業では、これを伝票不正などの異常検知に使っています。
とても興味深い内容です。教科書上の問題が見事に現実社会の分析に見事に活用されています。この問題が社会の不正検出に応用できるとは、本当に目から鱗です!
> 月当たりの集計を行ったところ・・
紹介いただいたコピー用紙発注の例は実際に有用なものでしょうか?
それとも、あくまでもイメージのための架空の例でしょうか。
ちなみに、このコピー用紙発注の例の場合、何カ月くらいの集計が必要でしょうか?
1年や2年(24回の試行)ではサンプルが少ない?
それとも24回もあれば、検証可能でしょうか?
秀逸な回答、本当にありがとうございます。
No.2
- 回答日時:
#1です。
私の回答に興味を持って頂き、ありがとうございました。
①検定の件
・この仮説検定では出現確率が仮定どおりか調べますので、母比率の検定と言いますが、離散分布を正規分布に置き換えて検定するのが一般的です。ですからt検定と関係があります。母比率の検定でも0%に近いところは正規分布では近似できませんので、「逆正弦変換」などを行ってから検定します。
・等分散性の検定は、t検定が等分散であることを前提としているのでt検定前に行われます。もし等分散でなければ「ウェルチの検定」という方法を使います。最近の統計ソフトは最初からウェルチが動く場合も多いです。
②事例の件
・コピー紙の発注は架空の事例ですが、発注伝票がこのような処理をされているのは事実です。これが全てコンピュータで処理されています。CAAT(Computer Assisted Audit Techniques)といいます。Auditオーディットというのは監査です。いわゆる会計監査ですが、確率論を駆使してコンピュータが自動的に洗い出しをしています。CAATはググれば出てきます。
・企業は大手の監査法人と契約していますが、大量の伝票を前にして社内不正を見つけ出すのは人手では無理ですので、監査法人が監査ソフトを独自開発して適用しています。かつて東芝で不正処理が発覚した時は、契約している監査法人が見抜けなかったということで、かなり評判を落としました。
・ビッグデータ時代になり、監査法人も新たな競争時代に入りました。
③観測数の件
・どのくらいの観測数が必要か、ということですが、実は観測数を増やすと「検定は有意になり易い」です。言いかえれば観測数を増やすと検出力が上がります。
・そのため、あらかじめ「これ以上の差が出れば違うとみなす」という差を定義しておきます。「効果量(effect size)」といいます。
・観測数が多い時でも間引いたりはしません。観測数が多ければ必ず差が有意になりますが「差は明らかに見られるが、とりたてて追及するほどでもない」と判断します。ですから観測数(発行された伝票数)は得られるものをそのまま用います。コピー紙の例では過去3~6カ月分くらいで処理することになると思います。毎月毎月移動窓法で監査します。
④その他の適用例
・このような異常な片寄りの検出のほかに、「ベンフォードの法則」なども使われます。領収書の水増し(頭に1を書き足して提出する)などは、これで見破ります。
教科書に実社会での利活用について述べられていれば、勉強意欲も増すと思います。大学では企業人を招いてオムニバス形式で最先端技術に触れるような特別講義が行われたりしています。逆に私のような社会人は大学の公開講座などで最新の研究成果に触れたりすることもできるのでありがたいです。
引き続き含蓄の多い回答をありがとうございます。
お礼が遅くなり申し訳ありません。
逆正弦変換は少し難しい印象を受けましたが、その他のことは、統計の専門家からすると基本的なことなのだろうと推察します。私は統計についてほとんど知らないため、回答いただいた内容のほぼすべてが初めて耳にすることで、理解が及びません。統計は、統計量の計算結果をどう解釈するのか、という視点を学ぶ必要があると感じました。それぞれの統計量の定義を理解できたとしても、具体例に何度も触れて実感していかないと高度な統計を活用する側にはなれないなぁと。マクロに社会を動かしている専門家は賢いと感じます。また、従来のCAATが、ビッグデータやAI、飽和社会等の変化の激しい時代の中で変革を求められているとも感じました。統計について勉強していきたいと思います。
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
似たような質問が見つかりました
- 統計学 確率統計の問題です。 3 2022/04/07 04:39
- 数学 数学の問題です。 問1: ある(人数の非常に多い)集団から無作為に6名を選んで身長を測ったところ、そ 2 2022/12/09 12:03
- 統計学 確率統計です。赤玉が 3 個、白玉が 7 個入った袋がある。 3 2022/05/07 08:36
- 数学 以下の数学の問題を教えてください。 確率変数Xは標準正規分布N(0、1)に確率変数Yは平均3のポアソ 3 2022/12/02 19:13
- 統計学 統計学の問題です。教えてください(_ _) 数万人の有権者がいる選挙区で, 無作為に400人の標本を 2 2023/02/03 15:27
- 統計学 Excelによるサンプルの拡大について 6 2023/08/22 16:03
- 数学 数学A 確率 白玉5個、赤玉n個の入っている袋がある。 この袋の中から、2個の玉をとりだすとき、白玉 4 2023/04/22 15:18
- 統計学 なんで確率変数1.00の時が標準誤差0.5mmなんですか? 分布関数値が68%前後のとこが標準偏差じ 2 2023/04/26 11:57
- 数学 数学の質問です。 以下の2つの例題を①②と分けます。 ①2/4×2/4ではない理由。 ②0は分母が1 2 2023/07/05 15:46
- 数学 確率 箱の中に赤玉が3個、白玉が3個、青玉が3個入っている。この箱の中から玉を一個ずつ取り出し全ての 4 2023/01/27 18:35
おすすめ情報
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
サンプル数の異なる2群間にお...
-
脳波(EEG)の周波数は0.5~60Hzで...
-
エクセルのグラフから半値幅を...
-
ポアソン回帰でのカウントデー...
-
心理機能診断をしたのですが、...
-
数3の複素数です 12分の25πが12...
-
統計について
-
下の対数表示のグラフから低域...
-
x^2+y^2はどのような分布をする?
-
法学検定アドバンストはどのく...
-
検量線の決定係数について
-
パイロットサンプルって何ですか?
-
エクセルでランダム関数で乱数...
-
EXCELにてローパスフィルタを作...
-
t検定の使いどころ
-
[Excel] リストからの無作為抽出
-
ナイキスト周波数に関して
-
検定の質問です。 有意水準5%、...
-
フーリエ変換の質問です。 一定...
-
単回帰分析と重回帰分析の結果...
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
EXCELにてローパスフィルタを作...
-
サンプル数の異なる2群間にお...
-
心理機能診断をしたのですが、...
-
検量線の決定係数について
-
下の対数表示のグラフから低域...
-
エクセルのグラフから半値幅を...
-
x^2+y^2はどのような分布をする?
-
検定統計量の値がマイナス
-
統計について
-
【統計】有意に「高い」?「低...
-
統計学の基本的なことについて...
-
最小二乗法を反比例の式を元に...
-
心理学の統計について
-
ポアソン回帰でのカウントデー...
-
[Excel] リストからの無作為抽出
-
対数グラフの対数とは・・・?
-
極値をもつ時と持たない時、単...
-
対数目盛の読み方を教えてください
-
溶解度の問題 理科
-
正規分布について
おすすめ情報