統計学、データ分析の話です。

Question

少し変なことを言っているかもしれませんが、そこを含めて教えてください。
例えば、「近年１０年でヒットした映画の上映時間」のデータを１００集めたとします（例なので、データの内容については深く突っ込まないでください）。それを使い、ヒストグラムを描いたとします。そこで、データ（ヒストグラム）がどのような分布に従うのかを、自分が知るにはどうしたら良いのでしょうか。
私としては、データから平均や分散なんかを求めてから、自分の知っている分布（正規分布、ガンマ分布、指数分布…等）の確率密度関数をヒストグラムの上に描いてあてはめて、何となくこれがピッタリかな、みたいに考えるという方法を思っています。もしこれが正しいのなら、「ピッタリかな」の部分は、どのように考えて判断すれば良いのでしょう。
この２点、ないしは最初の１点について、教えてください。

kamiyasiro · Accepted Answer

企業でSQCを推進する立場にある者です。

①どんな分布かなあ、というのは、
一般的には、ヒストグラムではなく「推定累積確率」に変換して種々の「確率紙」というものにプロットします。そして、どの分布関数を使ったら直線に乗るかで判断します。一般の統計ソフトには、その機能があります。４～６種類くらいの分布関数について検討してくれます。

②次は、仮定した分布とどれだけピッタリ一致しているかですが、
一般的には、「MSE」（平均２乗誤差）の大きさで評価します。これも、一般の統計ソフトには、その機能があります。

「」内の語句は、ググれば出てくると思います。
ただ、サイトによっては、正規確率紙とワイブル確率紙しか書いてないものもあります。対数正規分布やガンマ分布などは、統計ソフトのサイトを見た方が良いです。

kamiyasiro · Answer

#2です。

たびたびスミマセン。
どんな分布かは、確率紙。
どれだけピッタリかは、MSE。

これは良いのですが、データはもともとヒストグラムにしかできないような離散値ですか。

離散値の場合は、観測値の大きさ順に並び変えて「推定累積確率（メディアンランクなど）」に直すと、同じ観測値なのに累積確率値が異なるサンプルが存在するという現象が起きます。累積グラフにすると階段グラフになるような感じです。

もとの累積グラフが階段状だと、確率紙でも直線になりませんので、生データの代わりに「連続性補正」「連続修正点」を使って調査します。

卒論レベルであれば、上記のことは気にしないで下さい。修論以上はレポジトリで一般公開されますので、少し気になさってください。
一応、「連続性補正」はWikiに詳細な説明があります。

ただ、連続修正点は、全体のn数が違ってきます。MSEを計算するときは、ordered factorという値に直さないとなりませんが、ご質問者のレベルを大幅に超えていると思いますので、ここでやめておきます。

kamiyasiro · Answer

#2です。

②を補足させて下さい。（#2の回答②はちょっと自信がないです）

どれだけピッタリかの件、
確率紙の縦軸は確率だから、一致度は「逸脱度」，尤離度，deviance（全て同じ意味）を使うべきだろ、との指摘を受けそうです。deviance＝－2×(対数尤度)です。

ところが、データのばらつきは確率紙の横方向です。これが回帰モデルと異なる点です。信頼区間も横方向に取ります。
Minitabなどの海外ソフトはそういう信頼区間を作図しますが、どうも日本の統計ソフトは上下方向に信頼区間を描いている気がします。

ですから、私はピッタリ度は縦方向に見るのではなく横方向に見るべきで、そのときはデータの乖離のMSEで良いと思います。

「」内についてはググれば出てきます。

この問題については、もう少し勉強しなければ回答すべきではありませんでした。すみません。

yhr2 · Answer

何を「分析」したいのかわかりません。

単に、「既存の典型的な分布形」へのフィッティングをしたいということ？　だったら、まずお求めの統計事象がどのようなメカニズムに基づく分布なのかを「分析」することが先決ではないでしょうか。その「本来こうあるべき」分布に対し、得られた結果がどの程度の「一致度」（あるいは「ばらつき度」）を持っているかを調べたいのでは？
漠然と「この分布、まるで○○分布みたいだね」といったところで、意味があってそうなってるのか、「他人の空似」「偶然の一致」なのかが分からなければ、何の意味もないと思うのですが。
（統計のうち「推測統計」は、そういった「意味があってそうなってるのか（有意である）」か、単なる統計的なばらつきかを判断するツールになります）

忖度するに、やりたいのは、例えば「ここ10年間に作られた劇場用映画すべての上映時間」の分布があって、それと「ヒットした上位100本」の上映時間とを比べて、「ヒットの要因として上映時間が影響するかどうか」を調べたいとかではないのですか？

集計するにしても分析するにしても、何らかの「目的」がなければ「方法・手法」を設定できないのではないでしょうか？

的外れな回答ならスルーしてください。

統計学、データ分析の話です。

企業でSQCを推進する立場にある者です。

#2です。

#2です。

何を「分析」したいのかわかりません。

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング