少し変なことを言っているかもしれませんが、そこを含めて教えてください。
例えば、「近年10年でヒットした映画の上映時間」のデータを100集めたとします(例なので、データの内容については深く突っ込まないでください)。それを使い、ヒストグラムを描いたとします。そこで、データ(ヒストグラム)がどのような分布に従うのかを、自分が知るにはどうしたら良いのでしょうか。
私としては、データから平均や分散なんかを求めてから、自分の知っている分布(正規分布、ガンマ分布、指数分布…等)の確率密度関数をヒストグラムの上に描いてあてはめて、何となくこれがピッタリかな、みたいに考えるという方法を思っています。もしこれが正しいのなら、「ピッタリかな」の部分は、どのように考えて判断すれば良いのでしょう。
この2点、ないしは最初の1点について、教えてください。
No.2ベストアンサー
- 回答日時:
企業でSQCを推進する立場にある者です。
①どんな分布かなあ、というのは、
一般的には、ヒストグラムではなく「推定累積確率」に変換して種々の「確率紙」というものにプロットします。そして、どの分布関数を使ったら直線に乗るかで判断します。一般の統計ソフトには、その機能があります。4~6種類くらいの分布関数について検討してくれます。
②次は、仮定した分布とどれだけピッタリ一致しているかですが、
一般的には、「MSE」(平均2乗誤差)の大きさで評価します。これも、一般の統計ソフトには、その機能があります。
「」内の語句は、ググれば出てくると思います。
ただ、サイトによっては、正規確率紙とワイブル確率紙しか書いてないものもあります。対数正規分布やガンマ分布などは、統計ソフトのサイトを見た方が良いです。
全てのものを読みました。非常に詳しく、具体的に何を使って何をすべきかよく分かり、とても参考になりました。私にとって少し難しいものもありましたが、何とかやってみようと思います。
回答ありがとうございました。
No.4
- 回答日時:
#2です。
たびたびスミマセン。
どんな分布かは、確率紙。
どれだけピッタリかは、MSE。
これは良いのですが、データはもともとヒストグラムにしかできないような離散値ですか。
離散値の場合は、観測値の大きさ順に並び変えて「推定累積確率(メディアンランクなど)」に直すと、同じ観測値なのに累積確率値が異なるサンプルが存在するという現象が起きます。累積グラフにすると階段グラフになるような感じです。
もとの累積グラフが階段状だと、確率紙でも直線になりませんので、生データの代わりに「連続性補正」「連続修正点」を使って調査します。
卒論レベルであれば、上記のことは気にしないで下さい。修論以上はレポジトリで一般公開されますので、少し気になさってください。
一応、「連続性補正」はWikiに詳細な説明があります。
ただ、連続修正点は、全体のn数が違ってきます。MSEを計算するときは、ordered factorという値に直さないとなりませんが、ご質問者のレベルを大幅に超えていると思いますので、ここでやめておきます。
No.3
- 回答日時:
#2です。
②を補足させて下さい。(#2の回答②はちょっと自信がないです)
どれだけピッタリかの件、
確率紙の縦軸は確率だから、一致度は「逸脱度」,尤離度,deviance(全て同じ意味)を使うべきだろ、との指摘を受けそうです。deviance=-2×(対数尤度)です。
ところが、データのばらつきは確率紙の横方向です。これが回帰モデルと異なる点です。信頼区間も横方向に取ります。
Minitabなどの海外ソフトはそういう信頼区間を作図しますが、どうも日本の統計ソフトは上下方向に信頼区間を描いている気がします。
ですから、私はピッタリ度は縦方向に見るのではなく横方向に見るべきで、そのときはデータの乖離のMSEで良いと思います。
「」内についてはググれば出てきます。
この問題については、もう少し勉強しなければ回答すべきではありませんでした。すみません。
No.1
- 回答日時:
何を「分析」したいのかわかりません。
単に、「既存の典型的な分布形」へのフィッティングをしたいということ? だったら、まずお求めの統計事象がどのようなメカニズムに基づく分布なのかを「分析」することが先決ではないでしょうか。その「本来こうあるべき」分布に対し、得られた結果がどの程度の「一致度」(あるいは「ばらつき度」)を持っているかを調べたいのでは?
漠然と「この分布、まるで○○分布みたいだね」といったところで、意味があってそうなってるのか、「他人の空似」「偶然の一致」なのかが分からなければ、何の意味もないと思うのですが。
(統計のうち「推測統計」は、そういった「意味があってそうなってるのか(有意である)」か、単なる統計的なばらつきかを判断するツールになります)
忖度するに、やりたいのは、例えば「ここ10年間に作られた劇場用映画すべての上映時間」の分布があって、それと「ヒットした上位100本」の上映時間とを比べて、「ヒットの要因として上映時間が影響するかどうか」を調べたいとかではないのですか?
集計するにしても分析するにしても、何らかの「目的」がなければ「方法・手法」を設定できないのではないでしょうか?
的外れな回答ならスルーしてください。
単にどのような分布に一致するかどうか調べる、というようなタスクで、それ自体が「目的」となってます。本当の「データ分析」ならば、おっしゃる通りだと思いました。
回答ありがとうございました。
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
似たような質問が見つかりました
- 統計学 確率統計の問題です。 3 2022/04/07 04:39
- C言語・C++・C# このプログラミング誰か教えてくれませんか 1 2022/06/02 15:27
- 数学 ヒストスプライン平滑化をする際の節点の決め方ついて教えてください。 9 2022/08/08 16:17
- 統計学 統計学、エクセルがわかりません!解答と詳しい解説をお願いします! (1)それぞれの地域別に記述統計量 9 2022/08/21 16:30
- 統計学 信頼区間についての質問です。 6 2023/06/25 17:34
- 統計学 母集団分布を平均 μ, 分散 σ2 の正規分布と想定し, 母集団から無作為抽出した標本のデータ(標本 4 2023/01/30 20:25
- 数学 至急!次の問題を教えてください。 ある市では、消防車の出動要請が平均して1時間当たり1回ある。 多く 2 2022/11/18 20:25
- 統計学 統計学の問題です。 数学 51 49 23 77 78 56 44 37 7 29 80 61 36 1 2023/02/03 15:24
- 数学 以下の数学の問題を教えてください。 確率変数Xは標準正規分布N(0、1)に確率変数Yは平均3のポアソ 3 2022/12/02 19:13
- 数学 高校の数学Bの、確率分布と統計的な推測の、 正規分布の問題でわからない箇所がございます。問題文が、 2 2022/03/27 20:57
おすすめ情報
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
検量線の決定係数について
-
EXCELにてローパスフィルタを作...
-
統計学の基本的なことについて...
-
サンプル数の異なる2群間にお...
-
エクセルのグラフから半値幅を...
-
下の対数表示のグラフから低域...
-
溶解度の問題 理科
-
最小二乗法を反比例の式を元に...
-
心理機能診断をしたのですが、...
-
統計学のサンプル数2000の根拠は?
-
統計学の問題でわからないので...
-
対数グラフの対数とは・・・?
-
標準偏差の分母にルートをかけ...
-
z値p値とはなんですか?
-
心理学の統計について
-
検量線の作り方
-
全商推薦について教えてください。
-
相関係数
-
v-xグラフのようなものは描けま...
-
物理 波
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
EXCELにてローパスフィルタを作...
-
サンプル数の異なる2群間にお...
-
心理機能診断をしたのですが、...
-
エクセルでランダム関数で乱数...
-
ブラック・ショールズ方程式を...
-
複数の集団の全体平均が0より有...
-
検量線の決定係数について
-
ポアソン回帰でのカウントデー...
-
青い下線部分はなぜそうなるの...
-
統計学の問題でわからないので...
-
[Excel] リストからの無作為抽出
-
x^2+y^2はどのような分布をする?
-
エクセルのグラフから半値幅を...
-
統計について
-
極値をもつ時と持たない時、単...
-
エクセルで正規分布かどうかを...
-
パイロットサンプルって何ですか?
-
データが正規分布しているか判...
-
回帰分析の回帰係数のt検定
-
正規分布について
おすすめ情報