
データ解析で、度数分布表をヒストグラムにした後、正規分布などの関数でフィッティングした曲線を、そのヒストグラムに付け加えた図をよく見ます。
1. 何故、ヒストグラムを特定の分布関数でフィッティングするんでしょうか?分布関数に含まれる、平均や分散などの値を求めるためでしょうか?それとも、得られたヒストグラムが、特定の分布に従っていることを主張するためでしょうか?
2. また、ヒストグラムに、フィッティングして得られた曲線を付け加えて、学会のポスターや論文の図にしているのは、そうした方が見やすいためでしょうか?または、本来はそのような連続的な曲線になっていると予想されるが、実際のデータは離散的であるので、理想的な曲線を付加しているという意味でしょうか?
自分で考えただけで、人には聞いたことがなく、思い違いしているかもしれないので、回答お願いします。
No.2ベストアンサー
- 回答日時:
ばらつきのある一群のデータが得られたとき、そのデータが、既知のどのような確率分布に従うかを検討することは、非常に重要なことです。
だから、データに既知の確率分布(パラメトリックな分布)を片っ端から当てはめてみて、当てはまったら、その状態を見せて示すのは、当然のことです。
確率分布というものは、ばらつきの発生原因と、ある程度対応関係があります。
たとえば、「ある値を狙って(特別に作為なく)加工した部品の寸法のばらつき」は、正規分布に従います。
また、「同一機種での、運転開始から故障発生までの運転時間のばらつき」は、ワイブル分布に従います。
逆に、既知の確率分布に従うことがわかれば、そのばらつきの発生原因の推定も、ある程度できることになります。
要は、確率分布に当てはまることには、大きな意義があるわけです。
「片っ端から当てはめる」と言いましたが、標本の性質によっては、最初から当てはまるべき確率分布が、ほぼ決まっているものもあるということです。
当てはまるはずなのに、なぜか当てはまらない場合もあります。その場合には、その原因はどこにあるのか、などの考察のネタになります。
たとえば、上記の加工部品の例で、加工時に、狙った寸法を下回らないように加工するなどの作為が入ると、正規分布にはなりません。
もし、従来はある確率分布に従うとされていたデータを、別の確率分布に従うと主張して見せたいなら、当てはめを行います。(この場合は、当てはまっていない状態を見せることになるかも知れません。)
既知の分布のどれにも従わない場合には、自分で確率密度関数を作るか、ノン・パラメトリックの解析を行うなどの道もあり得ます。
あるデータの集団Aが、既知の確率分布や自作の確率密度関数に当てはまった場合、各データのA内での位置づけ(=どのくらい特殊な状況なのか?)や、同じ確率分布に従う他の同種の集団BとAの全体的な比較ができるようになります。
工業における信頼性解析や、不良率の解析などは、パラメトリックな確率分布を当てはめた結果可能になると言って過言ではありません。
なお、世の中には、強引に特定の確率分布があてはまるのだとしてしまう悪い例もあります。テストの点数がそうです。平均点が中央値から大きく外れている場合には、正規分布に従うはずもないのですが、正規分布として扱って、得点を偏差値換算して示すのはその悪例の代表です。
ANo.1の方のような、何も当てはめない状態でデータを公表するのは、当てはめてみても、どれも合わない場合に限ると思います。
このような場合には、研究者同士、採取したデータを公表しあって、ある程度蓄積された時点で、どのような確率分布に従うかを検討することになります。
たとえば、「材料の疲労強度の繰り返し回数のばらつき」は、故障の延長なので、ワイブル分布に従うはずだと思われて来ましたが、実際にはなかなかピタッとはフィットしません。未だに、本質的にワイブル分布に従うのかどうかがわかっていないために、とにかく生データを公表し合うようにしている研究グループがあります。
もし、以上のような議論がなされずに、何も当てはめない状態でデータを公表したとすれば、それは発表者が考察を怠っていると指摘されても仕方ありません。
平均や分散を求めるには、特定の確率分布を仮定する必要は全くありません。
単に、たとえば、「平均は、全数を足し合わせて、個数で割れば求まる」などのように、定義に従って、値を求めれば良いだけですので。
この回答への補足
詳細なご回答ありがとうございました。ご回答いただいた内容で、お聞きしたいことがあります。
得られたデータ系列の従う確率分布が分からない場合は、正規分布等の一般的によく知られている確率密度関数を一つ一つ当てはめていくことになると思うのですが、その分布に"当てはまった"か、"当てはまってない"かはどのように判断すればいいんでしょうか?目で直感的に判断する程度でいいんでしょうか?それとも、検定等をすることが可能で、そして、すべきなんでしょうか?
No.3
- 回答日時:
確率分布にあてはまっているかどうか、検定する作業は、客観的に行わなければ意味がありません。
もし、検定を、ある人の直感的に行って良いのであれば、あてはめる確率分布を、その人の直感で選ぶことができるわけで、あてはまっているかどうかを示すことができなくなります。
だから、適当な検定方法を適用して、検定を行うわけです。
要するに、客観的な検定は、行うべきです。
客観的な検定を行わなければ、分布の当てはめ自体が意味を持ちません。
では、どのような検定方法があるかというと、私の場合には、すべての確率分布に対して、コルモゴロフ-スミルノフの検定を適用しています。
正規分布だけを対象とするならば、カイ自乗検定があり、こちらの方が良いのですが、他の確率分布への適用は疑問視されています。
これに対し、コルモゴロフ-スミルノフの検定は、正規分布では他の検定法に席を譲るにしても、すべての確率分布に共通に使える点が有利です。
コルモゴロフ-スミルノフの検定は、パラメトリックな確率分布だけでなく、ノンパラメトリックな分布にも適用できますから、非常に都合が良い検定法なのです。
20年前に、この検定法の名前を出すと、「ナンジャア?ソリャア?」と言われたものですが、今では知らないほうが恥ずかしいほどにまで有名になってきました。
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
似たような質問が見つかりました
- C言語・C++・C# このプログラミング誰か教えてくれませんか 1 2022/06/02 15:27
- 数学 ヒストスプライン平滑化をする際の節点の決め方ついて教えてください。 9 2022/08/08 16:17
- 統計学 信頼区間についての質問です。 6 2023/06/25 17:34
- 統計学 確率統計の問題です。 3 2022/04/07 04:39
- 統計学 統計学、エクセルがわかりません!解答と詳しい解説をお願いします! (1)それぞれの地域別に記述統計量 9 2022/08/21 16:30
- 数学 数学 2変数データで、「相関係数=−1」の散布図を書く際 写真に これら5組のデータの散布図を描くと 4 2023/02/15 10:46
- その他(応用科学) ヒストグラムはどんなとき作りますか? 分布図作っても読めなかったら意味ないですか? 1 2022/12/28 14:50
- 数学 参考文献の探し方(数学) 1 2022/07/19 01:09
- 統計学 母集団分布を平均 μ, 分散 σ2 の正規分布と想定し, 母集団から無作為抽出した標本のデータ(標本 4 2023/01/30 20:25
- 統計学 授業で、統計局による世界の統計 2022(https:/www.stat.go.jp/data/se 8 2023/01/30 21:55
おすすめ情報
- ・漫画をレンタルでお得に読める!
- ・「それ、メッセージ花火でわざわざ伝えること?」
- ・ゆるやかでぃべーと すべての高校生はアルバイトをするべきだ。
- ・【お題】甲子園での思い出の残し方
- ・【お題】動物のキャッチフレーズ
- ・人生で一番思い出に残ってる靴
- ・これ何て呼びますか Part2
- ・スタッフと宿泊客が全員斜め上を行くホテルのレビュー
- ・あなたが好きな本屋さんを教えてください
- ・かっこよく答えてください!!
- ・一回も披露したことのない豆知識
- ・ショボ短歌会
- ・いちばん失敗した人決定戦
- ・性格悪い人が優勝
- ・最速怪談選手権
- ・限定しりとり
- ・性格いい人が優勝
- ・これ何て呼びますか
- ・チョコミントアイス
- ・単二電池
- ・初めて自分の家と他人の家が違う、と意識した時
- ・「これはヤバかったな」という遅刻エピソード
- ・ゴリラ向け動画サイト「ウホウホ動画」にありがちなこと
- ・泣きながら食べたご飯の思い出
- ・一番好きなみそ汁の具材は?
- ・人生で一番お金がなかったとき
- ・カラオケの鉄板ソング
- ・自分用のお土産
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
サンプル数の異なる2群間にお...
-
EXCELにてローパスフィルタを作...
-
検量線の決定係数について
-
Rで重回帰分析をして、信頼区間...
-
下の対数表示のグラフから低域...
-
パイロットサンプルって何ですか?
-
エクセルのグラフから半値幅を...
-
【統計】有意に「高い」?「低...
-
統計学のサンプル数2000の根拠は?
-
看護研究でサンプルサイズが異...
-
統計学を使いこなせるようにな...
-
XRDその他のグラフ作成について
-
最小二乗法を反比例の式を元に...
-
Fisherの直接確率検定(両側・片...
-
アンケートの集計分析の基礎(...
-
データのヒストグラムに、特定...
-
t検定を繰り返してはいけない理...
-
吸光度から検量線・回帰直線を...
-
v-xグラフのようなものは描けま...
-
エクセルの統計でχ二乗検定の結...
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
サンプル数の異なる2群間にお...
-
EXCELにてローパスフィルタを作...
-
極値をもつ時と持たない時、単...
-
エクセルのグラフから半値幅を...
-
検量線の決定係数について
-
統計について
-
【統計】有意に「高い」?「低...
-
最小二乗法を反比例の式を元に...
-
下の対数表示のグラフから低域...
-
統計学の問題でわからないので...
-
変化率のみで、有意差の検定は...
-
線形なグラフとはひとくちに言...
-
パイロットサンプルって何ですか?
-
アンケートの集計分析の基礎(...
-
検定統計量の値がマイナス
-
一元配置分散分析のp値が0になる
-
理科のグラフで、直線と曲線の...
-
心理機能診断をしたのですが、...
-
IGORの使い方
-
対応のあるt検定の結果の書き方
おすすめ情報