データのヒストグラムに、特定の分布関数を当てはめる意味について。

Question

データ解析で、度数分布表をヒストグラムにした後、正規分布などの関数でフィッティングした曲線を、そのヒストグラムに付け加えた図をよく見ます。

1. 何故、ヒストグラムを特定の分布関数でフィッティングするんでしょうか?分布関数に含まれる、平均や分散などの値を求めるためでしょうか?それとも、得られたヒストグラムが、特定の分布に従っていることを主張するためでしょうか?
2. また、ヒストグラムに、フィッティングして得られた曲線を付け加えて、学会のポスターや論文の図にしているのは、そうした方が見やすいためでしょうか?または、本来はそのような連続的な曲線になっていると予想されるが、実際のデータは離散的であるので、理想的な曲線を付加しているという意味でしょうか?

自分で考えただけで、人には聞いたことがなく、思い違いしているかもしれないので、回答お願いします。

h191224 · Accepted Answer

ばらつきのある一群のデータが得られたとき、そのデータが、既知のどのような確率分布に従うかを検討することは、非常に重要なことです。
だから、データに既知の確率分布（パラメトリックな分布）を片っ端から当てはめてみて、当てはまったら、その状態を見せて示すのは、当然のことです。

確率分布というものは、ばらつきの発生原因と、ある程度対応関係があります。
たとえば、「ある値を狙って（特別に作為なく）加工した部品の寸法のばらつき」は、正規分布に従います。
また、「同一機種での、運転開始から故障発生までの運転時間のばらつき」は、ワイブル分布に従います。
逆に、既知の確率分布に従うことがわかれば、そのばらつきの発生原因の推定も、ある程度できることになります。
要は、確率分布に当てはまることには、大きな意義があるわけです。

「片っ端から当てはめる」と言いましたが、標本の性質によっては、最初から当てはまるべき確率分布が、ほぼ決まっているものもあるということです。

当てはまるはずなのに、なぜか当てはまらない場合もあります。その場合には、その原因はどこにあるのか、などの考察のネタになります。
たとえば、上記の加工部品の例で、加工時に、狙った寸法を下回らないように加工するなどの作為が入ると、正規分布にはなりません。

もし、従来はある確率分布に従うとされていたデータを、別の確率分布に従うと主張して見せたいなら、当てはめを行います。（この場合は、当てはまっていない状態を見せることになるかも知れません。）

既知の分布のどれにも従わない場合には、自分で確率密度関数を作るか、ノン・パラメトリックの解析を行うなどの道もあり得ます。

あるデータの集団Ａが、既知の確率分布や自作の確率密度関数に当てはまった場合、各データのＡ内での位置づけ（＝どのくらい特殊な状況なのか？）や、同じ確率分布に従う他の同種の集団ＢとＡの全体的な比較ができるようになります。
工業における信頼性解析や、不良率の解析などは、パラメトリックな確率分布を当てはめた結果可能になると言って過言ではありません。

なお、世の中には、強引に特定の確率分布があてはまるのだとしてしまう悪い例もあります。テストの点数がそうです。平均点が中央値から大きく外れている場合には、正規分布に従うはずもないのですが、正規分布として扱って、得点を偏差値換算して示すのはその悪例の代表です。

ANo.1の方のような、何も当てはめない状態でデータを公表するのは、当てはめてみても、どれも合わない場合に限ると思います。
このような場合には、研究者同士、採取したデータを公表しあって、ある程度蓄積された時点で、どのような確率分布に従うかを検討することになります。
たとえば、「材料の疲労強度の繰り返し回数のばらつき」は、故障の延長なので、ワイブル分布に従うはずだと思われて来ましたが、実際にはなかなかピタッとはフィットしません。未だに、本質的にワイブル分布に従うのかどうかがわかっていないために、とにかく生データを公表し合うようにしている研究グループがあります。
もし、以上のような議論がなされずに、何も当てはめない状態でデータを公表したとすれば、それは発表者が考察を怠っていると指摘されても仕方ありません。

平均や分散を求めるには、特定の確率分布を仮定する必要は全くありません。
単に、たとえば、「平均は、全数を足し合わせて、個数で割れば求まる」などのように、定義に従って、値を求めれば良いだけですので。

h191224 · Answer

確率分布にあてはまっているかどうか、検定する作業は、客観的に行わなければ意味がありません。

もし、検定を、ある人の直感的に行って良いのであれば、あてはめる確率分布を、その人の直感で選ぶことができるわけで、あてはまっているかどうかを示すことができなくなります。

だから、適当な検定方法を適用して、検定を行うわけです。
要するに、客観的な検定は、行うべきです。
客観的な検定を行わなければ、分布の当てはめ自体が意味を持ちません。

では、どのような検定方法があるかというと、私の場合には、すべての確率分布に対して、コルモゴロフ-スミルノフの検定を適用しています。

正規分布だけを対象とするならば、カイ自乗検定があり、こちらの方が良いのですが、他の確率分布への適用は疑問視されています。
これに対し、コルモゴロフ-スミルノフの検定は、正規分布では他の検定法に席を譲るにしても、すべての確率分布に共通に使える点が有利です。

コルモゴロフ-スミルノフの検定は、パラメトリックな確率分布だけでなく、ノンパラメトリックな分布にも適用できますから、非常に都合が良い検定法なのです。
20年前に、この検定法の名前を出すと、「ナンジャア？ソリャア？」と言われたものですが、今では知らないほうが恥ずかしいほどにまで有名になってきました。

ksugahar · Answer

僕の分野では、測定データは測定データのままあまり加工をせずに表示する気がします。したがって、分布関数に載っていることが意味を持つからではないでしょうか？

データのヒストグラムに、特定の分布関数を当てはめる意味について。

ばらつきのある一群のデータが得られたとき、そのデータが、既知のどのような確率分布に従うかを検討することは、非常に重要なことです。

この回答への補足

確率分布にあてはまっているかどうか、検定する作業は、客観的に行わなければ意味がありません。

僕の分野では、測定データは測定データのままあまり加工をせずに表示する気がします。

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング