統計学を学ぶこと

Question

今正規分布について勉強しているのですが、正規分布について十分に理解できていないまま勉強をしています…。データが正規分布するということはどういうことなのでしょうか？正規分布していることが分かったら何か利点でもあるのでしょうか？いろいろ調べたけれどよく分かりませんでした。また、今学んでいる統計学が今後どのように応用できるのかなと疑問にも思います。もしよければ教えてください。

Piazzolla · Accepted Answer

ご存知かもしれませんが、正規分布はガウス分布とも呼ばれるように、数学者ガウスが天体測定をしているとき、誤差に何か法則があることを発見しました。測定誤差などがランダム的に多く存在するときの誤差の分布が正規分布です。
ある母集団の性質を調べようとしたとき、その全てを調査するのは、通常不可能ですから、その一部である標本を抽出し平均値などから、母集団がどのような分布なのか期待値を調べたりするわけです。

逆にいえば、標本データの分布が正規分布であれば、サンプルデータ数も十分であり、偏りのない良い調査が行われたことを意味します。
（ただし、サンプル数が少ない場合は、ｔ分布、あまり起こらないようなことを調べるポアソン分布など、そもそもの目的が違う場合もあります。）

統計手法には、まだ様々なものがあり、正規分布は重要ではありますが、基本的なことしか知ることができません。
株式やお店の売上など予測が必要なもの、お客さんの商品に対する嗜好や満足度、研究者であれば実験の解析、交通や世論の調査など、様々なところで用いられています。

ほとんどの職業は建て前はどうであれ、営利を目的としてますから、商品やお客に対する統計分析は必要なはずです。しかし、お金や時間がかかり、あるいは長年の勘と経験でうまくこなしていく会社が多く、統計を学んでも活躍できる場が少ないかもしれません。

しかし、そうであれば、新しいプロジェクトや予算獲得のためのプレゼンテーションで、統計的に裏づけのあるデータを提示できれば、大いに活躍できると思います。

selfer · Answer

こんにちは．統計学を専門に勉強している者ではありませんが，道具としての統計解析法を勉強している者です．

統計学を「データの解析学」と考えますが，一般的に統計学は記述統計学と推測統計学の二種類に大別されます．

集めたデータをいかに効果的に記述するかを考えるのが記述統計学です．記述統計学の分野では，データがどのように分布しているのかを効果的に記述するために，典型的な分布パターンにどのようなものがあるかが調べられており，そのパターンの中に正規分布があります．

統計学にはもう一つ大きな分野として推測統計学というものがあります．ビジネス分野をはじめとして，一般の意味で使われる「統計学」とはこちらを意味することが多いです．
例えば，「30台の日本人主婦」はどのような消費意識を持っているかを調べようと考えたとします．正確に調べるのならば，日本全国の30台の日本人主婦の協力を得て，主婦の人たちから意識調査のデータを入手しなければなりません．しかし，これがどれほど大変なこと（事実上無理）であるかはおわかりいただけると思います．
そこで，全国の30台主婦は無理だけど，全国の中から（本来は無作為に抽出した）一部の30台主婦のデータを集めるのは，なんとかできそうです．この「一部の主婦」を「全国の主婦」の代表と考えるわけです．

ただし……今，簡単に代表と言いましたが，本当に代表と考えて良いのかどうかは悩むところです．
「一部の主婦の意識は○○だ」と結論が得られたとしても，それを直ちに「全国の主婦の意識も○○だ」と結論づけるのには抵抗があります．何故ならば，その「一部」が「全国」から見て代表的といえるのかどうか，あるいは単に全国平均とは異なる特別な意識の持ち主かもしれないわけです．
そこで「一部　→　全国」へと結論を一般化する場合には，【その結論を一般化して良いかどうか】，【「一部」の結論から「全国」の結論を＜推測＞して良いかどうか】が問題となります．推測統計学とは，このような推測を行う場合に関するデータの解析学なのです．

さて，推測統計学では，「そのような推測を行っても良い確率が○○％」だというように，確率の形でデータを分析します．これは統計学が確率論をベースとした学問だからです．
さて，この辺からは話が難しくなるので詳細は教科書などで調べてもらいたいのですが，簡単に言えば，この「○○％」という確率を求める時に「データの分布」を考える必要があるのです．
でも，データがどのような分布をしているかは，それぞれのデータによって異なりますよね？　正規分布であるものもあれば，それ以外の分布もあり得ます．
本当は，それぞれのデータの分布が何かを考えて，その分布を考慮して「○○％」という確率を求めるのが望ましいのですが，それは非常に手間がかかり，大変なことです．

そこで統計学者さんは，いろいろと研究を進めていくうちに，「ある条件を満たしている場合，どんなデータであっても，そのデータを加工することによって，正規分布になる（より正確には，データから無作為に抽出した「標本分布の平均値」の分布は，標本が十分に大きい場合，正規分布になる……いわゆる中心化極限定理です）」というすごい法則を発見してくれました．

そして発想を逆転します．「個別データはどんな分布になるかはわからないが，そのデータに一定の操作を加えて分析を行えば，その加工データは正規分布になる」→「どんなデータも，加工することにより，最終的に正規分布になると考えられる」→「ならば正規分布を仮定して，いろいろなデータ解析法を開発する方が効率的ではないか？！」

このような考えの基に，（推測）統計学で紹介されている多くのデータ解析法は「正規分布」をベースとしてます．

＞　データが正規分布するということはどういうことなのでしょうか？
＞　正規分布していることが分かったら何か利点でもあるのでしょうか？

利点がある，というよりは，主流の推測統計学の道具が正規分布を仮定している，ということです．正規分布しているならば，推測統計学の道具を使っても良いと言うことになります．
※ただし，この場合の正規分布とは，加工データ（平均値データ）の分布のことであり，ある条件を加えれば，多くのデータが正規分布になります．

質問者さんはｔ検定や分散分析などの推測統計学の道具をご存知でしょうか？　正規分布うんぬんの話は，このような道具を使う時に問題となります．記述統計学の分野では，正規分布にこだわる利点はあまり感じられないかもしれません．
道具についての勉強をしてみると，正規分布の重要性を実感できると思います．

統計学を学ぶこと

ご存知かもしれませんが、正規分布はガウス分布とも呼ばれるように、数学者ガウスが天体測定をしているとき、誤差に何か法則があることを発見しました。

こんにちは．統計学を専門に勉強している者ではありませんが，道具としての統計解析法を勉強している者です．

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング