最尤推定法について

Question

最尤法を勉強しています。
当方、確率・統計が苦手でして、できれば初心者にわかるように解説お願いします。初歩的なことなのかもしれませんが、

最尤推定法：
未知の母数ｐをいろいろ変化させて，調査して得られた実際のデータが起こる確率が１番大きくなるようなｐの値を用いて母数の推定値とする方法
（http://izumi-math.jp/T_Syoda/estimate.pdfを参考にしました）

とありますが、どうしてこのときのｐを最良推定値として良いのでしょうか？これがわかれば、データの分布がこの問題のようにベルヌーイ施行だろうが、あるいはガウス分布であろうが理解できると思うのです。wikiの方も確認していますが、結局、根本は同じだと思います。

理解している方、よろしくお願い致します。

gef00675 · Accepted Answer

＃１の方の回答のように、「実際に得られた結果を実現するように母数pを選ぶのがよかろう」というのが、たぶん一番直観的な説明と思う。

あえて理屈っぽい説明をすると、質問にあった母数pの二項分布B(n,p)の例では、
n回の試行によって、k回実現する確率は
C[n,k]*p^k*(1-p)^(n-k),  （C[n,k]は2項係数）
だから、尤度は
L(p)=C[n,k]*p^k*(1-p)^(n-k)
この最大値を計算するには、対数をとっておくと計算がしやすくて、
log L(p)=k*log(p)+(n-k)*log(1-p)+log C[n,k]
最大値を求めるため微分して0とおくと、
(d/dp)log L(p)=k/p+(n-k)/(1-p)=0
これを解いて得られる推定の式は、
p=k/n
となる。この式は、難しいことを何も考えずに、「n回やってk回起ったのだから、1回あたりk/nの確率で起るのだろう」と単純に考えたのと何ら変わらない式である。
これが、良い推定値になっているかをチェックしてみよう。

１．まず、nを大きくしたらどうなるか？
　大数の法則によって、k/nはpに収束する。あたり前である。そういう割合k/nが、確率pの意味であった。

２．k/nの平均はどうなっているか？
　二項分布の平均値は、E[k]=npであったから、E[k/n]=pになっている。つまり、k/nという推定値は、平均的にpのまわりでばらつくといえる。OKである。

３．k/nの分散（＝推定の誤差）はどうなっているか？
　二項分布の分散は、Var[k]=np(1-p)であったから、k/nの分散はVar[k/n]=np(1-p)/n^2=p(1-p)/nになる。実は、pを推定するときの誤差をこれ以上小さくすることはできない。pを推定するために、E[θ(k)]=pを満たすような他のどんな式θ(k)をつかっても、その分散は常に
Var[θ(k)]≧1/E[(((d/dp)log L(p))^2]。。。（＃）
=1/E[(k/p+(n-k)/(1-p))^2]=p(1-p)/n
となって、最尤推定の式k/nの分散の値p(1-p)/nより大きくなってしまうのである。（＃）をクラメール・ラオの不等式という。

こうして、pを推定する式p=k/nは、平均的に誤差が最も小さいという意味で、「最も良い推定値」になっているということが確認できた。
というのが、統計的推定の理論である。。。なるべく直観的にと思ったが、推定の誤差が一番小さくなるという以外に、良い推定値であることの説明を思いつかなかった。

quaestio · Answer

直感的にとのことなので図で考えたほうがよいと思います。

まず未知母数pがどんな値でもいいのですが、その確率（密度）分布を考えてください。
いうまでもなく確率（密度）の大きいあたりが実現しやすい値です。

次に、未知母数、確率変数及び確率（密度）を軸にして、3次元の図を描いてみてください。
未知母数を一定にして考えれば普通の確率（密度）分布です。
しかしわかっているのは確率変数の実現値だけですので、確率変数を一定にした未知母数対確率（密度）の図を考えて見ましょう。

確率（密度）分布の場合、確率（密度）の大きいところが実現しやすい値でしたので、未知母数対確率（密度）の図でも確率（密度）の大きいところが一番ありうることではと考えるのが最尤推定法です。

ただし、未知母数対確率（密度）の図は確率（密度）分布ではありませんので、確率（密度）の軸もそのまま確率（密度）と考えるわけにはいかなくなります。

gef00675 · Answer

未知母数の推定とは、要するにデータXkを変数とする、ある関数をθ(X1,X2,...,Xn)を適当に作ってやり、これがなるべく母数ｐに近い値になるようにしてやろうということ。そのような関数θ(X1,X2,...,Xn)の決め方はいろいろあって、その一つが最尤推定（maximum likelihood estimator; MLEと略す)。対象とする分布の関数形がわかれば、MLEは割と簡単に計算できることが多い。

その際、何をもって「良い推定値」とするかには、いろいろな基準がある。
一致性：　n→∞の極限で、θがｐに収束すること。これが成り立たないと話にならない。MLEはたいてい、これを満たす。

不偏性：　θの平均がｐと等しいこと。p=E(θ)。これも成り立っていてほしいが、MLEは、不偏性を満たす場合と、満たさない場合がある。

有効性：　θが不偏で、かつ、θの分散が最小であること。つまり、他の推定の式で得られた推定値よりも、必ずばらつき（＝誤差）が小さくなっているということで、ある意味、これ以上良い結果は得られないといえる。ただし、そのような関数θが必ず見つかるとは限らない。（分散の最小値の存在はクラメール・ラオの不等式によって保証されるが、式の構成が難しいということである。簡単にできる例としては、最良線形不偏推定量BLUEがある。）

漸近有効性：　有効性の条件を少し緩めて、小さいｎでの有効性はあきらめて、大きいｎで分散が最小値に近くなればよしとする。（正確な定義は少し難しい）MLEは漸近有効性を満たす。

十分性：　データXkが与えられたときのθの条件付確率分布が母数によらないこと。ちょっと説明しにくいが、条件付確率が元の母数pによらないということは、データXkから得られた情報をすべて使い尽くしていることを意味すると思ってほしい。推定値が母数に近いかどうかではなく、推定の式θを本質的に改良する余地が残っていないことを基準にしている。MLEは十分性を満たす。

一例として、独立かつ同一の正規分布から得られたデータに基づいて、分布の平均μを推定する式：θ＝(x1+x2+...+xn)/nは上記の性質をすべて満たす。ありふれた式だが、その仮定のもとで、これ以上良い式はないということである。

だいたい、以上のことが、最尤推定法が用いられる根拠になっている。ただ、推定というのはいろいろな考え方ができる（答えが一つに決まらない問題！）から、絶対に最尤推定法を用いなければならない、というわけでもない。

LTCM1998 · Answer

ちょっとガサツな理解なのですが。

サイコロを5回投げて、5回とも“6”の目が出る確率は、ふつうに考えれば(1/6)^5という、低いものになりますよね。
それは、「サイコロが正六面体でゆがみがない」と知っている前提があって、確率を考えるからです。
しかし、サイコロの全体像が見えなくて、スロットマシンのような窓から出た目だけが観測できる状態だとします。
「6が出たぞ」と出た目は分かりますが、次に“7”や“100”、あるいは“－１０”が出るかもしれず、予測ができません。
この場合に、「いままで連続5回、“6”が出たから、どうやらこの窓に一番出やすいのは“6”らしい」として、確率を推定するのが最尤法です。
全体像が明らかではないために、観測データをもとに、そういう値がもっとも出やすい確率を考えているわけです。
上記の「6ばっかり出る」スロットサイコロでは、“6”以外の目が出る確率が低くないと、現実の5連続“6”を説明できなくなる、と言い換えてもいいでしょう。

おっしゃるように、データの分布がどのような形をしていようと、サンプル数が大きく独立かつ同一ならば、中心極限定理が使えます。
スロットサイコロでいえば、たくさんやれば、いちばん出やすい“6”を中心とする正規分布に近づきます。
“6”がこんなに出るんだ、という事実(観測値)にあわせて、確率を知ろうとしているわけです。

最尤推定法について

＃１の方の回答のように、「実際に得られた結果を実現するように母数pを選ぶのがよかろう」というのが、たぶん一番直観的な説明と思う。

直感的にとのことなので図で考えたほうがよいと思います。

未知母数の推定とは、要するにデータXkを変数とする、ある関数をθ(X1,X2,...,Xn)を適当に作ってやり、これがなるべく母数ｐに近い値になるようにしてやろうということ。

この回答への補足

ちょっとガサツな理解なのですが。

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング