機械学習と統計学の回帰分析

Question

機械学習にも統計学にも回帰分析があると思いますが、違いがよくわかりません。
最小二乗法に関しては変数名が違うだけ？に思えるのですがはっきりとはわかりません。
どなたかお分かりにならないでしょうか。

kamiyasiro · Accepted Answer

企業でSQCを推進する立場の者です。

この分野の社内講師をしています。

回帰分析が、単回帰分析を意味するのであれば、古典論でも機械学習でもβ＝Sxy／Sxxで同じですが、重回帰分析になると、両者は異なってきます。

線形重回帰分析については、
・古典論は、ε(β)＝Σ(yーXβ)^2　（いわゆる偏差平方和）を最小化するという基準でβを求め、
β＝(XTX)^-1・XT・y　という係数ベクトルが求められますが、#2さんがおっしゃっているように、Xが過飽和であるとか線形制約が入る時に、XTXの逆行列が求められず破綻します。
非線形重回帰分析では、
・残差の仮定がノンパラになりますので、上記のような最小二乗法ではなく最尤法などでβを求めます。最尤回帰、ベイズ回帰などがあります。実は古典論の中でも違いがあると言えばあるのです。

一方、
・機械学習では、ε(β)＝Σ(yーXβ)^2　＋λΣ|β|　のように偏差平方和に対して、罰則項を課したものを最小化するという基準でβを求めます。L1正則化回帰、罰則付き回帰、スパースモデリングなどと呼ばれます。
・こうすることで、サンプルが少なく過飽和であっても、線形制約が入っていてもβベクトルが得られるようになります。
・しかし、このときβは一意に決まらず、λによって値が異なります。#2さんがおっしゃっているように汎化能力を最大化するように罰則係数λを決めてβを求めたりします。
・このL1正則化回帰は1996年スタンフォード大のチブシャアーニ先生が発表されたものですが、最近では沢山の応用が出てきていますので、ウィキペディアの「正則化」などで調べてみてください。

nak_7000 · Answer

回帰分析法ですよね。
そこに違いなど無いと思いますが、、、
変数記号はそれぞれで違う事は多々あるので、変数名が違うからといって本文に何の支障もないのでは？

stomachman · Answer

機械学習は昔はパターン認識と呼ばれていた。そういう広い意味では人工ニューラルネットの形式になっているとは限らない。もう一方は回帰分析じゃなくて回帰の話でしょう。回帰の目的は分析ではない。多数のサンプルをわずかな数のパラメータで表される簡単な関数で近似し、近似とサンプルとのずれ（残差, residue）はとりあえずノイズだと思って切り捨ててしまう。パラメータを決めるための一つの方法が最小二乗法です。
　機械学習においてはこれは汎化の方法です。サンプルとぴったり同じではないが大体近いデータが来たときに適切に反応できる、という能力が汎化であり、そのために近似関数を使って補間を行う。
　機械学習ではパラメータの数がサンプルの数よりずっと多い、ということがしばしばあり、これは統計学の回帰分析とは大きく違う点です。その場合、最小二乗法ではパラメータの値が決まらないので、パラメータベクトルのノルムを小さくするという条件を追加する。最小ノルム最小二乗解をまともに追求する方法もあるし、残差二乗和とノルムの重み付きの和を最小化する、という方法もある。ノルムをどう定義するかもいろいろ方法があるけれども、特にパラメータベクトルの絶対値ノルムを使うことによって、パラメータの多くが0になるようにする、という手法がよく使われます。

機械学習と統計学の回帰分析

回帰分析法ですよね。

機械学習は昔はパターン認識と呼ばれていた。

企業でSQCを推進する立場の者です。

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング