プロが教える店舗&オフィスのセキュリティ対策術

回帰方程式とはなんですか。どう求めればいいですか?

A 回答 (4件)

> 回帰方程式とはなんですか。



回帰モデル(regression model)のことを regression equationと呼ぶヒトもいるようで、その話なのだろうと思います。(方程式ではないのだから、"equation"はおかしい。)

 「xの値を測定すると、yの値が(測定しなくても)そこそこ推定できる」という関係にあるとき、
  y = f(x) + ε
と表して、f(x)をモデル(model)と呼ぶ。εはf(x)で計算した推定値と、実際のyの値とのズレであり、「残差(residue)」と呼ばれます。(残差は誤差とは別の話であることに注意。)

 モデルは理論的にカッチリ導かれる場合もあり、また、未知の(複数個の)定数(「母数(parameter)」と呼ぶ)を含む式としてのみ得られる(あるいは、自前で勝手に拵える)場合もあります。

 さて、後者の場合、値が未知の母数が式に入っているので、それだけでは使い物にならない。そこで、xの測定値とyの測定値のペアを沢山集めて、それらに基づいて母数の値を推定しておく。ひとたび母数の値がわかれば、以後、xを測定するだけでyを推定するのに使えるようになるわけです。このようなモデルを「回帰モデル」と呼ぶ。
 「データ (x[i], y[i]) (i=1,2,...,N) を使って、モデルの母数θを推定せよ」という問題は回帰分析と呼ばれます。
 推定の具体的な方法は「ある指標を最小にするようなθを計算する」という形に定式化されます。たとえば
  E = Σ {i=1〜N} |ε[i]| を最小にする
  F = Σ {i=1〜N} (ε[i])² を最小にする
などがよく使われる指標。特にFを最小化する場合を「最小二乗法」と呼ぶんです。(なお、Eを指標にするのは、近頃人気の機械学習でよく用いられる。)

 最も簡単なモデルの例として、たとえば「あるひとつの品物の重さを同じ秤で何度も測る」という測定を表すモデルは、回帰モデル
  f(x) = θ
だと考えられるでしょう。なぜなら、もちろん、何度測ったって理想的には同じ値になるはずで、その値こそが母数θである。(xは必要ない。)ところが実際に繰り返し測ると、毎回ちょっとずつ違う値が得られるだろう。そのデータを y[i] (i=1,2,...,N) とすると、
  y[i] = θ + ε[i]
ということ。未知の母数θは「品物の重さのホントの重さ(にごく近い値)」を表していると考えられる。y[i]はi回めの測定で得た測定値ですが、それはθとは毎回ズレている。そのズレが残差ε[i]です。

 このモデルにおいて、最小二乗法でθを推定することに決めたとします。すると、
  F = Σ {i=1〜N} (ε[i])²
を最小にしたいので、
  ∂F/∂θ = 0
を解けばよろしい。
  ∂F/∂θ = -2Σ {i=1〜N} (θ - y[i])
だから、
  θ = (1/N) Σ {i=1〜N}y[i]
というわけで、このモデルにおいて最小二乗法で推定されるθとは、測定値y[i](i=1,2,...,N)の平均値に他ならない。

 もうちょっと複雑な
  f(x) = θ₀ + θ₁g₁(x)+ θ₂g₂(x) + .... + θᵣgᵣ(x)
というモデル(g₁, g₂, ...,gᵣ は既知の関数で、未知の母数は (θ₀, θ₁, θ₂, ..., θᵣ) )の場合にも計算は簡単で、連立一次方程式を解けば良いだけ。こういうのを「線形最小二乗法」と呼びます。
 特に
  f(x) = θ₀ + θ₁x
という一次式で表されるモデルは「回帰直線」とも呼ばれます。

 もちろん、いつもこう簡単に行くわけではありません。対象とする事象に応じて、様々なモデルが考えられるからで、たとえば
  f(x) = θ₀ (x^θ₁) (e^(-x/θ₂)) + θ₃
のようなモデルを最小二乗法で扱うのは「非線形最小二乗法」と呼ばれ、反復計算をやって指標を最小にする母数の値を探っていく必要があります。


 で、

> どう求めればいいですか?

回帰モデルを得るには、対象ごとに工夫するんです。現象を表す理論を構成するなり、現象を観察して「多分こんなもんだろうな」という式をこしらえるなりします。
    • good
    • 0

求め方について、yhr2さんが「通常であれば最小2乗法」とおっしゃっていますが、最近のデータサイエンスでは・・・、



正則化回帰(リッジ回帰やラスー回帰)、サポートベクター回帰、ランダムフォレスト回帰、XGブースティング、さらにはベイズ回帰(状態空間モデル)などの方法も用いられます。

残念ながら、これらはエクセルの右クリックでは出来ず、Rなどの統計ソフトを用いる必要があります。
    • good
    • 0

説明変数xと目的変数yの関係を表す関数です。

その形は、入門的には、

y=α+βx

で表されます。ここで、β=Sxy/Sxx(Sは偏差平方和の記号)です。
切片αは、「回帰線は、座標(xの平均,yの平均)を通る」という性質を用いて計算します。

回帰方程式は、上記のような線形の(高次項を含む)方程式で表す「一般線形モデル」、指数関数や対数関数、ロジスティック関数のような曲線の形をとる「一般化線形モデル」、もっとグネグネな曲線を仮定しガウス関数の重畳として回帰方程式を定義する「一般化加法モデル」というように拡張されていきます。

その他に、各種スプラインやクリギングなどの手法もあります。

求め方ですが、手計算が面倒であれば、エクセルで散布図を描き、散布図上で右クリックすると回帰方程式を表示することができます。
    • good
    • 0

ああ、「決定係数」に質問はこれとセットなんだ。



通常は回帰式を求めるのに「最小二乗法」を使います。
そのときの「係数の求め方」を「回帰方程式」といっているのかな?
テキストを見ればちゃんと書いていあるはず。
「たくさんのデータ」から計算するので、計算は面倒ですよ。

こんなサイトを参考に。

https://bellcurve.jp/statistics/course/9700.html
https://bellcurve.jp/statistics/course/24375.html
    • good
    • 0

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!

このQ&Aを見た人はこんなQ&Aも見ています