最近、いつ泣きましたか?

強化学修のTD(λ)法についての質問ですが、
時刻tにおけるnステップでの報酬の総和をGt(n)と表記すると、
時刻Tでのエピソード・エンドの報酬の総和Gt(T)の係数はλ^(T-1)
になると思うのですが、
ものの本にある、
Gt(λ) = (1 - λ) Σ(n=1~T)λ^(n-1)Gt(n)
でのGt(T)の係数は(1 - λ)λ^(T-1)になってしまいますが、
何故、この式で正しいのでしょうか?

質問者からの補足コメント

  • 私が勘違いしているのかもしれませんが、
    たとえば、T=3の場合、
    Gt(1)の係数が(1 - λ)
    Gt(2)の係数が(1 - λ)λ
    Gt(3)の係数がλ^2
    になると理解しているのですが、
    ((1 - λ) + (1 - λ)λ + λ^2 = 1)
    Gt(3)の係数は、(1 - λ)λ^2
    になるのでしょうか?

    No.1の回答に寄せられた補足コメントです。 補足日時:2019/05/18 15:52
  • 私の理解が悪いのかもしれませんが、
    EWMAのGt(n)の係数の和は、
    (1 - λ)Σ(n=1~T)λ^(n - 1) = 1 - λ^T
    で、T ->∞の時、0<λ<1の時、
    係数の和は1に収束しますが、
    ものの本を見ると、Tをn回まで図示したものでは、
    n回目の係数は、(1 - λ)λ^(T - 1)ではなくて、λ^(T - 1)
    と記述されているようなのですが、
    これは、T ->∞としないで、途中のn=Tで打ち切る場合の
    Gt(T)の係数は、λ^(T - 1)にするという意味なのでしょうか?
    (つまり、n項までの係数の和を1にするという意味)
    どのように理解すればいいのでしょうか?

    No.2の回答に寄せられた補足コメントです。 補足日時:2019/05/23 12:33

A 回答 (2件)

#1です。



この式の形は、Exponentially Weighted Moving Average; EWMA、指数加重移動平均なので、ネットで調べてみて下さい。

ウィキだと「移動平均」でしょうかね。
この回答への補足あり
    • good
    • 0

企業でSQCを推進する立場の者です。

博士(工学)です。

1時刻前のGtはそれまでの総和だから、それに係数λを掛けて足すと、1時刻前だけに係数を掛けたもの(1の項)に加えて、2時刻前より後ろの分を2度加えることになるから引く(-λの項)のです。
この回答への補足あり
    • good
    • 0

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!