Monte Carlo與TD算法

時間 2019-12-05

標籤 monte carlo 算法简体版

原文原文鏈接

RL 博客：http://blog.sciencenet.cn/home.php?mod=space&uid=3189881&do=blog&view=me&from=space&srchtxt=RL&page=1php

轉自：http://blog.sciencenet.cn/home.php?mod=space&uid=3189881&do=blog&id=1128648，感謝分享html

Monte carlo 和TD 都是model-free 的估值方法， TD 用於online RL 場景算法

強化學習中的Model-free問題主要的解決思路來源於統計方法。所謂統計方法又可分爲Monte Carlo與TD算法。當學習任務可轉化爲episode task形式時，Monte Carlo與TD算法在實現上的不一樣主要體如今如何更新狀態動做值函數。n-step TD算法則是由兩種不一樣的值函數更新形式相結合所產生的，因此想要理解n-step TD算法，對Monte Carlo與TD進行透徹地的解析是十分有必要的。bootstrap

Backup Diagram的區別dom

Monte Carlo方法：每一個執行一個episode task，更新episode開始時的狀態值函數。假設一個episode開始時的狀態爲 $S t a r t$ 函數

Monte Carlo學習

TD方法：在任意一個episode task執行過程當中所遇到的每一個狀態都會被更新，且每一個狀態的更新都依賴於下一個狀態的值函數與到達下一個狀態所得到的獎勵。由於是邊執行episode邊更新值函數，這種方法又被稱爲on-line learning。實際上，相似MC方法將執行好的episode的軌跡(trajectory)保存在下來，再依照TD方法更新也能夠達到與on-line learning相同的效果，但很明顯，這個方法是off-line learning，也就是說線下與線上學習並非區分Monte Carlo與TD算法的依據。TD算法的值函數更新可用下圖表示出來：優化

TDui

由上述示意圖能夠發現，TD方法的最後一步，也就是對狀態 $S_{n}$ atom

定步長與不定步長，TD方法

定步長與不定步長的更新方法在Bandit問題裏就曾討論過，定步長實際上爲Recency-Weighted Average，不定步長則是Incremental形式。一般來講，Monte Carlo Prediction採用的是不定步長的值函數更新，TD方法則採用的是定步長形式，但也不是固定的，能夠互換使用。理論上來講，定步長與不定步長的通用形式能夠寫爲：

V n + 1 (S) = V n (S) + α (X - V n (S))

在這個式子中， $α$

Incremental Implementation做爲不定步長的一種形式，能夠說是比較好的平衡了收斂速度與均值方差之間的矛盾。對於Incremental形式來講，開始須要收斂速度時， $α$

爲了解決這個問題，咱們能夠人爲的構造出與原有須要估計的隨機變量 $X$

Y = R e w (S') + V (S')

爲何MC方法中的隨機變量 $X$

例子一：

假設共執行了N個episode，其中到達終態的episode個數分別爲N1~N7。估計狀態 $S_{1}$

V (S 1) = \sum 6 i N i R i \sum 6 i N i

若是使用TD方法，對狀態 $S_{1}$

V (S 1) = K 1 V ( S 2 ) + K 2 V ( S 3 ) K 1 + K 2 = \sum 6

至於觀察方差的變化，咱們首先將通用的值函數更新方程作一個簡單的化簡：

V n + 1 (S) = V n (S) + α (X - V n (S)) = (1 - α) V n (S)

值函數 $V (S)$

例子二：

如上圖所示，終態只有End1與End2，讓咱們假設episode到達End1所得到的Reward爲1，到達End2所得到的Reward爲0。如按照MC方法更新，則值函數通用更新方程中的隨機變量 $X$

P (X = 1) = 0.5

依據方差計算公式，隨機變量 $X$

V a r (X) = E [X 2] - (E [X]) 2 = 0.25

若是咱們按照TD方法更新，則可先計算出 $V (S_{2}) = \frac{1}{3}$

P (Y = 1 3 ) = 0.5

TD方法的估計均值偏差是MC方法的1/10，這也就是TD方法一般能夠在保持與MC方法相同的估計均值偏差的前提下會以更快的速度收斂的緣由（Random Walk問題就很好的應證了這一點，能夠參考Sutton書的Figure 6.2與Figure 6.3）。但實際上這也並不是是絕對的，MC方法的表現很是仰賴Reward設計與實際的環境，當終態數量不少時，Reward值之間比較接近時，MC方法的估計均值偏差也不必定差。

n-step TD

對於上述的例子二，可將其episode前進的過程分爲三個階段或三層（以下圖所示），所構造的待估計隨機變量 $Y = {V (S_{2}), V (S_{3})}$