《強化學習Sutton》讀書筆記（四）——蒙特卡洛方法（Monte Carlo Methods）

時間 2020-12-30

標籤強化學習简体版

原文原文鏈接

此爲《強化學習》第五章。

上一節中的動態規劃方法需要知道整個environment的信息，但有的時候，我們只有經驗 (Experience) （比如一組採樣），而對environment沒有任何其他知識；或者我們有一個可以交互的黑盒，通過黑盒可以進行仿真得到experience，但具體黑盒內的概率模型也是不知道的（或者非常難以計算的）。這種情況下，動態規劃方法不再適用，蒙特卡洛方法 (Monte Carlo Method, MC) 成爲了新的解決方案。

蒙特卡洛估計

假設我們已經得到了一批在策略 $π$ 下的採樣，我們想以此估計每個狀態的值函數 $v_{π} (s)$ 。我們定義任一採樣中的任一時刻通過狀態 $s$ 叫做對狀態 $s$ 的一次訪問 (Visit) 。通常有兩種方法來估計 $v_{π} (s)$ 。首次訪問方法 (First-Visit MC Method) 以每個採樣下第一次訪問狀態 $s$ 時的回報的平均作爲對 $v_{π} (s)$ 的估計，每次訪問方法 (Every-Visit MC Method) 以每個採樣下每次訪問狀態 $s$ 時的回報的平均作爲對 $v_{π} (s)$ 的估計。即

\begin{aligned} v_{π} (s)_{f i r s t - v i s i t} = \frac{\sum_{e x p} G_{e x p, t}}{| G_{e x p, t} |} (S_{e x p, t} = s, S_{e x p, k} \neq s, \forall k < t) \\ v_{π} (s)_{e v e r y - v i s i t} = \frac{\sum_{e x p} G_{e x p, t}}{| G_{e x p, t} |} (S_{e x p, t} = s) \end{aligned}

注意到 $G_{t} = R_{t + 1} + G_{t + 1}$ ，所以在遍歷時，需要從後向前遍歷求出回報 $G_{t}$ 。First-Visit方法和Every-Visit方法非常類似，但在理論性質上略有不同。本章主要討論First-Visit方法，以下給出First-Visit蒙特卡洛估計方法的僞代碼。