強化學習(四)：蒙特卡羅學習(MonteCarlo)與時序差分學習(TD learning)

時間 2019-12-06

標籤強化學習 montecarlo 時序差分 learning 简体版

原文原文鏈接

上一節講的是在已知模型的狀況下，如何去解決一個馬爾科夫決策過程(MDP)問題。方法就是經過動態規劃來評估一個給定的策略，經過不斷迭代最終獲得最優價值函數。具體的作法有兩個：一個是策略迭代，一個是值迭代。從這一節開始，咱們將要進入模型未知的狀況下，如何去解決一個MDP問題的方法。所謂的模型未知，即狀態轉移機率 Pass′ P s s ′ a 這些咱們是不知道的。因此咱們沒法直接利用Bellman方程

>>阅读原文<<