【RL】策略迭代法的DP, MC和TD三種實現

在第一篇博文的時候,我們已經把強化學習的目標給介紹了,基本上就是圍繞兩個價值函數和策略。 但是求解這個問題並沒有那麼簡單,一個顯然的困難就是我們在改變策略的時候,價值函數也會發生變化,如何處理這個問題就是我們今天算法的核心。 0. 關於這兩個價值函數 爲了更深入地瞭解這個問題,我們應該更深入地思考這兩個價值函數,下面我直接給出他們的性質: (1)q函數和v函數互轉:  q轉v: v轉q: 有了這個
相關文章
相關標籤/搜索