【RL】策略迭代法的DP, MC和TD三種實現

時間 2021-01-12

標籤 Reinforce Learning 简体版

原文原文鏈接

在第一篇博文的時候，我們已經把強化學習的目標給介紹了，基本上就是圍繞兩個價值函數和策略。但是求解這個問題並沒有那麼簡單，一個顯然的困難就是我們在改變策略的時候，價值函數也會發生變化，如何處理這個問題就是我們今天算法的核心。 0. 關於這兩個價值函數爲了更深入地瞭解這個問題，我們應該更深入地思考這兩個價值函數，下面我直接給出他們的性質：（1）q函數和v函數互轉： q轉v： v轉q：有了這個

>>阅读原文<<

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。