【RL】強化學習另一種思路：policy-based方法

時間 2020-12-21

標籤 Reinforce Learning 简体版

原文原文鏈接

之前我們所介紹的，都是所謂value-based方法，它的中心思想是：既然我們要求的策略，是在給定狀態的基礎上選擇動作。那麼我通過研究動作的價值，就可以得到最優的策略。接下來要講的是另一種所謂的policy-based的方法，他所研究的，並不是相同狀態下各個動作的價值，而是相同狀態下，選擇各個動作的概率。但是他這個概率，也是要根據所謂的價值進行更新的。所以這二者並沒有什麼太大的差別。 0. P

>>阅读原文<<

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。