【RL】強化學習另一種思路:policy-based方法

之前我們所介紹的,都是所謂value-based方法,它的中心思想是:既然我們要求的策略,是在給定狀態的基礎上選擇動作。那麼我通過研究動作的價值,就可以得到最優的策略。接下來要講的是另一種所謂的policy-based的方法,他所研究的,並不是相同狀態下各個動作的價值,而是相同狀態下,選擇各個動作的概率。但是他這個概率,也是要根據所謂的價值進行更新的。所以這二者並沒有什麼太大的差別。   0. P
相關文章
相關標籤/搜索