[強化學習-6] 策略梯度

強化學習的目標是學習一個策略來獲得最大的累計獎勵,之前的幾篇博客是value-based的方法,即先估計狀態價值V(s)或者狀態動作價值Q(s, a),然後根據這些估值得到策略,而本文要講一下policy-based的方法。 Policy-based 簡介 value based中,有了Q值後就可以根據epsilon greedy進行策略選擇,但是這有個問題就是說這個策略是確定性策略,確定性策略是
相關文章
相關標籤/搜索