[強化學習-6] 策略梯度

時間 2021-01-12

原文原文鏈接

強化學習的目標是學習一個策略來獲得最大的累計獎勵，之前的幾篇博客是value-based的方法，即先估計狀態價值V(s)或者狀態動作價值Q(s, a)，然後根據這些估值得到策略，而本文要講一下policy-based的方法。 Policy-based 簡介 value based中，有了Q值後就可以根據epsilon greedy進行策略選擇，但是這有個問題就是說這個策略是確定性策略，確定性策略是

>>阅读原文<<