爲什麼基於策略估計的方法性能優於基於行爲值函數估計的方法？例如DPG優於DQN?

時間 2021-01-20

原文原文鏈接

原因有兩個： 1.如果最終策略是確定性策略，則基於策略估計的方法採用的softmax可以逼近找到最優解，即會出現pi（a|s）=1或0的情況；而基於行爲值函數的估計的方法由於需指定ewuxilong-greedy策略中的ewuxilong參數，不能取得確定性策略，因爲ewuxilong完全等於0意味着沒有探索，其性能不會太好。 2.如果最優策略是隨機策略，則基於策略估計的方法採用的softmax可

>>阅读原文<<