爲什麼基於策略估計的方法性能優於基於行爲值函數估計的方法?例如DPG優於DQN?

原因有兩個: 1.如果最終策略是確定性策略,則基於策略估計的方法採用的softmax可以逼近找到最優解,即會出現pi(a|s)=1或0的情況;而基於行爲值函數的估計的方法由於需指定ewuxilong-greedy策略中的ewuxilong參數,不能取得確定性策略,因爲ewuxilong完全等於0意味着沒有探索,其性能不會太好。 2.如果最優策略是隨機策略,則基於策略估計的方法採用的softmax可
相關文章
相關標籤/搜索