強化學習(Policy Gradient,Actor Critic)

強化學習是通過獎懲的反饋來不斷學習的,在Q-Learning,Sarsa和DQN中,都是學習到了價值函數或對價值函數的近似,然後根據價值來選擇策略(如選擇最大價值的動作),所以這一類也被稱爲Value Based Model。但是這種處理方式有幾處瓶頸: 處理連續動作效果差。對於高維度或連續狀態空間,使用Value Based通過得到價值函數再製定策略,需要比較所有action的價值大小,此時選出
相關文章
相關標籤/搜索