在DQN算法中,神經網絡輸出的是動做的q值,這對於一個agent擁有少數的離散的動做仍是能夠的。可是若是某個agent的動做是連續的,這無疑對DQN算法是一個巨大的挑戰,爲了解決這個問題,前輩們將基於值的方法改爲了基於策略的方法,即輸出動做的機率。算法
策略梯度算法應用將來損失的return做爲更新迭代的依據,即在一個回合事後,在這一回閤中,若執行的某一動做的動做價值R大,則會加在下一回合選擇這一動做的機率,反之,若執行的某一動做的動做價值R小,則會在下一回合選擇這一動做的機率減少。所以,要想用return作爲預測動做機率的神經網絡更新的依據,就必須先擁有一個決策鏈,才能將return計算出來,所以每個更新是在一個回合結束後才能更新一個。更新的速率比較慢網絡